De façon classique, un traitement de données se fait sur un historique persisté du fichier de données. Par exemple, un fichier client stocké sur le disque dur, une table de base de données, etc. Ce fichier dans certains cas est chargé en mémoire et le traitement y est exécuté en one-shot.
Malheureusement, en streaming, cette approche n’est pas applicable car les données arrivent au fil de l’eau. L’approche la plus appropriée pour traiter les données au fil de l’eau consiste à découper les données streaming en fenêtres (Windows) et à appliquer un traitement micro-batch sur ces fenêtres. Cette approche est communément appelée approche par fenêtrage.
Dans cette vidéo-tutoriel, nous allons vous montrer un cas d’usage de traitement streaming avec Spark Streaming : le traitement des flux de données issues de Twitter.
Si vous souhaitez aller en profondeur dans la façon dont traiter les données générées en streaming ou en temps réel avec Spark Streaming, nous vous recommandons de vous inscrire gratuitement à la formation ci-bas.