De façon classique, un traitement de données se fait sur un historique persisté du fichier de données. Par exemple, un fichier client stocké sur le disque dur, une table de base de données, etc.  Ce fichier dans certains cas est chargé en mémoire et le traitement y est exécuté en one-shot.

Malheureusement, en streaming, cette approche n’est pas applicable car les données arrivent au fil de l’eau. L’approche la plus appropriée pour traiter les données au fil de l’eau consiste à découper les données streaming en fenêtres (Windows) et à appliquer un traitement micro-batch sur ces fenêtres.  Cette approche est communément appelée approche par fenêtrage.

Dans cette vidéo-tutoriel, nous allons vous montrer un cas d’usage de traitement streaming avec Spark Streaming : le traitement des flux de données issues de Twitter.

Si vous souhaitez aller en profondeur dans la façon dont traiter les données générées en streaming ou en temps réel avec Spark Streaming, nous vous recommandons de vous inscrire gratuitement à la formation ci-bas.


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

>