Spark Streaming : traitez les données en temps réel [tutoriel complet]

4 Partages

De façon classique, un traitement de données se fait sur un historique persisté du fichier de données. Par exemple, un fichier client stocké sur le disque dur, une table de base de données, etc. Ce fichier dans certains cas est chargé en mémoire et le traitement y est exécuté en one-shot.

Malheureusement, en streaming, cette approche n’est pas applicable car les données arrivent au fil de l’eau. L’approche la plus appropriée pour traiter les données au fil de l’eau consiste à découper les données streaming en fenêtres (Windows) et à appliquer un traitement micro-batch sur ces fenêtres. Cette approche est communément appelée approche par fenêtrage.

Dans cette vidéo-tutoriel, nous allons vous montrer un cas d’usage de traitement streaming avec Spark Streaming : le traitement des flux de données issues de Twitter.

Si vous souhaitez aller en profondeur dans la façon dont traiter les données générées en streaming ou en temps réel avec Spark Streaming, nous vous recommandons de vous inscrire gratuitement à la formation ci-bas.

4 Partages

Tutoriel Spark Streaming

Published by Juvénal JVC on

Juvénal JVC

Big Data Streaming Projet Big Data

Du Data Warehouse au Data Lake : quelle solution pour le stockage de données en Big Data ?

Big Data Streaming

Apache Kafka – mode de fonctionnement

Big Data Streaming Projet Big Data Tutoriels Big Data

Développer des applications de consommation de données avec Kafka Connect