Votre livre Big Data & Streaming : Traitement streaming et temps réel des données en Big Data'

Beaucoup de cas d'usage et de modèles économiques s'appuient aujourd'hui sur des données générées en streaming. Il peut s'agir d'applications opérationnelles d'entreprises, de l'analyse du parcours client d'un site web, de la recommandation en temps réel, de la détection de fraude, de la cybersécurité, du tracking des internautes, de l'omnicanal, etc.
Au dela de leur débit et de la vitesse avec laquelle elles sont produites, les données streaming se caractérisent principalement par un délai de péremption très rapide. Selon IBM, 60% de celles-ci perdent leur valeur métier dans les instants qui suivent leur création. Elles doivent donc être traitées à l'immédiat ou en temps réel pour être valorisé.
L'objectif de cet ouvrage est triple :
1- comprendre les concepts et notions indispensables pour aborder avec aisance la gestion des données streaming, notamment la sémantique de livraison des messages (Exactement-Une Fois, Au-Moins-Une-Fois, Au-PlusUne-Fois), l’idempotence, la persistance anticipée de messages (Write Ahead Logging), les bus d’événements, les systèmes de messageries Publish/Subscribe, le fenêtrage, le micro-batch, la cohérence streaming, la diffusion atomique, etc ;
2- appréhender et mettre en œuvre les architectures nécessaires pour ingérer efficacement les données générées en streaming, notamment le Data Lake, les bus d'événements, les architectures Lambda, les architectures kappa, et les architectures hybrides ;
3- apprendre les technologies de l'écosystème Hadoop dédiées à l’ingestion et au traitement des données produites en streaming, notamment Apache Kafka, Spark Streaming, Flume, Apache Samza, Apache Storm et S4.


Dans cet extrait, vous apprendrez comment aller au delà de l'ETL et ingérer les données générées en streaming à l'aide d'Apache Kafka. Cliquez sur le bouton suivant pour recevoir  directement l'extrait de 17 pages dans votre boîte mail.