Big Data & Streaming : Traitement streaming et temps réel des données en Big Data'

Votre livre pour apprendre à construire un data lake et valoriser les données massives générées en streaming ou en temps réel

Commandez votre copie maintenant et Obtenez en exclusivité ces bonus :

  • Frais de livraison offerts

    Les éditions Juvénal & Associés vous offrent gracieusement les frais de port. Nous supportons à notre charge les frais de livraison de l’ouvrage

  • Autographe de l'auteur

    Vous recevez une copie paraphée de l’autographe de l’auteur.

  • Version numérique offerte

    Une version électronique pdf de l’ouvrage d’une valeur de 35,99 euros vous est offerte en plus de l’imprimé.

De plus en plus de de cas d'usage et de modèles économiques s'appuient aujourd'hui sur des données générées en streaming. Il peut s'agir d'applications opérationnelles d'entreprises, de l'analyse du parcours client d'un site web, de la recommandation en temps réel, de la détection de fraude, de la cybersécurité, du tracking des internautes, de l'omnicanal, etc. Au dela de leur débit et de la vitesse avec laquelle elles sont produites, les données streaming se caractérisent principalement par un délai de péremption très rapide. Selon IBM, 60% de celles-ci perdent leur valeur métier dans les instants qui suivent leur création. Elles doivent donc être traitées à l'immédiat ou en temps réel pour être valorisé.

Cet ouvrage vous aidera à :
1- comprendre les concepts et notions indispensables pour aborder avec aisance la gestion des données streaming, notamment la sémantique de livraison des messages (Exactement-Une Fois, Au-Moins-Une-Fois, Au-PlusUne-Fois), l’idempotence, la persistance anticipée de messages (Write Ahead Logging), les bus d’événements, les systèmes de messageries Publish/Subscribe, le fenêtrage, le micro-batch, la cohérence streaming, la diffusion atomique, etc ;
2- appréhender et mettre en œuvre les architectures nécessaires pour ingérer efficacement les données générées en streaming, notamment le Data Lake, les bus d'événements, les architectures Lambda, les architectures kappa, et les architectures hybrides ;
3- et apprendre les technologies de l'écosystème Hadoop dédiées à l’ingestion et au traitement des données produites en streaming, notamment Apache Kafka, Spark Streaming, Flume, Apache Samza, Apache Storm et S4.

Table de matières

  • Chapter 1: Généralités sur Hadoop

    Quoi qu’on en dise, Hadoop est la plateforme la plus mature pour le traitement de données en Big Data. Ce chapitre vous explique l’approche de traitement massivement parallèle et de stockage distribué de données, qui est celle qui est appropriée actuellement pour valoriser les données massives. La compréhension de cette approche est VITALE pour comprendre Hadoop et travailler dans le Big Data

  • Chapter 2: Apache YARN

    Le traitement massivement parallèle de données dans un cluster entraîne une compétition intense entre les différents utilisateurs pour l’accès aux ressources du cluster. La containerisation  est indispensable pour mutualiser les ressources entre les jobs des différents utilisateurs du cluster.  Comprendre YARN est indispensable pour développer des applications qui pourront s’exécuter correctement en production

  • Chapter 3: Apache ZooKeeper

    Lorsqu’on travaille dans un cluster, comment gère t’on les données qui sont partagées entre plusieurs noeuds ? ZooKeeper fournit un registre distribué qui permet à un traitement distribué de gérer les données partagées. De plus, ZooKeeper est indispensable au fonctionnement de nombreuses technologies du Big Data Streaming, notamment Apache Kafka

  • Chapter 4: Le nouveau paradigme d'ingestion de données

    Avant le Big Data, l’approche Data Warehouse était utilisée pour la gestion des données. Malheureusement, en Big Data, le Data Warehouse ne peut plus jouer ce rôle de Hub central de données. Il faut plutôt construire un Data Lake. Ce chapitre vous montre comment construire un Hub central de données (le Data Warehouse et le Data Lake) et vous explique la différence entre les 2 concepts.

  • Chapter 5: Apache Kafka & Apache Flume

    Pour ingérer les données générées en streaming, un système de messagerie Publish-Subscribe couplé à une structure de données particulière appelée le Log sont nécessaires. Apache Kafka et Apache Flume sont 2 systèmes efficaces pour l’ingestion des données générées au fil de l’eau. Ce chapitre vous aidera à comprendre leur fonctionnement et leur intérêt.

  • Chapter 6: Principes du traitement streaming

    De façon traditionnel, un traitement de données se fait sur un historique persisté du fichier de données. Les données sont chargées en mémoire et le traitement y est exécuté en one-shot. Malheureusement, en streaming, cette approche n’est pas applicable car les données perdent leur valeur quelques instants après leur génération. Ce chapitre vous equipera des approches et principes nnécessaires pour traiter les données en temps réel

  • Chapter 7: Caractéristiques des systèmes de traitement streaming et temps réel

    Construire un système streaming robuste (c’est-à-dire qui va être mise en production) nécessite une de faire des arbitrages sur un certain nombre de facteurs (6 plus précisément). Ce chapitre vous explique comment faire les arbitrages qui vont vous permettre de bâtir un système streaming robuste

  • Chapter 8: Apache Storm

    Pour traiter les données en temps réel, il existe 2 grandes approches : l’approche point-par-point et l’approche par fenêtrage. Storm implémente l’approche point-par-point. Ce chapitre vous explique comment fonctionne Storm et comment l’utiliser pour traiter les données en temps réel

  • Chapter 9: Apache Samza

    Le problème avec l’approche point-par-point utilisée par certaines technologies du Big Data (Storm notamment), c’est qu’elles ne fournissent qu’une sémantique Au-Plus-Une-Fois. Les meilleurs offrent une sémantique Au-Moins-Une-Fois, cela parcequ’en cas de panne, les données sont rejouées. Samza s’appuie sur Kafka et cela fait une grande différence dans la sémantique de calculs. Ce chapitre vous aidera à comprendre Samza

  • Chapter 10 : Spark Streaming

    Pour traiter les données en temps réel, il existe 2 grandes approches : l’approche point-par-point et l’approche par fenêtrage. A la différence de Storm qui implémente l’approche point-par-point, Spark Streaming implémente l’approche par fenêtrage, encore baptisée approche micro-batch.  Ce chapitre vous aidera à utiliser Spark Streaming pour valoriser les données en temps réel

  • Chapter 11 : Apache S4

    Là où les technologies de traitement streaming s’éloigne complètement du modèle Mapreduce pour traiter les données streaming, Apache S4 propose un nouveau paradigme pour aborder les problématiques streaming : le modèle d’Acteurs et le MapReduce Online. Ce chapitre vous explique le paradigme du modèle d’acteurs et la façon dont le MapReduce Online est utilisée pour traiter les données en streaming

  • Chapter 12 : Benchmark des technologies Streaming & Temps réel

    Choisir les technologies pour les problématiques de valorisation des données streaming à large échelle nécessite de faire des arbitrages sur de nombreux facteurs. En s’appuyant sur tout l’ouvrage, ce chapitre offre des benchmark d’évaluation et des critères de sélection sur lesquels vous pouvez vous appuyer pour décider des technologies que vous allez adopter pour votre projet Big Data Streaming

En plus de ces 12 chapitres, l'ouvrage contient plus de 110 exercices sur le Big Data Streaming (et leur corrigé). Chaque chapitre de l'ouvrage s'achève d'un guide d'étude et d'un questionnaire d'exercice qui permet de consolider vos acquis de lecture.

L'ouvrage a été rédigé de façon pédagogique pour vous permettre de progresser pas-à-pas sur les problématiques du Big Data Streaming.

Commandez votre copie maintenant