Livre Big Data Streaming Data Transition Numérique

Big Data & Streaming : Traitement streaming et temps réel des données en Big Data'

Votre livre pour apprendre à construire un data lake et valoriser les données massives générées en streaming ou en temps réel

Commandez votre copie maintenant et Obtenez en exclusivité ces bonus :

Frais de livraison offerts
Les éditions Juvénal & Associés vous offrent gracieusement les frais de port. Nous supportons à notre charge les frais de livraison de l’ouvrage
Autographe de l'auteur
Vous recevez une copie paraphée de l’autographe de l’auteur.
Version numérique offerte
Une version électronique pdf de l’ouvrage d’une valeur de 35,99 euros vous est offerte en plus de l’imprimé.

De plus en plus de de cas d'usage et de modèles économiques s'appuient aujourd'hui sur des données générées en streaming. Il peut s'agir d'applications opérationnelles d'entreprises, de l'analyse du parcours client d'un site web, de la recommandation en temps réel, de la détection de fraude, de la cybersécurité, du tracking des internautes, de l'omnicanal, etc. Au dela de leur débit et de la vitesse avec laquelle elles sont produites, les données streaming se caractérisent principalement par un délai de péremption très rapide. Selon IBM, 60% de celles-ci perdent leur valeur métier dans les instants qui suivent leur création. Elles doivent donc être traitées à l'immédiat ou en temps réel pour être valorisé.

Cet ouvrage vous aidera à :
1- comprendre les concepts et notions indispensables pour aborder avec aisance la gestion des données streaming, notamment la sémantique de livraison des messages (Exactement-Une Fois, Au-Moins-Une-Fois, Au-PlusUne-Fois), l’idempotence, la persistance anticipée de messages (Write Ahead Logging), les bus d’événements, les systèmes de messageries Publish/Subscribe, le fenêtrage, le micro-batch, la cohérence streaming, la diffusion atomique, etc ;
2- appréhender et mettre en œuvre les architectures nécessaires pour ingérer efficacement les données générées en streaming, notamment le Data Lake, les bus d'événements, les architectures Lambda, les architectures kappa, et les architectures hybrides ;
3- et apprendre les technologies de l'écosystème Hadoop dédiées à l’ingestion et au traitement des données produites en streaming, notamment Apache Kafka, Spark Streaming, Flume, Apache Samza, Apache Storm et S4.

Table de matières

Chapter 1: Généralités sur Hadoop
Quoi qu’on en dise, Hadoop est la plateforme la plus mature pour le traitement de données en Big Data. Ce chapitre vous explique l’approche de traitement massivement parallèle et de stockage distribué de données, qui est celle qui est appropriée actuellement pour valoriser les données massives. La compréhension de cette approche est VITALE pour comprendre Hadoop et travailler dans le Big Data
Chapter 2: Apache YARN
Le traitement massivement parallèle de données dans un cluster entraîne une compétition intense entre les différents utilisateurs pour l’accès aux ressources du cluster. La containerisation est indispensable pour mutualiser les ressources entre les jobs des différents utilisateurs du cluster. Comprendre YARN est indispensable pour développer des applications qui pourront s’exécuter correctement en production
Chapter 3: Apache ZooKeeper
Lorsqu’on travaille dans un cluster, comment gère t’on les données qui sont partagées entre plusieurs noeuds ? ZooKeeper fournit un registre distribué qui permet à un traitement distribué de gérer les données partagées. De plus, ZooKeeper est indispensable au fonctionnement de nombreuses technologies du Big Data Streaming, notamment Apache Kafka

Chapter 4: Le nouveau paradigme d'ingestion de données
Avant le Big Data, l’approche Data Warehouse était utilisée pour la gestion des données. Malheureusement, en Big Data, le Data Warehouse ne peut plus jouer ce rôle de Hub central de données. Il faut plutôt construire un Data Lake. Ce chapitre vous montre comment construire un Hub central de données (le Data Warehouse et le Data Lake) et vous explique la différence entre les 2 concepts.
Chapter 5: Apache Kafka & Apache Flume
Pour ingérer les données générées en streaming, un système de messagerie Publish-Subscribe couplé à une structure de données particulière appelée le Log sont nécessaires. Apache Kafka et Apache Flume sont 2 systèmes efficaces pour l’ingestion des données générées au fil de l’eau. Ce chapitre vous aidera à comprendre leur fonctionnement et leur intérêt.
Chapter 6: Principes du traitement streaming
De façon traditionnel, un traitement de données se fait sur un historique persisté du fichier de données. Les données sont chargées en mémoire et le traitement y est exécuté en one-shot. Malheureusement, en streaming, cette approche n’est pas applicable car les données perdent leur valeur quelques instants après leur génération. Ce chapitre vous equipera des approches et principes nnécessaires pour traiter les données en temps réel

Chapter 7: Caractéristiques des systèmes de traitement streaming et temps réel
Construire un système streaming robuste (c’est-à-dire qui va être mise en production) nécessite une de faire des arbitrages sur un certain nombre de facteurs (6 plus précisément). Ce chapitre vous explique comment faire les arbitrages qui vont vous permettre de bâtir un système streaming robuste
Chapter 8: Apache Storm
Pour traiter les données en temps réel, il existe 2 grandes approches : l’approche point-par-point et l’approche par fenêtrage. Storm implémente l’approche point-par-point. Ce chapitre vous explique comment fonctionne Storm et comment l’utiliser pour traiter les données en temps réel
Chapter 9: Apache Samza
Le problème avec l’approche point-par-point utilisée par certaines technologies du Big Data (Storm notamment), c’est qu’elles ne fournissent qu’une sémantique Au-Plus-Une-Fois. Les meilleurs offrent une sémantique Au-Moins-Une-Fois, cela parcequ’en cas de panne, les données sont rejouées. Samza s’appuie sur Kafka et cela fait une grande différence dans la sémantique de calculs. Ce chapitre vous aidera à comprendre Samza

Chapter 10 : Spark Streaming
Pour traiter les données en temps réel, il existe 2 grandes approches : l’approche point-par-point et l’approche par fenêtrage. A la différence de Storm qui implémente l’approche point-par-point, Spark Streaming implémente l’approche par fenêtrage, encore baptisée approche micro-batch. Ce chapitre vous aidera à utiliser Spark Streaming pour valoriser les données en temps réel
Chapter 11 : Apache S4
Là où les technologies de traitement streaming s’éloigne complètement du modèle Mapreduce pour traiter les données streaming, Apache S4 propose un nouveau paradigme pour aborder les problématiques streaming : le modèle d’Acteurs et le MapReduce Online. Ce chapitre vous explique le paradigme du modèle d’acteurs et la façon dont le MapReduce Online est utilisée pour traiter les données en streaming
Chapter 12 : Benchmark des technologies Streaming & Temps réel
Choisir les technologies pour les problématiques de valorisation des données streaming à large échelle nécessite de faire des arbitrages sur de nombreux facteurs. En s’appuyant sur tout l’ouvrage, ce chapitre offre des benchmark d’évaluation et des critères de sélection sur lesquels vous pouvez vous appuyer pour décider des technologies que vous allez adopter pour votre projet Big Data Streaming

En plus de ces 12 chapitres, l'ouvrage contient plus de 110 exercices sur le Big Data Streaming (et leur corrigé). Chaque chapitre de l'ouvrage s'achève d'un guide d'étude et d'un questionnaire d'exercice qui permet de consolider vos acquis de lecture.

L'ouvrage a été rédigé de façon pédagogique pour vous permettre de progresser pas-à-pas sur les problématiques du Big Data Streaming.

Ils nous font confiance

énormément de clients institutionnels (universités, grandes écoles d'ingénieurs, bibliothèques, institutions publiques) nous font confiance et ont acheté ce livre pour leurs services. Quelques exemples de reférences :

Big Data & Streaming : Traitement streaming et temps réel des données en Big Data'

Votre livre pour apprendre à construire un data lake et valoriser les données massives générées en streaming ou en temps réel

Commandez votre copie maintenant et Obtenez en exclusivité ces bonus :

Frais de livraison offerts

Autographe de l'auteur

Version numérique offerte

Table de matières

Chapter 1: Généralités sur Hadoop

Chapter 2: Apache YARN

Chapter 3: Apache ZooKeeper

Chapter 4: Le nouveau paradigme d'ingestion de données

Chapter 5: Apache Kafka & Apache Flume

Chapter 6: Principes du traitement streaming

Chapter 7: Caractéristiques des systèmes de traitement streaming et temps réel

Chapter 8: Apache Storm

Chapter 9: Apache Samza

Chapter 10 : Spark Streaming

Chapter 11 : Apache S4

Chapter 12 : Benchmark des technologies Streaming & Temps réel

Ils nous font confiance

Commandez votre copie maintenant