Développez des Pipelines Streaming à large échelle

Un programme hyper-pratique pour développer des pipelines streaming de bout-en-bout en moins de 3 mois !

Vous souhaitez travailler dans le Big Data en tant que Data Engineer?

Si c'est le cas, alors il vous faut être conscient d'une chose : de plus en plus de cas d'usage et de modèles économiques s'appuient sur des données générées en streaming (ou en flux continu). Il peut s'agir de la publicité en ligne avec la facturation par clic, l'analyse du parcours client, la recommandation en temps réel, la détection de fraude, la cyber-sécurité (spécialement avec l'utilisation des SIEM), le tracking des achats, l'analyse omnicanal, ou encore les objets intelligents (compteurs Linky, robots industriels, etc.). Ces cas d'usage ont atteint leur paroxysme depuis les années 2018 avec les objets connectés, l'intégration des capteurs dans les objets de la vie courante (voiture, réfrigérateur, télévision, etc.). C'est ce type de cas d'usage, caractérisé par une collecte à flux continu et un traitement en temps quasi-réel qu'on qualifie par "Streaming" ou "Big Data Streaming".

Ces problématiques sont de plus en plus préoccupantes pour les entreprises à cause de leurs enjeux concurrentiels et prennent de plus en plus de place et de budget dans les projets Big Data. Selon le cabinet d'études IDC, en 2021, les entreprises ont dépensé malgré le COVID, plus de 215 milliards de dollars US dans l'acquisition de technologies Big Data qui leur permettraient de venir à bout de ces problématiques streaming, en hausse de 10,1% par rapport à l'année dernière !

Ce sont ces dépenses qui expliquent les montées en bourse faramineuses et les levées de fonds spectaculaires qu'on observe actuellement sur le marché par les éditeurs de solutions Big Data : Snowflake, Confluent Kafka, Spark Databricks, etc.

D'un point de vue conceptuel, pour résoudre ces problématiques, les entreprises doivent mettre en place des pipelines streaming, c'est-à-dire des chaînes automatisées qui gèrent la donnée sur tout son cycle de vie, de son arrivée dans le système jusqu'à sa consommation par les métiers. A la différence des applications développées en Spark qui tournent de façon périodique indépendamment de la fréquence d'arrivée des données, les pipelines streaming traitent la donnée immédiatement dès que celle-ci arrive dans le système, en temps réel.

Lorsque le débit de réception de ces données devient important comme c'est quasiment toujours le cas avec les objets connectés, les objets intelligents ou encore le tracking applicatif, le Pipeline streaming doit passer à l'échelle et on le qualifie alors de "Large scale Streaming Pipeline" ou Pipeline streaming à large échelle.

Aujourd'hui, les entreprises attendent de tout Data Engineer qu'il soit capable de travailler sur ce type de projets, et comme vous avez pu le voir dans le challenge, elles sont prêtes à les rémunérer en conséquence : de 100 à 120$ de l'heure pour un profil qualifié dans le marché nord américain, et de 580 à 650 € le tjm pour un profil qualifié dans le marché français.

D'ailleurs, regardez les dernières statistiques réalisées par les jobboards Indeed et Talent sur les salaires des Data Engineer dans leur ensemble. Regardez les écarts de paie qu'il y'a entre les Data Engineers en fonction de leur niveau de compétences :

A gauche, dans le seul marché Québecois, la pente haute au début de la courbe indique que la majorité des Data Engineers gagnent $ 90 000/an, puis la courbe descend avec le nombre de Data Engineers plus qualifiés jusqu'à atteindre les $157 000/an ! Cela signifie que si vous travaillez dans la province du Québec en tant que Data Engineer, vous gagnerez en moyenne 90 000 $/an, par contre si vous êtes bon, qualifié, vous gagnerez à partir de 120 000 $/an, et cela pourra vite monter pour atteindre les 157 000 $/an !!

Regardez ! Dans le cas du challenge, l'entreprise proposait jusqu'à 192 000 $/an !! Vous pourrez croire que ce salaire est un cas isolé, et pourtant c'est loin d'être le cas.

En Île-de-France (le graphique à droite), la pente haute de la courbe indique que la majorité des Data Engineers gagnent 46 000 €/an, ensuite la courbe s’aplatit rapidement avec la diminution du nombre de profils qualifiés jusqu'à atteindre les 70 000 €/an !

Cela veut dire qu'entre 2 Data Engineers en France qui pratiquent le même métier, il y'a un différentiel salarial de 24 000 € ! Dans le marché francophone nord-américain, on est sur une différence qui frôle même le ridicule : 67 000 $ !

Attention !! Ne pensez pas en lisant ces chiffres que "expérimenté" est lié au nombre d'années d'expérience. A 20% oui, mais à 80%, c'est lié au niveau d'expertise du Data Engineer sur une problématique et une technologie particulière (par exemple Spark, Spark Streaming, Apache Kafka, etc.).

Aussi, ne pensez pas que ces statistiques ne sont pas fiables. Elles le sont car elles émanent des salaires remplis par les entreprises elles-mêmes sur les annonces qu'elles publient sur ces jobboard (106 salaires au Québec, et 873 en île-de-France) . De plus, de part mon expérience, je peux attester que ces chiffres sont la réalité du marché aujourd'hui puisque je suis moi-même sur le marché.

De toute les façons, si les entreprises sont prêtes à dépenser à l'échelle globale plus de 215 milliards de dollars pour se procurer des solutions Big Data, ce n'est pas payer un Data Engineer qui maîtrise l'utilisation de ces solutions 580 € de tjm ou 100 $/h qui leur poserait un problème.

Leur plus gros problème ce sont les compétences ! Elles n'arrivent pas à trouver des Data Engineers suffisamment qualifiés pour les accompagner dans leurs projets. Spécifiquement, elles n'arrivent pas à trouver des profils qualifiés, capables de :

1- résoudre les contraintes liées au traitement de données générées en streaming ou en temps réel

2- développer des pipelines streaming de bout-en-bout, les déployer en production, et les faire évoluer.

Donc, si vous êtes capables d'aller au delà des simples requêtes SQL, du simple script shell, du simple notebook Python ou Spark, qui sont les tâches qui sont souvent demandées aux Data Engineers, alors vous ferez partie du top 5% des Data Engineers qui gagnent à partir de 120 000 $/an dans la province du Québec, ou à partir de 60 000 € en Île-De-France !

Lorsque j'observe le marché, ma prédiction c'est que dans quelques temps, il n'y'aura plus de place pour les profils de Data Engineers classiques. Il n'y'aura plus de marché pour les débutants, car avec les enjeux et le volume de données que les entreprises doivent gérer aujourd'hui combinés au niveau de complexité de l'infrastucture informatique (DevOps, DevSeCoPS, MLOps, Cloud, Cluster, On-premise, etc...), elles ne peuvent plus se permettre de recruter des profils moyens, des profils qui ont une connaissance partielle du traitement de données à large échelle.

Clairement, si vous souhaitez vous positionner en tant que Data Engineer aujourd'hui et réussir votre carrière dans le futur, vos compétences en Big Data doivent aller bien au delà du simple SQL, du notebook Python ou du script Shell.

Notre formation

Développez des Pipelines Streaming à large échelle

vous professionnalisera sur la construction des pipelines streaming en moins de 3 mois !

Elle vous rendra capable d'accompagner les entreprises dans leurs projets Big Data Streaming, et de développer de bout-en-bout les applications de toute la chaîne d'un pipeline streaming en à peine 3 mois et uniquement avec l'aide de votre simple PC !

Qu'est ce que cela veut dire ?

Cela veut dire qu'à la fin de la formation, vous serez capable de développer individuellement l'ensemble des composants d'un Pipeline Streaming, et le déployer en production à large échelle, tout cela à partir de votre simple PC et rien d'autre !

La formation couvre l'intégralité des 8 activités du cycle de vie du développement d'un Pipeline streaming à large échelle telles qu'illustrées par l'image suivante :

Programme détaillé de la formation

La formation est structurée en 8 parties, une pour chacune des activités du cycle du développement d'un pipeline streaming à large échelle et totalise 64 sessions vidéo pratiques d'une durée de 25 h 45 min. Les 25 h 45 min sont réparties selon le programme suivant :

1 - Installation et paramétrage de l'environnement d'un pipeline Streaming : 41 min
Dans cette partie, nous vous apprenons à installer et configurer l'écosystème technologique d'un pipeline streaming (Kafka, Kafka Connect, Spark Streaming, IntelliJ, Git, Maven, Scala, JDK, SDK, etc.) tel que cela se fait en entreprise.
2 - Développement du module de collecte des données streaming : 4 h 04 min Une fois que l'environnement est mis en place, on commence par les bases. Vous apprendrez à développer des API qui collectent les données streaming de n'importe quel endpoint : twitter, un objet connecté, un capteur, un objet intelligent, une application web, etc.
3 - Développement du module d'ingestion de données streaming : 4 h 36 min Ensuite, vous apprendrez à développer un Producer Kafka qui se connecte à l'API streaming que vous avez précédemment développé, récupère ses données et les publient dans un cluster Kafka. Vous pourrez réutiliser ce savoir-faire pour développer des Producers Kafka qui se connectent à des sources diverses comme les serveurs FTP, les bases de données, les CRM, les SGBD NoSQL, etc.
4 - Développement du module de consommation de données streaming : 5 h 20 min Une fois que les données sont ingérées, vous apprendrez à développer des consumers, c'est-à-dire des applications qui consomment les données d'un topic Kafka. Cette partie est subdivisée en 4 sous-parties, car consommer les données de topics Kafka soulève 4 contraintes qui ont des impacts très importants sur le pipeline streaming et sur la façon de développer toutes les applications streaming de la chaîne, à savoir : comment garantir la cohérence des données streaming ? comment lire les données dans l'ordre dans lequel elles sont arrivées ? Que faire en cas de panne du Producer ? Comment garantir sa sémantique de livraison ? Nous vous apprenons également à coder dans vos applications streaming, les choix relatifs à ces différentes questions.
5 - Développement des KPI & indicateurs streaming : 4 h 45 min Une fois que vous savez consommer les données, il est temps de développer des applications de calcul d'indicateurs streaming avec Spark Streaming, car l'enjeu d'un projet Big Data Streaming est le même que celui d'un projet BI (ou d'intelligence d'affaire) classique, à savoir : l'analyse de données à des fins décisionnelles. Spark Streaming est l'outil de référence pour ce type de travaux à large échelle.
6 - Développer la scalabilité d'un pipeline streaming : 2 h 55 min Dans cette partie, vous apprendrez à réfléchir sur la scalabilité d'un pipeline streaming. Plus précisément, vous réussirer à faire passer à l'échelle les différents composants de la chaîne, notamment les KPI. Vous verrez comment utiliser Kafka Connect pour alimenter les indicateurs streaming, car dans la majorité de projets, les données internes de l'entreprise vont être utilisées pour renforcer les analyses décisionnelles. Il va donc falloir développer des producers qui se connectent des sources de données internes de l'entreprise tels que les fichiers plats, les bases de données, le HDFS, le Data warehouse, Salesforce, etc... pour les publier dans Kafka.
7 - Déploiement d'un pipeline streaming en production : 4 h 20 min Cette étape est la phase finale du développement du pipeline streaming. Dans cette partie, vous apprendrez à déployer le pipeline en production. En réalité, cette partie est subdivisée en 2. Dans un premier temps, nous vous montrons comment déployer individuellement chaque composant d'un pipeline streaming en production (le Producer, le Kafka Connect, le Cluster Kafka, l'application Spark Streaming, le Consumer). Ensuite, nous vous montrerons comment les déployer pris ensemble; cela inclut paramétrer correctement les applications pour la production, les paramétrer pour la scalabilité, compiler le code scala, créer le package .jar, et le déployer en ligne de commande.
8 - Monitorer un pipeline streaming en production : 23 min Une fois que le pipeline est en production, il faut le monitorer, ce qui implique monitorer l'ensemble de ses composants, évaluer leur fonctionnement en production et effectuer leur MCO (Mise en Condition opérationnelle). C'est ce que vous apprendrez à faire dans cette partie.

A la fin de la formation, vous maîtriserez toutes les activités du cycle de vie du développement d'un pipeline streaming, de la collecte de données au déploiement en production

Les projets à réaliser dans la formation

Pour vous permettre d'asseoir les acquis pédagogiques et les compétences que vous aurez obtenus dans cette formation, la formation est illustrée par 13 projets techniques avec des jeux de données réels que vous aurez à réaliser tout au long de celle-ci. Voici la liste de ces projets :

Projet #1 : développer un Consumer Kafka
Projet #2 : développer un Producer Kafka
Projet #3 : développer un Consumer Spark Streaming
Projet #4 : développer un Producer Kafka twitter avec HBC
Projet #5 : développer un Producer Kafka twitter avec Twitter4J
Projet #6 : développer un Consumer Spark twitter
Projet #7 : calculer des indicateurs Streaming
Projet #8 : développer un Consumer d'indicateurs Streaming avec Kafka et Spark
Projet #9 : développer une application Kafka Connect de lecture de fichier plat
Projet #10 : développer une application Kafka Connect JDBC MySQL
Projet #11 : déployer un Producer Kafka en production
Projet #12 : déployer un Consumer Kafka en production
Projet #13 : déployer une application Spark Streaming en production

Vous pouvez retrouver l'ensemble de ces projets dans le répertoire GitHub des éditions Juvénal & Associés.

En plus, vous recevez en bonus de la formation :

notre formation Programmation Scala pour le Big Data d'une durée de 2 h 32 min, qui vous est offerte en guise de cadeau pour faciliter votre montée en compétences sur scala, même si vous n'avez pas un parcours de développeur ou même si vous ne savez pas développer en scala
la formation est développée selon le principe de notice de micro-ondes. Cela signifie que nous avons découpé le travail de développement d'applications streaming en check-listes que vous aurez juste à suivre facilement. Les check-listes contiennent les dépendances à installer, les étapes à suivre, les jeux de données des cas d'usage, les versions des outils, les scripts de code et les spécificités de chaque facette du développement d'un pipeline streaming. Vous retrouverez ces check-listes ainsi que les jeux de données dans la section "Ressources" de la formation.

la formation a été développée en mode "bootcamp" (ou camp d'entraînement) pour vous plonger émotionnellement et psychologiquement dans les conditions de développement réelles d'un pipeline streaming dans de vrais projets d'entreprise.

Vous bénéficiez automatiquement des mises à jour de la formation dans votre espace membre. La formation est mise à jour régulièrement avec les dernières pratiques, les dernières nouveautés et les cas d'usage que nous trouvons intéressants. Vous bénéficierez automatiquement de ces mises à jour en tant qu'étudiant de la formation
Nous assurons un support tchat et email exclusifs pour résoudre tout problème que vous rencontrerez pendant la formation. Le support tchat et mail sont assurés tous les jours du lundi au vendredi de 09h à 18h. De plus, vous aurez accès à un groupe privé dans lequel vous pourrez interagir avec les autres étudiants.
des séances de coaching par visio-conférence sont programmées directement avec Juvénal lorsque vous rencontrez une difficulté particulière lors de la réalisation des projets (bug, erreur de configuration, d'installation, incompatibilité applicative, etc...)

Pour qui a été conçu cette formation ?

Cette formation a été conçue pour toutes les personnes qui souhaitent devenir Data Engineer. Elle sera adaptée pour les 4 types de profils suivants :

Les Data Engineers déjà en exercice, qui souhaitent se renforcer dans le traitement de données streaming et temps réel
Les ingénieurs et consultants spécialisés dans l'informatique décisionnelle/Business Intelligence (consultants Informatica, Teradata, Microsoft, SAP, etc.), qui souhaitent se réorienter dans le Big Data en tant que Data Engineer
Les développeurs logiciels (Java, full stack, web, etc.), qui souhaitent renforcer leurs compétences dans les problématiques streaming ou carrément effectuer une reconversion vers le Big Data
Et enfin les professionnels IT de type chef de projet, architecte technique, qui souhaitent se renforcer sur Kafka, Spark Streaming et tous les aspects techniques d'un projet de construction d'un pipeline Streaming

Obtenez la formation aujourd'hui pour 499 € seulement !!!

La formation coûte 499 €. soit même pas le tarif journalier d'un Data Engineer, et encore moins le tarif d'un Data Engineer spécialisé dans la construction d'un pipeline streaming . De plus, nous vous donnons la possibilité de vous la procurer en payant 4 tranches de 145 euros chacune. Profitez maintenant ! Cliquez sur le bouton suivant pour vous inscrire à la formation et faites partie des Data Engineers tant convoités par les recruteurs !

M'inscrire à la formation

100% Satisfaction Garantie

Paiement sécurisé

money back

100%

14 JOURS GARANTIE

Garantie 100% Satisfait ou remboursé de 14 jours

Cette formation n'a pas son équivalent dans toute la francophonie. Assurément, elle vous aidera à développer des compétences solides dans Kafka, Spark Streaming, Confluent, et la construction d'un pipeline streaming à large échelle. Nous en sommes si convaincus que nous l'offrons avec une garantie 100% satisfait ou remboursé de 14 jours. En d'autres termes, si dans les 14 jours qui suivent votre inscription, vous n'êtes pas satisfaits de la formation, écrivez-nous à contact@data-transitionnumerique.com et nous vous rembourserons intégralement sans aucune discussion ! A la différence des autres garanties du marché, la nôtre n'est entachée d'aucune condition !!

Ils nous font confiance

Beaucoup de clients institutionnels (universités, grande écoles d'ingénieur, bibliothèques, collectivités, ministères), et de clients privés (entreprises) nous font confiance pour fournir cette formation à leurs salariés. Voici quelques unes de nos références :

Que disent nos étudiants par rapport à la formation ?

Je conseille cette formation à toute personne qui souhaite monter en compétence dans la data engineering, et particulièrement dans le streaming

ABEL TRAORE, ENTREPRENEUR & DATA SCIENTIST

Entrepreneur, Je souhaitais monter en compétence dans la résolution des problèmes concernant le big data streaming afin de pouvoir réaliser des plateformes d'analyse de données à temps réel. Cette formation 100% pratique m'a permis de comprendre en profondeur les problématiques liées au big data streaming et de réaliser des cas d'usage. Le formateur est pédagogue, les explications sont claires. On travail sur des cas concrèts que nous pouvons rencontrer en entreprise. Le formateur est réactif sur slack pour répondre aux questions. Je conseille cette formation à toute personne qui souhaite monter en compétence dans la data engineering, et particulièrement dans le streaming.

Les cas d'usage sur lesquels on travaille tout au long de la formation sont de qualité et se rapprochent des projets réels que je rencontre dans l'exercice de mon travail

MARTIAL KONAN, DEVELOPPEUR FULL STACK

Je me suis inscrit à cette formation pour deux raisons :

1 - Je souhaitais comprendre comment aborder les problématiques de construction de pipeline streaming à large échelle

2 - Je souhaitais monter en compétence sur les technologies du Big Data Straming, notamment Hadoop, Kafka, et Spark Streaming.

J'ai réussi à atteindre ces 2 objectifs grâce à la formation. Ce que j'ai le plus apprécier ce sont les cas d'usage sur lesquels on travaille tout au long de la formation : ils sont vraiment de qualité et se rapprochent des projets réels que je rencontre dans l'exercice de mon travail.

Franchement, je recommande fortement cette formation !

J'apprécie beaucoup les échanges que j'ai régulièrement avec le formateur

CEDRIC DEFFO, CHEF DE PROJET BIG DATA

Je me suis inscrit dans cette formation parce que je souhaitais apprendre à définir un pipeline data et concevoir l'architecture d'une application streaming data. Ce que j'ai le plus apprécié sur la formation ? 2 choses :

1 - savoir déployer en production différents scénarios de pipelines streaming

2 - l'implémentation des différentes sémantiques streaming en production.

J'apprécie beaucoup les échanges que j'ai régulièrement avec le formateur.

Cette formation a le mérite de plonger l'étudiant au coeur de l'utilisation de l'outil Kafka

Achille Stéphane HYEFOUAIS,

Data Analyst/Researcher

Cette formation a le mérite de plonger l'étudiant au cœur de l'utilisation de l'outil Kafka dans le cadre de l'ingestion de données streaming depuis les sources de données comme Twitter par exemple. Elle aborde presque toutes les options qu'offre Kafka, en s'appuyant sur la documentation officielle. Les versions des outils open-sources sont suffisamment testés pour en faire un bon projet d'apprentissage. Les contenus sont bien élaborés, les présentateurs quasi-disponibles à l'écoute, ont la faculté d'anticiper sur bon nombre de problèmes que l'étudiant peut rencontrer soit en programmation soit dans un environnement de production.

En ce qui me concerne, je me suis inscrit à cette formation pour maitriser comment préparer un projet d'ingestion de données streaming et le mettre sur pied avec l'outil Kafka. Les objets mis en jeu, leurs rôles et l'opportunité de les utiliser.

En plus de comprendre comment se passe la collecte des données volatiles, j'ai appris un ensemble de possibilités offertes par Kafka notamment la création des API clients, chacune avec ses forces et faiblesses. Ce qui a été mis en avant dans cette formation, c'est la transmission de la démarche à suivre pour mettre sur pied un projet de collecte en streaming, ce qui facilitait l'auto apprentissage et le développement des compétences. La maitrise du sujet par les présentateurs, le détails dans les explications des scripts, l'utilisation de Git/GitHub, les choix technologiques comme IntelliJ, Maven, ... qui pour moi ont semblé les meilleurs pour cette formation.

Que deviennent nos étudiants après la formation ?

Nombreux sont les témoignages que nous recevons de la part de nos étudiants qui nous disent avoir trouvé un emploi de Data Engineer ou d'avoir obtenu une promotion dans leur entreprise grâce aux compétences acquises dans la formation. Voici les entreprises dans lesquelles ils évoluent ou trouvent un travail après la formation. Il y'en a plus d'une centaine à ce jour, mais nous ne représenterons que quelques unes :

Juvénal CHOKOGOUE

A propos du formateur

Juvénal CHOKOGOUE est spécialisé sur les sujets de valorisation des données à large échelle depuis 2011. Il est également l'auteur des ouvrages "Hadoop - Devenez opérationnel dans le monde du Big Data" paru chez les éditions ENI et "Maîtrisez l'utilisation des technologies Hadoop" paru chez les éditions Eyrolles. C'est un passionné de Big Data qui souhaite vous voir réussir dans ce marché en pleine expansion !

M'inscrire à la formation

100% satisfaction garantie

Paiement sécurisé

100% Satisfaction Garantie

Vous êtes totalement protégés par notre garantie 100% Satisfait ou Remboursé. Vous ne prenez aucun risque. Si dans les 14 jours, vous ne sentez pas que vous progressez vers le niveau d'un Data Engineer confirmé dans la construction de pipelines streaming, faites-nous le savoir et nous vous rembourserons promptement sans aucune question.

Questions les plus fréquemment posées

Juvénal, je souhaite payer la formation en plusieurs tranches. Est ce possible ?

est ce que la formation est un bon investissement pour moi ?

C'est bien beau, mais est-ce que vous remettez un diplôme à la fin de formation ?

Juvénal, je ne sais pas programmer en Scala :(

Les temps sont durs ! La formation est bonne mais je la trouve un peu cher quand même !

Quel PC me faut-il pour suivre cette formation et réaliser ses 13 projets ?

Que se passe t'il si après avoir acheté la formation je me rends compte que ce n'est pas ce que je recherchais ?

Juvénal, je n'ai pas le temps !

je vois que la formation est en ligne. Combien de temps ai-je accès à la formation ?

P.S.: cette formation vous propulsera au rang des meilleurs Data Engineers de toute la francophonie. Elle fera de vous le référent technique des projets Big Data Streaming de votre entreprise, ce qui vous ouvrira un champs de possibilités professionnelles et financières que vous n'imaginez même pas !

Je vous le dis par expérience car j'exerce en tant que Référent technique sur les projets Big Data depuis 2015, et je sais moi-même à quel point il est difficile de trouver des Data Engineers capables de développer un pipeline streaming automatisé. C'est d'ailleurs ce qui m'a motivé à créer cette formation. Vous avez vu le challenge que nous avons réalisé pendant la semaine et la rémunération qui y était associée n'est ce pas ? Dites-vous bien que ce type de rémunération et d'opportunités sera votre partage une fois que vous aurez acquis les compétences de cette formation.

Faites-moi confiance, inscrivez-vous, devenez un Data Engineer confirmé grâce à la formation et regardez les opportunités du Big Data s'attacher à vous !

Oui, je veux devenir un Data Engineer pro