Vous souhaitez vous orienter vers les métiers de la Data ?  Vous souhaitez devenir Data Engineer ? Le moment est approprié pour vous lancer, car c’est la data qui alimente toute les activités de nos société numérique actuelle ; par exemple : la régie publicitaire est de plus en plus basée sur la data, les compteurs intelligents avec Linky d’EDF, l’Intelligence Artificielle, l’agriculture verte, les véhicules hybrides, les objets intelligents, les objets connectés, le smart computing, etc… Bref, la viabilité de la majorité des modèles économiques de notre époque dépend de l’exploitation intelligente de la donnée.  

Les entreprises ont de plus en plus besoin de spécialistes formé(e)s aux approches de traitement massivement parallèle de données et capables de les valoriser de façon intelligente. Faites un tour sur indeed.fr et tapez-y “Data engineer” ou « Data Engineering », ou encore « ingénieur Big Data », et vous comprendrez de quoi nous parlons !  Ainsi, le timing est parfait pour faire carrière en tant que Data Engineer !! Par ailleurs, le métier de Data ingénieur est le métier qui est le plus demandé depuis l’émergence du Big Data bien devant celui de Data Scientist.

Cette chronique est une fiche métier dans laquelle nous vous expliquons les étapes complète à suivre pour devenir Data Engineer. Nous allons y parler du profil métier, de l’intérêt d’un Data engineer dans une entreprise, de ses missions, de ses compétences, de son salaire, de son évolution de carrière, et des formations à suivre pour devenir data engineer.

1 – Le profil du Data Ingénieur

Encore qualifié « d’ingénieur big data », le Data ingénieur est le premier acteur du processus de traitement de la donnée. Son travail intervient en amont de celui du Data scientist, directement après que l’infrastructure technique ait été mise en œuvre par les architectes et les administrateurs.

Le Data Engineer est spécialisé sur les problématiques de croisement et de gestion des données à large échelle en utilisant des outils et des techniques bien particulières. Une personne orientée vers ce métier  sera capable d’utiliser les frameworks de calcul massivement parallèle tels que Hadoop ou Spark pour gérer les gros volumes de données. Le Data engineer utilise son expertise technologique pour aider  les entreprises à venir à bout de leurs problèmes de qualité de données, de validation de la conformité de données aux règles de gestion définies par les directions métiers. En clair, vous vous orientez vers ce métier si vous souhaitez aider les entreprises dans les aspects opérationnels du management de leur données.

Dans la pratique, son travail quotidien va consister à se connecter à plusieurs sources de données, croiser les données, effectuer des opérations de nettoyage de données, des filtres, des jointures, gérer le stockage des données dans différentes bases de données, gérer divers sortes de formats de données, et potentiellement produire des rapports croisés de ces données.

La demande pour ce métier est en hausse constante depuis 2016 et est drivée par la transition de plus en plus croissante des entreprises des systèmes de Business Intelligence traditionnels vers les systèmes Big Data et par la mise en œuvre de Data Lab. Nous allons y revenir plus bas.

2 – Pourquoi une entreprise a-t-elle besoin d’un Data engineer ?

Qu’est ce qui motive le recrutement d’un data engineer dans une entreprise ? En fait, le Data Engineer est indispensable à une entreprise principalement pour 3 raisons :

1 – la collecte de données est par définition un processus siloté en entreprise. Cela signifie que chaque direction métier collecte et gère ses données indépendamment des autres directions. En conséquence, les données sont dispersées à travers les différentes unités business de l’entreprise : on appelle cela des « silots de données ». Avec les données « silotées », il est impossible d’avoir une vision globale de l’activité de l’entreprise. Les silos de données créent des doublons  et des versions incomplètes des données, qui elles-mêmes créent à leur tour des problèmes d’incomplétude (missing value) préjudiciables aux travaux de Machine Learning. Les entreprises souffrent énormément des problèmes engendrés par les silos de données.  L’explosion des données  dans l’ère du Big Data ont donné à ces problèmes, une importance sans précédent. Ainsi, pour prendre des décisions orientées et efficaces, il est indispensable au préalable de « dé-siloter » les données de l’entreprise, c’est-à-dire de les uniformiser et les  consolider soit dans un endroit précis (le Data Lab), soit à l’aide d’un référentiel unique (le data warehouse/data lake). Le Data Engineer intervient pour garantir l’uniformisation (ou désilotage) de ces données, et pour développer des applications qui les exploiteront.  

2 – le reporting : l’uniformisation des données n’a en réalité qu’un seul but : soutenir la prise de décision. Pour exploiter les données qui ont été nettoyées, il faut les interroger pour obtenir les indicateurs nécessaires à la prise de décision. En fonction du volume, des caractéristiques des données, et de l’outillage informatique utilisé par l’entreprise, cela peut être très complexe, au point où toute une discipline soit nécessaire pour traiter le sujet.  En matière d’interrogation de données, l’informatique décisionnelle désigne les méthodes, techniques et outils informatiques utilisés pour interroger efficacement les données et aider à la prise de décision. De part la maîtrise qu’il a de l’informatique décisionnelle, le Data engineer  est le profil le plus indiqué pour produire des rapports et indicateurs indispensables pour soutenir le suivi de l’activité de l’entreprise. 

3 – les cas d’usage complexes nécessitant des nouveaux paradigmes : la troisième situation entraînant la nécessité d’un ingénieur data en entreprise est le Big Data. Avant le Big Data, le raisonnement utilisé pour valoriser les données était relativement simple : centraliser le stockage et le traitement des données dans le serveur d’une architecture client/serveur. Le serveur central ici est une machine très puissante, conçue sur mesure par des sociétés spécialistes de l’infrastructure informatique comme EMC, Lenovo, Dell ou encore HP. Nous détaillons cette philosophie en profondeur dans la chronique « Introduction à Hadoop ». Malheureusement, dans l’ère du Big Data, ce raisonnement ne fait plus aucun sens ! En effet, l’échelle de croissance des données aujourd’hui surpasse la capacité raisonnable des technologies traditionnelles, ou même la configuration matérielle typique supportant les accès à ces données.  Le raisonnement approprié désormais consiste à distribuer le stockage des données et à paralléliser leur traitement sur les nœuds d’un cluster. Pareil, dans d’autres cas d’usages particuliers comme celui de la valorisation des données produites au fil de l’eau ou en streaming, de nouveaux paradigmes ou façon d’appréhender le cas d’usage en question sont nécessaires. Grâce à ses compétences variées et ses connaissances approfondies sur les approches conceptuelles de traitement de données, le Data Engineer est indispensable pour aborder les différents cas d’usage ou problèmes data que l’entreprise rencontre.

Voilà les 3 raisons principales qui rendent le Data Engineer indispensable à n’importe quelle entreprise qui un temps soit peu utilise la donnée dans son processus décisionnel. Maintenant, penchons-nous un peu plus sur ses missions précises.

3 – Les 4 missions du Data ingénieur

Comme vous l’avez constaté précédemment, le rôle du Data Engineer se résume en 2 points : l’uniformisation des données et leur consolidation pour la prise de décision. De ce rôle découle ses 4 missions principales :

  • Concevoir l’architecture technique nécessaire pour la valorisation de données. L’architecture peut être globale, par exemple pour des projets de construction de data lake ; ou alors locale, pour des cas d’usage spécifiques, émanant des directions métiers précises. Dans ce cas de figure, le Data Engineer doit définir et valider les choix architecturaux des solutions [Big] Data à adopter.  
  • Fournir l’expertise technologique nécessaire pour développer les solutions data appropriées aux différents cas d’usage data émanant des unités métiers de l’entreprise  (Kerberisation du cluster Hadoop, sécurisation de l’infrastructure, choix des technologies Big Data adaptées aux cas d’usage métier, développement des solutions Big Data auprès des unités métiers, modélisation et implémentation de bases de données, construction du Data Warehouse, …etc)
  • Effectuer les croisements de données nécessaires ainsi que les travaux de validation, correction, qualité, nécessaires pour soutenir le travail des data scientists en aval. A titre de rappel, les Data scientists ont besoin de données mise en qualité pour effectuer les travaux de data science, car les algorithmes de machine learning sont très sensibles aux valeurs manquantes, aux écarts (outliers), ou encore à la cohérence dans la structure interne des données. Le Data Engineer doit faire tout ce qui est nécessaire en amont pour fournir des données « propres » aux Data scientists.
  • Dans certains cas de figure, le Data Engineer peut être emmené à effectuer des analyses décisionnelles sur les données qu’il traite (quoi que dans la plupart du temps, ce rôle est dévolu au Data Analyst). Dans ce cas de figure, il effectuera des croisement de données et des travaux de consolidation menant à des reporting qui soutiendront la prise de décision, il développera des tableaux de bord et des indicateurs de performance (KPI) à l’aide de différentes technologies (en fonction du patrimoine IT de l’entreprise).  

Voilà les 4 principales missions du Data Engineer. Maintenant, nous allons vous montrer les compétences que vous devez développer pour en devenir un.

4 – Les compétences du Data Ingénieur

L’uniformisation des données, la consolidation pour des analyses décisionnelles, et le développement de solutions applicatives nécessitent des compétences très diverses, aussi bien d’un point de vue conceptuel (dans la manière d’aborder la problématique) que d’un point de vue technique (dans la maîtrise des techniques et technologies qui permettent effectivement d’implémenter la solution à la problématique).  Ainsi, de façon inhérente à la diversité des problématiques Data de façon générale, et du Big Data en particulier, le Data Engineer se doit d’être un profil avec une large panoplie de compétences, au point où il peut même être intéressant de se spécialiser uniquement dans un type de problématique : par exemple on peut avoir des data ingénieurs spécialisés uniquement sur les problématiques de bases de données, d’autre uniquement sur les problématiques de recherche de contenu, d’autres encore uniquement dans la valorisation à large échelle de données, d’autres encore dans les problématiques des données streaming et temps réel.

Si je prend mon cas par exemple, lorsque j’ai démarré ma carrière en 2015 dans l’ingénierie des données en Big Data, je me suis spécialisé sur 3 grandes problématiques : le streaming temps réel, l’interrogation des données à large échelle (avec les problématiques architecturales et de performance que celles-ci engendrent) et la construction des bases de données.

De la même manière, lorsque vous décidez de faire carrière comme data engineer, vous pouvez (et c’est recommandé), de vous spécialiser dans une problématique et avoir des connaissances de bases sur les autres problématiques. Ce sera plus facile pour vous plus tard de monter sérieusement en compétences sur les autres problématiques du Big Data.

Toutefois, quoique nous recommandons la spécialisation, tous les Data engineers ont un socle de compétences commun. Ces compétences se regroupent en deux catégories, à savoir :

  • Les compétences conceptuelles, axées sur les problématiques du management de la donnée. Il s’agit des compétences qui permettent au data engineer d’aborder conceptuellement chaque type de problématique. Par exemple, pour aborder les problématiques de traitement de données streaming, il faut maîtriser les concepts de sémantique de livraison de message, sémantique Exactement-Une-fois, diffusion atomique des messages, bus de données, système de messagerie publish-subscribe, etc.  Alors que pour aborder les problématiques de base de données, il faut connaître les différentes catégories de SGBD (SQL, NoSQL, NewSQL, Orienté colonne, clé/valeur, etc.), la modélisation décisionnelle, le stockage en environnement distribué, les cubes OLAP, etc. Chaque problématique de data engineering a des exigences spécifiques, et le data engineer doit avoir une compréhension globale de la façon dont on adresse ces exigences ;
  • Les compétences technologiques, axée sur la maîtrise des outils et des langages spécifiques, car à chaque problématique ses outils et ses langages. Par exemple, si on considère les problématiques d’interrogation à large échelle de données, les aborder techniquement nécessitera la maîtrise des framework Hadoop, Spark, Kafka, HBase, Cassandra, Hive, Pig, Oozie, et la maîtrise des langages SQL, Scala et Python. Il faudra également maîtriser les outils nécessaires au déploiement et à la gestion du cycle de vie applicatif, tel que Maven, Nexus, Git, Jenkins, etc. Mais pour les mêmes problématiques, si on est sur une échelle raisonnable de données, alors la maîtrise du SQL, et des plateformes comme Teradata sont suffisantes. A la rigueur, le python ferait même très bien l’affaire à lui tout seul. Vous voyez donc que les compétences à développer sont à géométrie variable en fonction des besoins de l’entreprise, du périmètre des projets, et des problématiques en vigueur.  Voici sa matrice de compétences complètes.

Matrice de compétences complètes du Data Engineer :

  • maîtrise des langages de programmation : ScalaJava, Python, Shell, VBA
  • connaissance du fonctionnement des systèmes d’exploitation : UNIX, Linux, Solaris, Windows
  • connaissances des solutions de bases de données SQL : Teradata, Microsoft SQL Server, SAS Base, SAP Hana
  • connaissance des systèmes NoSQL : Elasticsearch, HBase, Cassandra, Redshift
  • connaissance des processus et des outils ETL : Talent open studio, Pig Latin, Sqoop.
  • forte expertise sur le SQL et dérivés : SQL, HiveQL
  • maîtrise des framework de calcul massivement parallèle de données : Hadoop, Spark, Kafka
  • connaissance des techniques d’amélioration de la performance des requêtes et des systèmes de Business Intelligence (OLAP)  
  • savoir consolider les données, produire des KPI et construire des tableaux de bord à l’aide d’outils tels que Excel Power BI, Tableau Software, ou encore QlikView.
  • être à l’aise dans des environnements cloud : GCP, Azure HDInsight, AWS
  • être à l’aise avec les outils d’intégration et de déploiement continue : Jenkins, git, GitHub, gitlab, création de CI/CD, docker, Ansible, kubernetes, etc…
  •  avoir un niveau de connaissance basique sur le Machine Learning, Data science, et l’Intelligence Artificielle  afin de pouvoir travailler en collaboration avec les Data Scientists.

Si on reste dans le cadre stricte du Big Data,  le Data Engineer doit savoir utiliser Hadoop (Mapreduce) ou Spark pour adresser à large échelle les problématiques d’ingestion des données. Il doit maîtriser l’utilisation des catégories d’outils SQL sur Hadoop (Impala, Phoenix, HAWQ), les langages d’abstraction (HiveQL, Pig Latin) et les bases de données NoSQL (HBase, HCatalog, MongoDB). Il doit pouvoir écrire des requêtes SQL, HiveQL, Pig Latin pour l’interrogation des bases de données, il  doit pouvoir connecter les systèmes de Business Intelligence traditionnels des entreprises à Hadoop, écrire des requêtes complexes nécessaires pour résoudre des besoins métier de Reporting, de calcul d’indicateurs, et d’exploitation de données à des buts de Reporting, interroger des bases de données et les exploiter pour l’intégration des données de divers formats. La figure suivante représente bien le cercle de compétences de l’ingénieur big data.

cercle de compétences du data engineer
Figure : cercle de compétences de l’ingénieur de données avec le niveau par compétence de base

5 – Formation Data Engineer : Comment devenir ingénieur Data ?

Le moyen le plus évident pour développer vos compétences en tant que Data Engineer est de suivre un programme de Master spécialisé. Attention, lorsque nous parlons de Master spécialisé, nous ne faisons pas référence à un diplôme d’établissement français labellisé par la conférence des grandes écoles, ni à un diplôme post-master (diplôme qui s’obtient après un master) ! Nous faisons référence à tout master, que ce soit public, privé, accrédité par une conférence de grandes écoles ou pas, qui fournit exclusivement des enseignements sur le Big Data. Le but d’un tel Master est de mettre à votre disposition l’infrastructure nécessaire pour apprendre les technologies du Big Data. Certains masters peuvent rajouter à cela des enseignements métiers, montrant les aspects non-techniques de la donnée, comme les aspects juridiques, le MDM, le management de la donnée, le RGPD, etc. Malheureusement, les Masters qui forment sur le Big Data en général, et le data engineering en particulier ne sont pas nombreux. Nous en avons trouvé 4 qui sont réputés et sérieux :

  • Le Master Spécialisé Big Data de Telecom ParisTech : Télécom ParisTech est une école d’ingénieurs qui offre un Master spécialisé en Big Data sur un an intitulé « Big Data : Gestion et Analyse des données massives ». Le but de ce master est d’apporter à ses apprenants des compétences sur l’exploitation des données sur Hadoop et de compléter ces compétences par des compétences métier. De plus, Télécom Paris anime trois chaires de recherche et d’enseignement qui proposent plusieurs filières de formation autour du Big Data;
  • Le Master Spécialisé Big Data de Grenoble Ecole de Management & Grenoble INP : l’école de Management de Grenoble (Grenoble-EM) offre un Master spécialisé en Big Data comme son nom l’indique qui est le fruit d’une alliance entre deux écoles : une école d’Ingénieur (Grenoble INP) et une école de Management (Grenoble EM). Ce master est accrédité par la conférence des grandes écoles de France et se tient sur une durée de 15 mois ;
  • Le Master MSc Big Data de l’ESSEC & CentraleSupélec : ce master, intitulé « Master in Data Science & Business Analytics » est également le fruit d’une alliance entre une école de management (ESSEC) et une école d’ingénieurs (CentraleSupélec). Il propose au bout du troisième mois de formation une spécialisation sur le calcul massivement parallèle que vous pouvez choisir pour monter en compétence sur les technologies du Big Data. Ce master est accrédité par la conférence des grandes écoles de France et se tient sur une durée de 15 mois ;
  • Le Master Big Data & Machine Learning de l’EFFREI : l’EFFREI est une école d’ingénieure bien connue sur la scène française. Elle forme depuis quelques temps sur les problématiques de Data Engineering et Big Data.

Si un Master spécialisé est au dessus de vos moyens ou si pour une raison ou une autre, vous n’avez pas la possibilité de le suivre, tout n’est pas terminé ! Vous  pouvez aussi développer les compétences de Data ingénieur en passant plusieurs certifications, surtout si vous avez déjà un bon niveau en tant qu’un consultant informatique ou si vous êtes un autodidacte.  La certification valide les aptitudes et les compétences acquises sur un sujet et peuvent être un bon moyen pour vous positionner comme expert sur le sujet dans le marché (j’en possède moi-même 6). Si vous préférez ce chemin, nous vous recommandons les 3 certifications suivantes :

  • Cloudera Certified Professional Data Engineer : offerte par Cloudera, cette certification couvre les aspects d’ingestion, de transformation, de stockage et d’analyse de données sur la distribution Hadoop de Cloudera en utilisant Spark SQL, Spark Shell, Hive, Spark Streaming, Kafka, Flume, Python et bien d’autres outils de la distribution. Pour passer cette certification, Cloudera recommande de suivre la formation qu’elle a baptisée Cloudera’s Spark and Hadoop Developer ;
  • MapR Certified Hadoop Developer : offerte par MapR (racheté depuis par HP), cette certification valide les compétences sur le développement des programmes MapReduce en java. L’examen teste la capacité du candidat à écrire des programmes MapReduce, à utiliser efficacement l’API MapReduce, à gérer et à suivre l’exécution des workflows MapReduce. Bien sûr la distribution Hadoop utilisée est La distribution de MapR. Pour se préparer à l’examen, MapR invite les intéressés à suivre la formation DEV 301 – Developing Hadoop Applications ;
  • EMC DELL Certified Data Scientist Associate : avant d’être racheté par DELL, EMC a développé un programme de certification plus global que les programmes des éditeurs Hadoop. Ce programme couvre l’intégralité de l’exploitation de données, précisément les techniques d’apprentissage statistique sur MLib et sur R, les techniques de visualisation et de présentation de données, l’exploitation de GreenPlum, l’écriture des requêtes de traitement de données en MapReduce, HiveQL, et Pig, le stockage de données en HBase, la connaissance fonctionnelle des principaux outils de l’écosystème Hadoop et les compétences métier sur les problématiques de recommandation, de classification et d’analyse de sentiment. Pour passer cette certification, EMC recommande de suivre son cursus de formation « Data Science and Big Data Analytics ». Etant titulaire de cette certification, nous vous le recommandons fortement aussi ;

Si vous n’avez la possibilité ni de suivre un Master spécialisé ni passer une certification, vous pouvez vous tourner vers les MOOC (Massive Online Open Course). Les MOOC sont des formations en ligne ouvertes à tous. En ce qui concerne le Big Data, vous pouvez trouver des cours de spécialisation sur la plateforme MOOC Coursera. Rendez vous sur la plateforme et recherchez les cours Big Data qui vous intéressent. Les prix sont plutôt abordables. Regardez par exemple cette formation Data Engineering with GCP qui semble très intéressante.

Nous, Les éditions Juvénal & Associés, possédons également des formations spécifiques pour vous aider à monter en compétence sur les problématiques du Data Engineering. A la différence des Masters ou des MooC, ou même encore des certifications qui abordent le Data Engineering de façon très globale, nos formations sont spécifiques, portant sur des problématiques précises. Vous pouvez les suivre pour vous renforcer dans un domaine du Data engineering, ou alors dans le cadre d’une reconversion professionnelle. Nous disposons au moment de la rédaction de cette fiche de 3 formations et 3 ouvrages spécialisés :

Vous pouvez aussi vous initier à la data ingénierie avec nos trois ouvrages en la matière :

Maintenant que vous savez comment vous former en Data Engineering, intéressons-nous à son salaire.  

6 – Le salaire du Data Engineer

De par son expertise et la diversité de ses compétences, le Data ingénieur est un profil très recherché et encore peu répandu sur le marché. Les débouchés sont donc très nombreuses pour lui, aussi bien auprès des ESN (ex SSII) que des grands groupes.

La rémunération des ingénieurs data dépend du profil général du candidat, des technologies qu’il maîtrise et surtout de son niveau de séniorité dans cette maîtrise. Donc, pas la peine de préciser qu’en ce moment,  le marché a une forte préférence pour les profils confirmés, c’est-à-dire séniors.

Pour vous donner des indicateurs fiables de salaire, tournons-nous vers les jobboards crédibles.

Selon les estimations de Glassdoor, le salaire moyen d’un(e) Data Engineer (H/F) (France) est de 43 771 € / an au moment de la publication de cette article.  Il s’agit là d’une estimation basée sur 149 salaires postés anonymement sur Glassdoor par des employés occupant le poste de Data Engineer. Le salaire minimum affiché est de 36 000 , tandis que la fourchette haute est à 61 000 .

Chez Indeed, le salaire moyen est de 47 044 € / an.  Il s’agit d’une estimation fondée sur 272 salaires envoyés de manière anonyme à Indeed par des employés (Ingénieur Big Data (H/F)) et des utilisateurs, ainsi que sur des offres d’emploi actuelles ou publiées sur Indeed au cours des 36 derniers mois. Il faut noter qu’à la différence des autres joboard, Indeed indique également les variations de salaires en fonction de la zone géographique. Par exemple,  le salaire moyen d’un(e) Ingénieur Big Data (H/F) pour des profils seniors en île-de-France est de 52 917 € par an, ce qui est 10 % au-dessus de la moyenne nationale. Cette estimation est fondée sur 70 salaires envoyés de manière anonyme à Indeed par des employés (Ingénieur Big Data (H/F)) et des utilisateurs, ainsi que sur des offres d’emploi actuelles ou publiées sur Indeed au cours des 36 derniers mois. Vous voyez qu’au delà des compétences, le lieu où vous exercerez peut également avoir un impact significatif sur votre salaire.

salaire data engineer
Figure : table de répartition des salaires des Data Engineers (profils seniors, en ïle-de-France)

Nous vous invitons à prendre ces estimations avec des pincettes, car comme nous l’avons indiqué plus haut,  le salaire du data engineer dépend de la combinaison de beaucoup de facteurs et de l’état du marché au moment de la négociation de ce salaire.

Notez qu’à la différence des autres professions du marché de la data qui sont relativement stables, le salaire des data engineers évolue très rapidement, année après année, à cause de la demande qui continue de s’accentuer. Donc, les salaires peuvent rapidement dépasser ces estimations.

Maintenant côté freelance, les TJM varient entre 450 et 650  €  net, avec une myenne située autour de 540  €.  La variation dépend du secteur d’activité (les banques payent en moyenne mieux que la grande distribution dans le Big Data), des problématiques (le streaming est plus payé que l’interrogation de données), de la zone géographique, de votre profil général et de votre niveau d’expertise sur les technologies désirées par le client.  

7 – Evolution de carrière du Data engineer

Grâce à la diversité de son profil, le data engineer peut évoluer lors de sa carrière sur plusieurs postes, mais 2 postes sont plus probables, il s’agit d’architecte Big Data, ou de Tech Lead :

  • Evolution de carrière vers un poste d’Architecte Big Data : grâce à ses compétences conceptuelles et ses connaissances pointues du fonctionnement des différentes technologies et paradigmes de traitement de données, le Data engineer peut facilement évoluer vers une carrière d’Architecte Big Data, où ces compétences lui serviront pour conseiller les entreprises dans les architectures appropriées pour les cas d’usage data auxquelles elles font face. La transition vers le poste d’Architecte est possible après 5 ans de Data Engineering.
  • Evolution de carrière vers un poste de Tech Lead : le Poste de Technical Leader (en abbrégé Tech Lead), est la progression naturelle du Data Engineer. Généralement après 3 ans, le Data engineer a suffisamment affiné ses compétences techniques et ses compétences en ingénierie logicielle pour aisément devenir le référence technique de tout un projet Big Data. Pour plus de détails sur le rôle de tech Lead, nous vous recommandons l’article suivant – Ficher métier : Tech Lead Big Data.

8 – Différence entre Data engineer et Data Scientist

Certains commettent toujours une amalgame entre le travail d’un Data Scientist et celui d’un Data Engineer. La confusion vient  du fait que les 2 profils travaillent tous deux dans les aspects opérationnels de la donnée. Mais ne vous-y méprenez pas ! Ce sont deux métiers différents avec des rôles différents, et des fonctions différentes ! Le Data Engineer effectue le travail de qualité et de validation de données en amont, nécessaire pour le travail Data Science. Comme nous l’avons dit plus haut, les algorithmes de machine learning que le Data scientist va utiliser pour construire son modèle d’apprentissage statistique sont très sensibles à la cohérence et la qualité des données. Ainsi, là où le Data engineer est responsable de fournir des données valides, le Data Scientist est quant à lui responsable d’en tirer le sens.

Conclusion

Voilà ! Nous sommes arrivés au terme de cette fiche métier. Comme vous avez pu le voir vous-même, le timing est parfait pour vous orienter vers une carrière de Data ingénieur, car la diversité de ce profil et ses fonctions le rend indispensable à toute entreprise qui souhaite être compétitive dans l’économie numérique actuelle, une économie où la viabilité des modèles économiques dépend de l’exploitation intelligente de la donnée. Je ne peux donc que vous recommander de vous orienter vers ce métier. Nous mettons à votre disposition de nombreuses ressources et de nombreuses formation pour y parvenir.


Offres d’emploi Data Engineer

Consulter les offres d’emploi de Data Engineer


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

  • Orpheric dit :

    Très bon article ! Merci à vous 🙏

  • Placide dit :

    Un grand merci. Ces informations sont precieuse.

    • Juvénal JVC dit :

      Good ! Nous sommes contents que l’article t’ait aidé Placide.
      Bonne journée,
      Juvénal

  • Ballo dit :

    Bonjour, est ce qu’il est possible qu’avec ces 3 livres je puisse passer une certification pour être data engineer ou dois-je obligatoirement suivre les formations ?

    • Juvénal JVC dit :

      Bonjour Ballo,
      désolé pour notre réponse tardive.
      Les 3 livres sont bien, mais ils sont à complémenter avec les formations pour pouvoir avoir la pratique et acquérir l’expérience nécessaire pour passer les certifications.

      Cordialement,

      Juvénal

  • MOSSY MOSSY ISAKER NARCISSE dit :

    Très bon article Juvénal. Il est clair, concis et précis.
    Vraiment bravo et merci.

    Néanmoins, je n’arrive pas à recevoir le lien de téléchargement du livre numérique sur le développement des applications big data avec Spark en Scala et même d’autres ressources à partir de votre formulaire. Ni dans le spam, ni dans la boite de réception, ni dans l’onglet promotion de Gmail il n’y aucun lien.

    • Juvénal JVC dit :

      Bonjour,
      merci pour ton commentaire.
      Merci beaucoup ! C’est très apprécié !

      Hmmh, très bizarre. As-tu une deuxième adresse mail ? Si c’est le cas essaye avec cette adresse. Sinon, je ne voix pas vraiment ce qu’on peut faire 🙁

      Juvénal

  • FRANK FONKOUA dit :

    très édifiant. Aujourd’hui grâce à vous je suis capable de faire une différence claire entre tous les acteurs du domaine de la data.
    merci

    • Juvénal JVC dit :

      Merci beaucoup Frank !

      Juvénal

  • >