Vous souhaitez vous orienter vers les métiers de la Data ?  Vous souhaitez devenir Ingénieur Big Data ? Le moment est approprié pour vous lancer, car c’est la data qui alimente toute les activités de nos société numérique actuelle ; par exemple : la régie publicitaire est de plus en plus basée sur la data, les compteurs intelligents avec Linky d’EDF, l’Intelligence Artificielle, l’agriculture verte, les véhicules hybrides, les objets intelligents, les objets connectés, le smart computing, etc… Bref, la viabilité de la majorité des modèles économiques de notre époque dépend de l’exploitation intelligente de la donnée.  

Les entreprises ont de plus en plus besoin de spécialistes formé(e)s aux approches de traitement massivement parallèle de données et capables de les valoriser de façon intelligente. Faites un tour sur indeed.fr et tapez-y « ingénieur Big Data », et vous comprendrez de quoi nous parlons !  Ainsi, le timing est parfait pour faire carrière en tant qu’ingénieur Big Data !! Par ailleurs, ce métier est le métier est le plus demandé depuis l’émergence du Big Data bien devant celui de Data Scientist.

Cette chronique est une fiche métier dans laquelle nous vous expliquons les étapes complète à suivre pour devenir Ingénieur Big Data. Nous allons y parler du profil métier, de ses missions, de ses compétences, de son salaire, de son évolution de carrière, et des formations à suivre.

1 – Le métier d’ingénieur Big Data

Encore qualifié « d’ingénieur de données », l’ingénieur Big Data est le premier acteur du processus de traitement de la donnée. Son travail intervient en amont de celui du Data scientist, directement après que l’infrastructure technique ait été mise en œuvre par les architectes et les administrateurs.

Il est spécialisé sur les problématiques de croisement et de gestion des données à large échelle en utilisant des outils et des techniques bien particulières. Une personne orientée vers ce métier  sera capable d’utiliser les frameworks de calcul massivement parallèle tels que Hadoop ou Spark pour gérer les gros volumes de données. Il utilise son expertise technologique pour aider  les entreprises à venir à bout de leurs problèmes de qualité de données, de validation de la conformité de données aux règles de gestion définies par les directions métiers. En clair, vous vous orientez vers ce métier si vous souhaitez aider les entreprises dans les aspects opérationnels du management de leur données.

Dans la pratique, son travail quotidien va consister à se connecter à plusieurs sources de données, croiser les données, effectuer des opérations de nettoyage de données, des filtres, des jointures, gérer le stockage des données dans différentes bases de données, gérer divers sortes de formats de données, et potentiellement produire des rapports croisés de ces données.

La demande pour ce métier est en hausse constante depuis 2016 et est drivée par la transition de plus en plus croissante des entreprises des systèmes de Business Intelligence traditionnels vers les systèmes Big Data et par la mise en œuvre de Data Lab. Nous allons y revenir plus bas. La courte vidéo ci-après récapitule très bien le métier d’ingénieur Big Data.

2 – Les 4 missions de l’ingénieur de données

L’ingénieur Big Data a 4 missions principales :

  • Concevoir l’architecture technique nécessaire pour la valorisation de données. L’architecture peut être globale, par exemple pour des projets de construction de data lake ; ou alors locale, pour des cas d’usage spécifiques, émanant des directions métiers précises. Dans ce cas de figure, il doit définir et valider les choix architecturaux des solutions [Big] Data à adopter.  
  • Fournir l’expertise technologique nécessaire pour développer les solutions data appropriées aux différents cas d’usage data émanant des unités métiers de l’entreprise  (Kerberisation du cluster Hadoop, sécurisation de l’infrastructure, choix des technologies Big Data adaptées aux cas d’usage métier, développement des solutions Big Data auprès des unités métiers, modélisation et implémentation de bases de données, construction du Data Warehouse, …etc)
  • Effectuer les croisements de données nécessaires ainsi que les travaux de validation, correction, qualité, nécessaires pour soutenir le travail des data scientists en aval. A titre de rappel, les Data scientists ont besoin de données mise en qualité pour effectuer les travaux de data science, car les algorithmes de machine learning sont très sensibles aux valeurs manquantes, aux écarts (outliers), ou encore à la cohérence dans la structure interne des données. L’ingénieur Big Data doit faire tout ce qui est nécessaire en amont pour fournir des données « propres » aux Data scientists.
  • Dans certains cas de figure, le Data Engineer peut être emmené à effectuer des analyses décisionnelles sur les données qu’il traite (quoi que dans la plupart du temps, ce rôle est dévolu au Data Analyst). Dans ce cas de figure, il effectuera des croisement de données et des travaux de consolidation menant à des reporting qui soutiendront la prise de décision, il développera des tableaux de bord et des indicateurs de performance (KPI) à l’aide de différentes technologies (en fonction du patrimoine IT de l’entreprise).  

Voilà les 4 principales missions de l’ingénieur Big Data. Maintenant, nous allons vous montrer les compétences que vous devez développer pour en devenir un.

3 – Ses compétences clés

L’uniformisation des données, la consolidation pour des analyses décisionnelles, et le développement de solutions applicatives nécessitent des compétences très diverses, aussi bien d’un point de vue conceptuel (dans la manière d’aborder la problématique) que d’un point de vue technique (dans la maîtrise des techniques et technologies qui permettent effectivement d’implémenter la solution à la problématique).  Ainsi, de façon inhérente à la diversité des problématiques Data de façon générale, et du Big Data en particulier, l’ingénieur Big Data se doit d’être un profil avec une large panoplie de compétences.

  • Les compétences conceptuelles, axées sur les problématiques du management de la donnée. Il s’agit des compétences qui lui permettent d’aborder conceptuellement chaque type de problématique. Par exemple, pour aborder les problématiques de traitement de données streaming, il faut maîtriser les concepts de sémantique de livraison de message, sémantique Exactement-Une-fois, diffusion atomique des messages, bus de données, système de messagerie publish-subscribe, etc.  Alors que pour aborder les problématiques de base de données, il faut connaître les différentes catégories de SGBD (SQL, NoSQL, NewSQL, Orienté colonne, clé/valeur, etc.), la modélisation décisionnelle, le stockage en environnement distribué, les cubes OLAP, etc. Chaque problématique data a des exigences spécifiques, et l’ingénieur de données doit avoir une compréhension globale de la façon dont on adresse ces exigences ;
  • Les compétences technologiques, axée sur la maîtrise des outils et des langages spécifiques, car à chaque problématique ses outils et ses langages. Par exemple, si on considère les problématiques d’interrogation à large échelle de données, les aborder techniquement nécessitera la maîtrise des framework Hadoop, Spark, Kafka, HBase, Cassandra, Hive, Pig, Oozie, et la maîtrise des langages SQL, Scala et Python. Il faudra également maîtriser les outils nécessaires au déploiement et à la gestion du cycle de vie applicatif, tel que Maven, Nexus, Git, Jenkins, etc. Mais pour les mêmes problématiques, si on est sur une échelle raisonnable de données, alors la maîtrise du SQL, et des plateformes comme Teradata sont suffisantes. A la rigueur, le python ferait même très bien l’affaire à lui tout seul. Vous voyez donc que les compétences à développer sont à géométrie variable en fonction des besoins de l’entreprise, du périmètre des projets, et des problématiques en vigueur.  Voici sa matrice de compétences complètes.

Matrice de compétences complètes de l’ingénieur Big Data :

  • maîtrise des langages de programmation : Scala,  Java, Python, Shell, VBA
  • connaissance du fonctionnement des systèmes d’exploitation : UNIX, Linux, Solaris, Windows
  • connaissances des solutions de bases de données SQL : Teradata, Microsoft SQL Server, SAS Base, SAP Hana
  • connaissance des systèmes NoSQL : Elasticsearch, HBase, Cassandra, Redshift
  • connaissance des processus et des outils ETL : Talent open studio, Pig Latin, Sqoop.
  • forte expertise sur le SQL et dérivés : SQL, HiveQL
  • maîtrise des framework de calcul massivement parallèle de données : Hadoop, Spark, Kafka
  • connaissance des techniques d’amélioration de la performance des requêtes et des systèmes de Business Intelligence (OLAP)  
  • savoir consolider les données, produire des KPI et construire des tableaux de bord à l’aide d’outils tels que Excel Power BI, Tableau Software, ou encore QlikView.
  • être à l’aise dans des environnements cloud : GCP, Azure HDInsight, AWS
  • être à l’aise avec les outils d’intégration et de déploiement continue : Jenkins, git, GitHub, gitlab, création de CI/CD, docker, Ansible, kubernetes, etc…
  •  avoir un niveau de connaissance basique sur le Machine Learning, Data science, et l’Intelligence Artificielle  afin de pouvoir travailler en collaboration avec les Data Scientists.
cercle de compétences de l'ingénieur big data
Figure : cercle de compétences de l’ingénieur de données avec le niveau par compétence de base

4 – Les formations à suivre pour devenir ingénieur Data

Le moyen le plus évident pour développer vos compétences en tant qu’ingénieur Data est de suivre un programme de Master spécialisé. Attention, lorsque nous parlons de Master spécialisé, nous ne faisons pas référence à un diplôme d’établissement français labellisé par la conférence des grandes écoles, ni à un diplôme post-master (diplôme qui s’obtient après un master) ! Nous faisons référence à tout master, que ce soit public, privé, accrédité par une conférence de grandes écoles ou pas, qui fournit exclusivement des enseignements sur le Big Data. Le but d’un tel Master est de mettre à votre disposition l’infrastructure nécessaire pour apprendre les technologies du Big Data. Certains masters peuvent rajouter à cela des enseignements métiers, montrant les aspects non-techniques de la donnée, comme les aspects juridiques, le MDM, le management de la donnée, le RGPD, etc. Malheureusement, les Masters qui forment sur le Big Data en général, et le data engineering en particulier ne sont pas nombreux. Après de nombreuses recherches, nous avons établi le top 10 des meilleurs Masters Big Data de France. En voici 4 extraites de cette liste :

  • Le Master Spécialisé Big Data de Telecom ParisTech : Télécom ParisTech est une école d’ingénieurs qui offre un Master spécialisé en Big Data sur un an intitulé « Big Data : Gestion et Analyse des données massives ». Le but de ce master est d’apporter à ses apprenants des compétences sur l’exploitation des données sur Hadoop et de compléter ces compétences par des compétences métier. De plus, Télécom Paris anime trois chaires de recherche et d’enseignement qui proposent plusieurs filières de formation autour du Big Data;
  • Le Master Spécialisé Big Data de Grenoble Ecole de Management & Grenoble INP : l’école de Management de Grenoble (Grenoble-EM) offre un Master spécialisé en Big Data comme son nom l’indique qui est le fruit d’une alliance entre deux écoles : une école d’Ingénieur (Grenoble INP) et une école de Management (Grenoble EM). Ce master est accrédité par la conférence des grandes écoles de France et se tient sur une durée de 15 mois ;
  • Le Master MSc Big Data de l’ESSEC & CentraleSupélec : ce master, intitulé « Master in Data Science & Business Analytics » est également le fruit d’une alliance entre une école de management (ESSEC) et une école d’ingénieurs (CentraleSupélec). Il propose au bout du troisième mois de formation une spécialisation sur le calcul massivement parallèle que vous pouvez choisir pour monter en compétence sur les technologies du Big Data. Ce master est accrédité par la conférence des grandes écoles de France et se tient sur une durée de 15 mois ;
  • Le Master Big Data & Machine Learning de l’EFFREI : l’EFFREI est une école d’ingénieure bien connue sur la scène française. Elle forme depuis quelques temps sur les problématiques de Data Engineering et Big Data.

Si un Master spécialisé est au dessus de vos moyens ou si pour une raison ou une autre, vous n’avez pas la possibilité de le suivre, vous  pouvez aussi développer les compétences de Data ingénieur en passant plusieurs certifications, surtout si vous avez déjà un bon niveau en tant qu’un consultant informatique ou si vous êtes un autodidacte.  La certification valide les aptitudes et les compétences acquises sur un sujet et peuvent être un bon moyen pour vous positionner comme expert sur le sujet dans le marché. Si vous préférez ce chemin, nous vous recommandons les 3 certifications suivantes :

  • Cloudera Certified Professional Data Engineer : offerte par Cloudera, cette certification couvre les aspects d’ingestion, de transformation, de stockage et d’analyse de données sur la distribution Hadoop de Cloudera en utilisant Spark SQL, Spark Shell, Hive, Spark Streaming, Kafka, Flume, Python et bien d’autres outils de la distribution. Pour passer cette certification, Cloudera recommande de suivre la formation qu’elle a baptisée Cloudera’s Spark and Hadoop Developer ;
  • MapR Certified Hadoop Developer : offerte par MapR (racheté depuis par HP), cette certification valide les compétences sur le développement des programmes MapReduce en java. L’examen teste la capacité du candidat à écrire des programmes MapReduce, à utiliser efficacement l’API MapReduce, à gérer et à suivre l’exécution des workflows MapReduce. Bien sûr la distribution Hadoop utilisée est La distribution de MapR. Pour se préparer à l’examen, MapR invite les intéressés à suivre la formation DEV 301 – Developing Hadoop Applications ;
  • EMC DELL Certified Data Scientist Associate : avant d’être racheté par DELL, EMC a développé un programme de certification plus global que les programmes des éditeurs Hadoop. Ce programme couvre l’intégralité de l’exploitation de données, précisément les techniques d’apprentissage statistique sur MLib et sur R, les techniques de visualisation et de présentation de données, l’exploitation de GreenPlum, l’écriture des requêtes de traitement de données en MapReduce, HiveQL, et Pig, le stockage de données en HBase, la connaissance fonctionnelle des principaux outils de l’écosystème Hadoop et les compétences métier sur les problématiques de recommandation, de classification et d’analyse de sentiment. Pour passer cette certification, EMC recommande de suivre son cursus de formation « Data Science and Big Data Analytics ». Etant titulaire de cette certification, nous vous le recommandons fortement aussi ;

Si vous n’avez la possibilité ni de suivre un Master spécialisé ni passer une certification, vous pouvez vous tourner vers les MOOC (Massive Online Open Course). Les MOOC sont des formations en ligne ouvertes à tous. En ce qui concerne le Big Data, vous pouvez trouver des cours de spécialisation sur la plateforme MOOC Coursera. Rendez vous sur la plateforme et recherchez les cours Big Data qui vous intéressent. Les prix sont plutôt abordables. Regardez par exemple cette formation Data Engineering with GCP qui semble très intéressante.

Nous, Les éditions Juvénal & Associés, possédons également des formations spécifiques pour vous aider à monter en compétence sur les problématiques du Data Engineering. A la différence des Masters ou des MooC, ou même encore des certifications qui abordent le Data Engineering de façon très globale, nos formations sont spécifiques, portant sur des problématiques précises. Vous pouvez les suivre pour vous renforcer dans un domaine du Data engineering, ou alors dans le cadre d’une reconversion professionnelle. Nous disposons au moment de la rédaction de cette fiche de 3 formations et 3 ouvrages spécialisés :

Vous pouvez aussi vous initier à la data ingénierie avec nos trois ouvrages en la matière :

Maintenant que vous savez comment vous former en Data Engineering, intéressons-nous à son salaire.  

5 – Le salaire de l’ingénieur Big Data

De par son expertise et la diversité de ses compétences, l’ingénieur Big Data est un profil très recherché et encore peu répandu sur le marché. Les débouchés sont donc très nombreuses pour lui, aussi bien auprès des ESN (ex SSII) que des grands groupes.

Leur rémunération dépend du profil général du candidat, des technologies qu’il maîtrise et surtout de son niveau de séniorité dans cette maîtrise. Donc, pas la peine de préciser qu’en ce moment,  le marché a une forte préférence pour les profils confirmés, c’est-à-dire séniors.

Pour vous donner des indicateurs fiables de salaire, tournons-nous vers les jobboards crédibles.

Selon les estimations de Glassdoor, le salaire moyen d’un(e) Ingénieur Big Data (H/F) (France) est de 43 771 € / an au moment de la publication de cette article.  Il s’agit là d’une estimation basée sur 149 salaires postés anonymement sur Glassdoor par des employés occupant le poste de Data Engineer. Le salaire minimum affiché est de 36 000 , tandis que la fourchette haute est à 61 000 .

Chez Indeed, le salaire moyen est de 50 400 € / an.  Il s’agit d’une estimation fondée sur 272 salaires envoyés de manière anonyme à Indeed par des employés (Ingénieur Big Data (H/F)) et des utilisateurs, ainsi que sur des offres d’emploi actuelles ou publiées sur Indeed au cours des 36 derniers mois. Il faut noter qu’à la différence des autres joboard, Indeed indique également les variations de salaires en fonction de la zone géographique. Par exemple,  le salaire moyen d’un(e) Ingénieur Big Data (H/F) pour des profils seniors en île-de-France est de 52 917 € par an, ce qui est 10 % au-dessus de la moyenne nationale. Cette estimation est fondée sur 70 salaires envoyés de manière anonyme à Indeed par des employés (Ingénieur Big Data (H/F)) et des utilisateurs, ainsi que sur des offres d’emploi actuelles ou publiées sur Indeed au cours des 36 derniers mois. Vous voyez qu’au delà des compétences, le lieu où vous exercerez peut également avoir un impact significatif sur votre salaire.

ingénieur big data salaire
Figure : table de répartition des salaires des ingénieurs Big Data (profils seniors, en ïle-de-France)

Nous vous invitons à prendre ces estimations avec des pincettes, car comme nous l’avons indiqué plus haut,  son salaire dépend de la combinaison de beaucoup de facteurs et de l’état du marché au moment de la négociation de ce salaire.

Maintenant côté freelance, les TJM varient entre 450 et 650  €  net, avec une myenne située autour de 540  €.  La variation dépend du secteur d’activité (les banques payent en moyenne mieux que la grande distribution dans le Big Data), des problématiques (le streaming est plus payé que l’interrogation de données), de la zone géographique, de votre profil général et de votre niveau d’expertise sur les technologies désirées par le client.  

Voilà ! Nous sommes arrivés au terme de cette fiche métier. Comme vous avez pu le voir vous-même, le timing est parfait pour vous orienter vers une carrière, car la diversité de ce profil et ses fonctions le rend indispensable à toute entreprise qui souhaite être compétitive dans l’économie numérique actuelle, une économie où la viabilité des modèles économiques dépend de l’exploitation intelligente de la donnée. Je ne peux donc que vous recommander de vous orienter vers ce métier. Nous mettons à votre disposition de nombreuses ressources et de nombreuses formation pour y parvenir.



Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

>