Vous souhaitez vous lancer dans le Big Data ? Vous êtes en reconversion ? Ou alors vous êtes un étudiant et vous souhaitez vous orienter vers le Big Data ? Cette chronique a été rédigée pour vous. Vous allez y apprendrez les 6 principaux métiers du Big Data vers lesquels vous orienter et les compétences requises par chacun d’entre eux.

Métier #1 : l’ingénieur de données (Data Engineer)

Ce profil est spécialisé dans la gestion des données à large échelle. Cela signifie que cette personne sait utiliser des frameworks de calcul massivement parallèle tels que Hadoop ou Spark pour gérer les problématiques de données en entreprise. L’ingénierie de données Big Data requiert la double maîtrise des technologies du Big Data (principalement Hadoop, Spark, SQL, Hive, Pig, Oozie, ElasticSearch, Nifi, HBase, Spark Streaming, Kafka, HDFS, Shell) et des techniques de data management. (Formats de données, architectures distribuées, gestion des données en streaming, temps réel, API, services web, impact des technologies sur la performance des applications) pour résoudre des besoins métier de Reporting, de calcul d’indicateurs, et d’exploitation de données à des buts analytics.

Métier #2 : le Data Scientist

Ce profil intervient en aval de l’ingénieur de données.  C’est un métier qui porte essentiellement sur la valorisation de données. Attention ! Ne confondez pas la gestion de données (qui est du ressort du Data Engineer) de la valorisation des données (qui est du ressort du Data Scientist). Gérer la donnée c’est la mettre en forme de sorte qu’elle puisse servir de matériau brut pour la prise de décision. Valoriser les données c’est en extraire de l’information pertinente pour la prise de décision. Le métier de Data Scientist exige des compétences en modèles mathématiques comportementaux (autrement dit des modèles mathématiques qui permettent d’expliquer ou anticiper l’évolution d’une variable). Des exemples de tels modèles sont : la regression linéaire, la regression logistique, la LASSO, la Bridge, les arbres de décision, les perceptrons multi-couches, la statistique descriptive, l’inférence statistique, les K-moyennes, les K-plus proches voisins, le CHAID 2, etc.  La connaissance de ces modèles est la clé de voûte du métier de Data Scientist. Il les utilise pour anticiper le comportement d’une variable, recommander des actions à effectuer, catégoriser les données en fonction de leur degré de similarité. Dans l’e-commerce et les réseaux sociaux, c’est le Data Scientist qui développe les algorithmes de recommandation qui tournent derrières les « personnes que vous pourriez aussi connaître », les « produits que vous pourriez aussi acheter », les « pages que vous pourriez aussi aimer ». Dans le domaine de la banque, les data scientists développent des modèles de scoring qui permettent de prêter ou pas de l’argent à un individu, d’investir ou de ne pas investir sur un projet, etc.

Métier #3 : le développeur

Ce métier est comme son nom l’indique, le développement logiciel. Il fait référence à la capacité d’utiliser avec maîtrise, un langage de programmation (le Java principalement) et des API spécialisées dans le Big Data pour développer des briques applicatives qui vont compléter une plateforme de traitement massivement parallèle telle que Hadoop, Spark, HBase, etc. Attention ! à la différence du développement que fait l’ingénieur de données ou le Data scientist qui porte directement sur la data, celui du développeur est purement logiciel et porte directement sur la plateforme.  Le développeur Big Data au sens strict du terme sait manier l’exécution parallèle des travaux sur Hadoop, il sait faire du développement distribué, de la coordination de service, gérer la tolérance aux pannes, rendre un système cohérent etc.

Métier #4 : l’administrateur/Intégrateur

L’administrateur est un métier spécifiquement lié à l’administration d’Hadoop. Concrètement, l’administration d’Hadoop consiste en les tâches de constitution des ordinateurs sur lesquels Hadoop est installé (création et dimensionnement des machines virtuelles, connexion des noeuds, configuration, installation du système d’exploitation), d’installation et de configuration d’Hadoop, de gestion des défaillances (retrait des ordinateurs défaillants et remplacement par de nouveaux, de provisionnement en ressources et en redimensionnement). Elle consiste également à gérer les aspects sécuritaires, l’attribution des autorisations et des niveaux de permissions aux différents utilisateurs d’Hadoop.  Dans certains cas de figure, ce métier est combiné avec celui d’intégrateur Big Data. Auquel cas, celui-ci est également chargé de faire des Mise en production (MEP) des projets/applications sur la plateforme. L’administration/intégration requiert une forte maîtrise de Linux, des outils d’administration Hadoop (Ambari, Ranger), des protocoles de sécurité (Kerberos, SSL), du Shell, des procédures administratives de gestion des MEP et d’incidents de production, et d’une certaine mesure des outils du DevOps (Jenkins, Git, GitFlow, Docker, Sonarqube, Ansible, Maven, Nexus, artifactory, Kubernetes, outils de tests unitaire, outils de tests d’intégration, outils de tests fonctionnels, etc.).

Métier #5 : l’architecte

L’architecte est un métier technico-fonctionnel. Il fait référence d’une part à la capacité de décider des briques Hadoop nécessaires pour la résolution d’une problématique précise, et d’autre part à la capacité à intégrer cet ensemble à l’architecture informatique existante de l’entreprise ou à la modifier de sorte qu’elle puisse s’intégrer avec celle-ci. L’architecte Big Data est très peu impliqué dans les développements. II fournit la cartographie des outils Hadoop à utiliser, montre l’impact que cela aura dans l’architecture du SI de l’entreprise et travaille avec les décideurs pour la mettre en place. L’architecture Big Data c’est beaucoup de conseil sur les choix de technologies à faire, les configurations des machines, la validation de la faisabilité technique de uses case. Elle nécessite essentiellement la maîtrise des référentiels de gestion de SI d’entreprise de type CobIT, ITIL, TOGAF, la connaissance des principes d’urbanisation d’un système d’information, les architectures orientées services (SOA), l’analyse des besoins métiers et la MOA. Elle nécessite également une connaissance assez pointue des technologies principales du Big Data.

Métier #6 : le Growth Hacker

Le métier du Growth Hacking est un métier à l’intersection du marketing et du Big Data. Il consiste en l’utilisation des techniques de marketing pour accélérer rapidement et significativement la croissance (Growth) d’une entreprise, précisément d’une start-up.  Le growth hacker est à la base un professionnel du Marketing, mais qui sait faire un peu de développement informatique. Il utilise le SQL pour créer de nouvelles fonctionnalités et s’efforce de trouver des clients pour les produits de l’entreprise.  D’un point de vue purement Big Data, la définition de ce métier n’est pas encore très clair. Pour le moment, considérez- le comme un métier Marketing et non un métier Big Data.

Voilà ! Nous espérons que vous savez maintenant le métier vers lequel vous orienter pour bâtir votre carrière dans le Big Data. Gardez juste à l’esprit que ce sont les besoins des entreprises qui définissent ces métiers.  Cette liste est donc susceptible d’évoluer avec le temps. Notez également que les métiers ne sont pas classés par ordre d’importance.  Aucun métier dans la liste n’est relativement meilleur à un autre.  Nous avons rédigé l’ouvrage « Hadoop – Devenez opérationnel dans le monde du Big Data » pour vous aider à amorcer votre transition vers le Big Data. Si vous êtes vraiment sérieux dans l’idée de vous lancer dans le Big Data, nous vous recommandons de commencer par cet ouvrage.


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

>