Qu’est ce que le Big Data ? Définition complète

Le 21ème siècle a été témoin d’une explosion sans précédent du volume de données. D’après le constat des experts, des institutions publiques et privés, 90 % des données récoltées depuis le début de l’humanité ont été générées durant les 2 dernières années. Le marché qualifie  aujourd’hui de « Big Data » cette explosion de données.Malheureusement, le marché et les média limitent trop souvent la définition du Big Data aux “3V” – Volume, Vélocité, Variété. A notre avis, c’est une erreur !!

En réalité, le Big Data  est le reflet d’un changement plus profond : le passage d’une ère industrielle caractérisée par l’électricité vers une ère Numérique caractérisée par la donnée. Ce changement a entraîné de profondes modifications dans la société contemporaine : modèles économiques à coût marginal décroissant, commoditisation de la connaissance, décentralisation du pouvoir de création de l’information, suppression des barrières à l’entrée, ubérisation de la société, Internet des Objets, blockchains. Dans cette chronique, nous allons voir ensemble la définition véritable du Big Data ainsi que ses véritables enjeux fonctionnels, techniques et stratégiques.

1 – C’est quoi le Big Data ?

Un contemporain a déclaré : « la Big Data c’est comme le sexe dans les discussions des adolescents. Tout le monde en parle, mais personne n’en fait ». Cette déclaration, pour le moins vrai fait référence au fait que Le Big Data est un devenu une expression à la mode. Tout le monde en parle, des entreprises aux particuliers, mais dans la réalité, très peu savent de quoi il est véritablement question. Et comme beaucoup  affirme s’y adonner, mieux vaut également revendiquer en faire de même.  D’ailleurs, vous avez sûrement déjà votre idée intuitive au moins sur ce qu’est le Big Data.

Le terme « Big Data » a été initialement fourni par l’institut Gartner. La définition qu’il en donne est la plus universellement acceptée et reconnue est la suivante : “le Big Data est une forte volumétrie, haute Vélocité et grande Variété de données qui exigent des techniques innovantes et rentables de traitement d’information pour une meilleure prise de décision“. Ainsi, lorsque Gartner parle de Big Data, il fait référence à l’amélioration du processus de  prise de décision dans un contexte de :

  • forte volumétrie de données (Volume) ;
  • produites à haute vitesse (Vélocité) ;
  • et disponible sous des formes très diverses (Variété) ;

C’est de Gartner qu’on tient la définition 3V de la Big Data (Volume, Vélocité et Variété). Si on prête un peu plus attention à cette définition, on se rendra compte qu’elle n’est en réalité pas une définition, mais plutôt une description, la description d’un phénomène. En fait, Gartner dans cette définition est en train de caractériser un phénomène auquel il attribue le nom de « Big Data ».  On ne peut donc pas sur la base de cette définition (qui est la référence) dire qu’on « fait du Big Data ». L’expression « faire du Big Data » n’a donc pas de sens. On ne « fait pas un phénomène », on formule une réponse à un phénomène soit en « construisant des abris »[1], soit en « construisant des moulins ». Il est donc nécessaire de regarder au-delà de ce qui est essentiellement une accroche commerciale pour s’intéresser à l’intention véritable qui est au cœur de cette définition.  Selon leur définition, le Big Data est un phénomène caractérisé par 3 éléments : les données (high-volume, high-velocity and high-variety information assets), les moyens techniques et technologiques (that demand cost-effective, innovative forms of information processing) et les opportunités (for enhanced insight and decision making). Donc, ce que le Gartner essaie de réellement dire derrière le Big Data est que : le Big Data est un phénomène caractérisé par une explosion des données, données qui peuvent contenir des opportunités qu’on peut saisir, non pas à l’aide d’approches technologiques traditionnelles, mais à l’aide d’approches technologiques innovantes.

Bien que ce sont les 3V qui ont attiré l’attention des médias, des entreprises et des individus, le  Big Data n’est pas avant tout un problème de volumétrie de données, c’est d’abord un phénomène.  En d’autres termes, c’est l’expression d’un changement beaucoup plus profond. Par ailleurs, traiter une forte volumétrie de données n’est pas vraiment un « problème ». Le marché sait déjà traiter le volume de données, comme le témoigne Harper Reed, le directeur technologique de la campagne 2012 de Barack Obama.  « Le problème avec le Big data c’est le ‘Big’, qui est une erreur. […] Nous avons traités le Big et devrions nous préoccuper de la donnée ». Par contre, ce que le marché ne sait pas faire c’est tirer les opportunités de ces données pour améliorer la performance de l’entreprise. La Big Data soulève une problématique toute simple : comment peut-on exploiter toutes ces données de façon optimale ?

Nous espérons que ce point a clarifié vos idées concernant la Big Data. Nous allons maintenant vous montrer les véritables enjeux du Big Data.


[1] Les expressions « construire des abris » et « construire des moulins » viennent du proverbe chinois suivant : « lorsque le vent du changement souffle, certains construisent des moulins, tandis que d’autres construisent des abris ».

2 – Caractéristiques du Big Data

C’est un fait, aujourd’hui l’humanité produit tous les 2 jours autant de données qu’elle n’en a générée depuis l’aube de la civilisation jusqu’en 2003. Selon les études de l’IDC, cela correspond à 2 Go de données produits tous les jours par chaque homme, femme et enfant sur la planète. Pour qualifier cette explosion massive de données, le qualificatif « Big Data » a été adopté. Les entreprises sont en train de comprendre progressivement les enjeux que représentent les données qu’elles possèdent et beaucoup ont décidé d’y en tirer profit.

En juillet 2014 dernier,  le gouvernement français, par la voie de l’ex ministre Arnaud MONTEBOURG présentait les 34 plans de la Nouvelle France Industrielle (NFI), un projet de ré industrialisation  dont l’ambition est de  positionner la France stratégiquement sur  le Big Data. Par ce projet, la France montre officiellement que malgré l’engouement médiatique qu’il y’a autour du Big Data, la transition vers l’ère Numérique est bien réelle et  les opportunités du Big Data sont bel et bien existantes.  La France n’est pas le seul à avoir engagé les chantiers sur le Big Data. On note également le cas de nombreux pays tels que la chine, les Etats Unis, ou encore l’Allemagne.

Comme nous vous l’avons montré précédemment, au-delà de l’aspect volumique, le Big Data est d’abord et avant tout la face cachée d’un iceberg, l’expression visible d’un changement plus profond : la transition du monde industrielle vers le monde numérique. Ainsi, nous ne pouvons pas parler du Big Data sans parler du Numérique. Le Numérique est un phénomène et en tant que tel, il est très difficile à définir. Imaginez que l’on vous demande de définir la pluie. Vous voyez qu’il vous sera difficile d’exprimer en de termes clairs ce que c’est même si vous savez très bien ce que c’est. Il en est de même avec le Numérique et tout autre phénomène. Dans ce cas, la meilleure approche pour définir un phénomène consiste à le caractériser, c’est-à-dire le définir par ses caractéristiques. C’est cette approche que nous allons adopter.

Dans les évangiles, le jeune enseignant rabbinique originaire de Galilée dit « lorsque vous voyez les feuilles des figuiers apparaître, vous savez que l’été est proche ». Cette affirmation indique que tout comme on est capable de caractériser une saison par certains signes, il est possible à partir de certains signes de reconnaître un phénomène. Le Big Data est l’expression du Numérique, c’est un phénomène qui se caractérise par 3 éléments majeurs : l’accroissement du volume et variété des données créées, la commoditisation de l’information, et la suppression des barrières à l’entrée.  

2.1 –Le Big Data en tant que “3V” : accroissement du volume et de la variété des données créées

La première caractéristique majeure du Big Data et sans doute la plus visible de toutes est l’explosion des données. Dans le Numérique, la majeure partie des activités humaines sont automatisées, c’est-à-dire traitées par des ordinateurs. Cette automatisation génère un flux continu de données d’une volumétrie sans précédente, estimée en 2020 à 40 000 exa-octets, ou 40 trillion de giga octets (soit plus de 5200 giga octets pour chaque homme, femme et enfant de la planète) par l’IDC (International Data Corporation).

Cette explosion du volume de données  vient de l’utilisation des Smartphones. Sur plus de 7 milliards d’êtres humains, 2,5 milliards de personnes sont connectées à Internet et 1,8 milliard d’entre eux utilisent des applications de réseaux sociaux. Selon les recherches du journal La Tribune, 1 habitant sur 3 est équipé d’un Smart Phone, soit un plus de 2 milliards d’individus de la population mondiale. L’utilisation de ces Smartphones a  littéralement explosé le volume de données, données qui sont générées de plus en plus vite par des internautes qui sont de plus en plus connectés et de plus en plus actifs. Les Internautes utilisent leur Smartphone pour des activités diverses comme le blogging, le micro-blogging, le passage des commandes et achats, la recherche d’information, l’elearning, la mise à jour de leurs CV, la prise des photos, ou encore l’enregistrement des vidéos. Des études d’IDC montrent  les effets de l’utilisation des Smartphones sur la quantité de données générée :

  • L’augmentation des volumes de données capturées et stockées : selon la « Digital Universe Study » de 2011, une étude annuelle menée par l’IDC : « en 2011, la quantité d’information créée et répliquée surpassera 1.8 Zetta Octets, croissant d’un facteur de 9 en juste 5 ans. » Rien qu’en 2011 déjà, on peut constater que l’échelle de la croissance des données produites surpasse la capacité raisonnable des Systèmes de Gestion de Bases de Données Relationnelles traditionnelles (SGBDR), ou même la configuration matérielle typique supportant les accès aux données basées sur les fichiers ;
  • L’accélération rapide de la croissance des données : en juste 1 an plus tard, c’est-à-dire en 2012, la même étude postulait que « de 2005 à 2020, l’univers digital croitra d’un facteur de 300, de 130 exa octets à 40000 exa octets, ou 40 trillion de giga-octets (soit plus de 5200 giga-octets pour chaque homme, femme et enfant en 2020). De maintenant à 2020, l’univers digital va à peu près doubler tous les 2 ans ;
  • Croissance du volume de données qui transitent  sur les réseaux informatique : selon l’Index annuel de prévision des réseaux établi par Cisco, en 2016, le trafic IP global annuel est estimé à 1.3 Zetta octets. Cet accroissement dans le trafic réseau est attribué à l’accroissement du nombre des Smart phones, tablettes et autres appareils connectés à internet, la croissance des communautés d’utilisateurs Internet, la croissance de la Bande passante d’Internet et la rapidité offerte par les opérateurs de télécommunication, et la prolifération de la disponibilité et de la connectivité du Wi-Fi. Plus de données canalisées vers des canaux de communication plus larges crée de la pression pour la capture et la gestion de ces données de façon cohérente et rapide ;
  • La croissance des différents types d’actifs de données pour les analyses : comparé aux méthodes traditionnelles de capture et d’organisation des données structurées, les analystes de données cherchent des moyens de tirer profit des données non-structurées et d’acquérir les données d’une large variété de sources. Certaines de ces sources peuvent refléter des éléments de structure minimalistes (tels que les logs d’activité des serveurs Web, les logs d’appels d’un centre appel), tandis que d’autres sont complètement non-structurées ou même limitées à des formats spécifiques (tels que les données des réseaux sociaux qui combinent contenu textuel, images, audio et vidéo). Pour extraire un signal utilisable de ce bruit, les entreprises doivent améliorer leurs approches structurées de gestion de données pour prendre en compte la sémantique textuelle et l’analyse de flux de données ;

Du côté des entreprises, on note une nouvelle catégorie d’offre qui renforce cette communion entre explosion de données et ubiquité de l’accès à Internet : les objets connectés ou IoT (Internet of Things). L’Internet des objets consiste à prendre le contrôle des objets de la vie courante comme un téléviseur, un véhicule, une maison, par Internet. Pour ce faire, des capteurs sont intégrés dans ces objets et ces capteurs génèrent un volume énorme de données qui est ensuite exploitée. La perspective de l’IoT est plus large que l’intégration des capteurs dans les objets connectés. Dans un futur proche, l’objectif sera de les doter tous d’une adresse IP à travers laquelle on pourra les contrôler via Internet.  Le Gartner a dénombré 6,4 milliards d’objets connectés dans le monde en 2016, et  prévoit qu’il sera de 20,8 milliards en 2020.  Les objets connectés sont une source de génération de données en Streaming. Sur ce site, nous offrons des formations spécialisées qui vous aident à acquérir des compétences sur le traitement des données streaming et temps réel. Si le sujet vous intéresse, vous pouvez télécharger la mini-formation gratuite suivante.

La gestion de cette volumétrie de données va exiger la conception et la mise au point de nouveaux modèles de calcul distribués, et de nouveaux modèles d’infrastructure informatique massivement parallèle.

2.2 –Le Big Data et la commoditisation  de l’information

La deuxième caractéristique du Big Data c’est l’explosion du niveau avec lequel la population communique. Cela est dû à la combinaison de deux facteurs : la mise à disposition d’Internet au grand public et l’émergence de l’utilisation des Smartphones. Là où il a nécessité à la radio 30 ans pour atteindre une audience de 50 millions de personnes, il n’a nécessité que 13 ans à la télévision, 4 ans à Internet, 3 ans à l’iPad, et 2 ans à Facebook. L’ubiquité d’Internet et les Smartphones ont permis à la population d’être connectée et de communiquer à l’échelle mondiale par le moyen des réseaux sociaux. Sur plus de 7 milliards d’êtres humains, 2,5 milliards de personnes sont connectées à Internet et 1,8 milliard d’entre eux utilisent des applications de réseaux Sociaux tels que Twitter, Facebook, LinkedIn, Viadeo, etc. Les Internautes utilisent leur Smartphone pour des activités diverses comme l’envoi de mails, le blogging, le micro-blogging, le passage des commandes et achats, la recherche d’information, l’elearning, ou encore la mise à jour de leurs CV. Cette activité génère une quantité phénoménale de données. Selon Planetoscope, le site de statistique mondial (http://www.planetoscope.com ) :

  • Seulement en 2013, 183 milliards de mails ont été envoyés dans le monde (hors-spam) chaque jour. C’est environ 2 115 000 mails par seconde ;
  • Ce sont 2,46 millions de contenus  qui sont partagés sur Facebook par minute ;
  • ce sont chaque seconde près de 39.000 recherches qui sont faites sur le moteur de recherche Google par les internautes. Cela représente 3,3 milliards de requêtes sur le moteur de recherche Google par jour ;
  • ce sont 72,9 achats qui sont faits sur le site d’Amazon en moyenne  par seconde ;
  • ce sont 50 Million de Tweets qui sont postés par jour sur Twitter ;

Cette activité de communication d’échelle mondiale entraîne la commoditisation ou banalisation de l’information. Désormais, l’information est commode, c’est-à-dire accessible à n’importe qui et n’importe où. Cela signifie que les possibilités d’apprentissage sont bien plus élevées et que chacun peut désormais se former dans le domaine qu’il veut indépendamment de sa localisation géographique (en particulier les pays défavorisés), et de son niveau de revenu. D’ailleurs, selon Bill Gates, les ordinateurs et les technologies vont propager les richesses plus équitablement entre la population [que les programmes de macro-économie]. Force est de constater que nous ne pouvons que suivre son sens. Il le dit en ces termes : « dans l’histoire de l’humanité, les avantages technologiques provenaient de la disponibilité de certaines plantes, animaux et localisation géographique. Dans la société numérique actuelle, les ressources naturelles critiques sont l’intelligence humaine, la compétence et le leadership. Toutes les régions du monde possèdent ces 3 ressources en abondance, ce qui promet de rendre le prochain chapitre de l’histoire de l’humanité particulièrement intéressant ». Cela remet  en question le fondement de beaucoup de nos institutions actuelles, en commençant par le système académique fondé sur l’université, qui détenait jusque lors le monopole du savoir et qui était l’institution légale d’accréditation des compétences. Les tendances technologiques qui en émergent comme le Cloud Computing remet en question les définitions actuelles de la notion de Territoire (avec le Patriot Act), la notion de souveraineté des Nations, la notion de Liberté Individuelle, entre autre. L’adaptation à l’ère Numérique va exiger la mise à plat de nos concepts actuels et leur redéfinition.

2.3 –Le Big Data : la suppression des barrières à l’entrée

La troisième caractéristique du Big Data est la suppression des barrières à l’entrée. En économie, la notion de barrière à l’entrée fait référence à tout élément susceptible d’empêcher des entreprises de se lancer dans un secteur économique particulier. Il peut s’agir d’un prix trop bas, pratiqué par les entreprises existantes du secteur pour empêcher des concurrents de s’y lancer. Ce prix peut être tellement bas que vendre à ce prix n’est pas suffisant pour couvrir ses coûts de production. Un autre élément qui peut constituer une barrière à l’entrée ce sont les coûts fixes. Par exemple, dans l’industrie, les coûts fixes sont tellement élevés que toutes les entreprises ne peuvent pas s’y lancer. Plusieurs autres éléments peuvent constituer des barrières à l’entrée. Par exemple la réglementation du secteur, les impôts à payer, les charges sociales des employés, les procédures administratives, etc.

Le Big Data a renversé beaucoup de barrières à l’entrée et par là, favorise l’entreprenariat. A des exceptions de quelques secteurs d’activité près, il est désormais plus simple pour n’importe qui d’entrer sur le marché, de créer sa propre entreprise et de rivaliser avec les entreprises existantes. Dans l’ère industrielle précédente, la consommation était relativement stable et prévisible, la capacité de baisser les coûts de transaction et les coûts de production étaient suffisants pour qu’une entreprise réussisse. A juste effet, Jean Baptiste SAY l’un des économistes de l’ère industrielle a dit : « l’offre crée sa propre demande, il ne peut y avoir de surproduction ». Le fait de pouvoir faire des prévisions fiables sur la demande des consommateurs, sur les salaires et sur le coût des matières premières, permettaient aux entreprises d’amortir leurs de coûts de production à l’aide de la quantité produite (elles savaient qu’elles allaient vendre toute leur production). Les entreprises fusionnaient entre elles et formaient des conglomérats  qui empêchaient toute entrée d’un éventuel concurrent dans le marché et dont les capacités de production baissaient les prix et asphyxiaient les concurrents de faible taille. Conséquence, le marché était constitué en majorité de conglomérats monopolistiques.  Mais ça, c’était avant !

L’économie de l’ère Numérique favorise l’entreprenariat et permet à n’importe qui de créer sa propre entreprise. 2 facteurs principaux  sont à l’origine de cela, il y’a d’une part Internet, qui supprime les barrières géographiques et physiques qui existent entre les individus et permet de produire des services qui peuvent être offerts à l’échelle mondial sans augmentation des coûts de transaction, fournit  l’accès à la connaissance pour améliorer ses produits/services, et il y’a d’autre part l’émergence des modèles d’affaire plus flexibles basés sur des structures de coûts flexible, tel que le Pay-as-You-Go (ou paiement à l’usage, est un modèle économique qui consiste à facturer uniquement à l’usage, sur la base de l’abonnement à l’utilisation périodique d’un service) du Cloud Computing, qui permet d’entrer dans le marché sans avoir à faire des investissements important en termes d’infrastructure informatique, les modèles économiques basés sur l’affiliation, etc.

Dans l’ère Numérique, la demande des consommateurs n’est plus aussi prévisible qu’elle était dans l’ère industrielle, elle est en constante évolution, ce qui pénalise les modèles économiques à coûts fixes élevés sur lesquels sont bâties la plupart des entreprises traditionnelles. L’économie Numérique exige des modèles économiques flexibles et en constante évolution. Un nouveau type d’entreprises a compris cela : les start-up. Les start-up sont différentes des autres entreprises pas par leur taille comme beaucoup le pensent, mais par le fait qu’elles se réinventent constamment. Ainsi, une start-up n’est pas une entreprise qui vient d’être créée, mais c’est une entreprise  de grande ou petite taille qui est en réinvention continue de son modèle d’affaire. Les start-up profitent des avantages de l’ère Numérique, notamment de la disponibilité des données et de la flexibilité de la structure de coûts offerts  pour développer des produits en aval de la chaîne de production et progressivement, par intégration verticale, totalement pénétrer le secteur d’activité, jusqu’à en détenir le monopole. Les GAFA (Google Apple, Facebook et Amazon), Uber, AirBnB sont des exemples de succès des modèles de start-up qui ont menacés les lettres par les mails, les CD par les téléchargements, les livres par l’e-book, le commerce par l’e-Commerce. Ces nouveaux acteurs exhibent des modèles économiques plus dynamiques, prompt à l’expérimentation et au changement, ce qui leur permet de croître très rapidement. D’après les statistiques rapportées par les travaux du CNNum (Conseil National Numérique), Sur les 100 premières entreprises françaises, une seule a moins de 30 ans : Free. Sur les 100 premières européennes, 9. Sur les 100 premières américaines, 63 ! Ces statistiques montrent que le modèle de réinvention continue de Start-up qui a démarré aux USA dans la Sillicon Valley il y’a quelques années a réussi à faire émerger en moins d’un siècle des petites entreprises en géants similaire (ou si ce n’est plus grand) aux entreprises du CAC40, établies depuis bien fort longtemps. La longévité et l’agglomération en conglomérats ne sont donc plus des signes de sécurité pour les entreprises traditionnelles. La suppression des barrières à l’entrée provoquée par le Big Data va forcer les entreprises traditionnelles établies sur le marché depuis longtemps à se réinventer, ce qui va les emmener à devoir s’interroger sur la mise en place de nouveaux modèles économiques, l’exploitation innovante de la donnée, et le leadership qui va avec. Toutes ces problématiques sont autant d’opportunités qu’il faudra saisir. Si vous souhaitez aller plus loin dans la compréhension du Big Data, nous vous recommandons de suivre cette session de cours vidéo de 14 min.

Définition véritable du Big Data

3 –Les véritables enjeux du Big Data

Maintenant que vous avez compris ce que c’est que le Big Data et ses différents facteurs d’émergence, il est temps que vous compreniez ses enjeux véritables. En clair, les besoins concrets des entreprises en matière de Big Data.

En Juin dernier, le magasine informatique Le MAG IT nous a posé la question suivante :

Juvénal, votre ouvrage Hadoop – Devenez opérationnel dans le monde du Big Data aborde le problème de la compréhension des technologies Hadoop. Selon vous, les entreprises françaises ont-elles atteint un niveau de maturité suffisant pour faire éclore des projets en production réelle, et non plus se cantonner aux PoC sans vrai usage à valeur ?

En clair, le journaliste voulait savoir si au-delà des PoC (Proof of Concept), les entreprises avaient réellement des besoins dans le Big Data. En tant que consultant directement impliqué dans la valorisation des données dans les entreprises, nous pouvons vous assurer que oui, les entreprises ont de réels besoins en matière de Big Data !

Par contre, il faut noter que leurs besoins ne dépendent pas de leur niveau de maturité sur le sujet, mais plutôt de leur niveau de prise de conscience sur la façon dont elles peuvent utiliser les données pour améliorer leur business.  A cela, nous avons constaté que toutes les entreprises  n’ont pas le même niveau de prise de conscience. Il y’a d’une part les entreprises qui sont dans le Big Data, mais ne sont pas focalisées sur l’avenir ; c’est dans ces dernières  qu’on retrouve plus de PoC. Celles-ci  considèrent surtout le Big Data comme un levier de réduction de coûts (notamment grâce à Hadoop) qui leur permet de gérer le stockage de leur volume de données plus efficacement grâce à l’agilité qu’il apporte. Et d’autre part, il y’a  les entreprises  qui sont résolument tournées vers le futur. Ici, les entreprises sont sur des projets où le Big Data est opérationnalisé.

Plus globalement, 9 milliards de dollars, c’est le chiffre d’affaires que devrait générer le marché du  Big data en 2014, selon une étude du cabinet Transparency Market Research. Avec une croissance de près de 40 % par an, le marché représenterait déjà plus de 246 milliards en 2016. Selon une étude menée par DELL EMC en 2013, 74 % des entreprises en Européennes sont convaincues de l’intérêt du  Big Data et donc d’Hadoop pour leurs activités. Une autre de ses études publiée  en avril 2014 affirme que 41 % des entreprises de taille moyenne ont désormais entamé un ou plusieurs projets impliquant Hadoop. En France, le plan Big Data pour la Nouvelle France industrielle (NFI) dont la feuille de route a été  validée en juillet 2014, a déclenché une impulsion économique émanant de l’État visant à développer la valorisation du « capital donnée ». Ce plan de la nouvelle puise sa force de l’écosystème dynamique des entreprises françaises et des grands groupes du CAC40. Orange, La Poste, GDF Suez, Alstom, AXA, Société Générale sont autant d’entreprises qui ont été sélectionnées pour participer aux grands travaux du plan initié par Arnaud Montebourg, et désormais porté par François BOURDONCLE (cofondateur d’EXALEAD, aujourd’hui filiale de Dassault Systèmes) et Paul HERMELIN  (PDG de CAPGEMINI au moment de l’écriture de cet ebook). Le projet repose  à ce jour sur 9 solutions qui couvrent l’économie des données, les objets intelligents, la confiance numérique, l’alimentation intelligente, les nouvelles ressources, les villes connectées, la mobilité économique, les transports de demain et la médecine du futur.  Autant vous dire que l’engouemenent pour le Big Data est bien réel en France et partout ailleurs en Europe, pas au même rythme qu’aux Etats Unis, mais il est bien réel.  D’ailleurs, dans notre ouvrage Hadoop – Devenez opérationnel dans le monde du Big Data, nous expliquons 2 projets Big Data qui ont été opérationnalisés : le projet Karma d’Air France et le projet Smart Grid d’EDF.

Tout ceci est très macro. Concrètement, en ce qui vous concerne, les besoins des entreprises en la matière tourne autour de 2 sujets : la mise en place d’un data lab pour uniformiser l’usage de la donnée et l’industrialisation des analyses de données (reporting, data mining, etc.) pour améliorer la prise de décision.

3.1 – La mise en place d’un Data Lab

Le premier besoin majeur des entreprises en ce qui concerne le Big Data actuellement est la mise en œuvre d’un point d’accès unique de la donnée de toute l’organisation, ce qui passe naturellement par la mise en place d’un centre de données. Certaines qualifient ce centre de Data Lab (laboratoire de données), d’autres de Enterprise Data Hub (Hub de données), d’autres encore de Data Lake (Lac de donnée). Vous avez compris l’idée. 

Ce Data Lab est absolument nécessaire parce que  dans beaucoup d’entreprises, les données sont encore éparpillées entre ses différents services. Ce problème porte  le nom de silos de données. Cette dispersion des données vient de la lassitude offerte par les tableurs et autres outils de manipulation de données à la portée des utilisateurs finaux. Les données sont stockées dans des feuilles calcul, ce qui entraîne une duplication de la même donnée au sein de l’entreprise (on parle de « plusieurs versions de la vérité » – « many version of Truth ») ; du coup il est impossible de déterminer si un utilisateur en particulier détient la version véritable de la donnée ou pas. Plusieurs entreprises souffrent encore de ce problème aujourd’hui. C’est l’explosion des données dans le Big Data  combinée à ce problème de silos qui pousse les entreprises à mettre en place des approches centralisées de gestion et d’accès à la donnée. Les enjeux associés sont :

  • avoir une vision globale sur leur activité afin de soutenir la prise de décision ;
  • répondre aux exigences de réglementation en vigueur. Par exemple dans la banque, les réglementations Bâles forcent les entreprises à conserver un historique de leurs données ; les réglementations Sarbannes Oxley ; et récemment les réglementations RGPD (Réglementation Européenne sur la Protection des données), qui oblige les entreprises à indiquer en cas de demande par son client les données qu’elles possèdent le concernant.

Bien que ce soit aussi simplement expliqué, intégrer toutes les données d’une entreprise (répartie dans plusieurs pays sur plusieurs continents) n’est pas une mince affaire ! Donc, dans plusieurs cas, lorsque vous serez impliqué dans un projet Big Data, il y’a de bonnes chances que vous soyez impliqué de prêt ou de loin à la mise en œuvre du point unique de données, que vous en fassiez partie de la chaîne ou que vous soyez directement impliqué techniquement dans la mise en œuvre du Data Lab. Nous avons rédigé un article complet qui explique comment aborder la mise en place d’un Data Lab

3.2 – L’industrialisation de l’analyse de données

Il est de coutume dans le milieu de dire « Big Data without Analytics is just data », en d’autres termes : Le Big Data sans l’analyse n’est que la donnée. Le Data Lab ne sert à rien si l’entreprise n’est pas capable de traiter toutes les données qu’elle a réussi à intégrer. Ceci nous emmène au deuxième besoin concret de celles-ci : l’industrialisation de l’analyse de données.  De façon générale, l’analyse de données, que certains appellent aussi Analytics, fait référence à l’ensemble des moyens et techniques par lesquels on extrait de l’information (et par ricochet la valeur) des données quel que soit leur source, leur taille, ou même leur format.

Les techniques d’analyse de données varient tellement qu’aujourd’hui il y’a une grande confusion sur ses différentes applications. Vous entendrez parler de Machine Learning, Data Mining, Deep Learning, simulation, etc. Mais ce qui est important est qu’au final, le but est de faire parler les données.

En matière d’analyse de données, les entreprises sont encore pour beaucoup dans les reporting (comprenez par-là tableaux croisés dynamiques,  les croisements et agrégations de plusieurs sources de données. Sauf dans quelques secteurs d’activités comme le secteur bancaire où des modèles de scoring sont utilisés pour classer les clients en fonction de leur capacité à rembourser les crédits ou pas, dans le secteur de la grande distribution, les modèles de classification et de recommandation sont utilisés pour regrouper les clients en fonction de leurs niveau de similarité et leur recommander des produits sur la base de leurs consommations antérieures et celles des personnes qui ont le profil similaire au sien. Sinon, à part ces quelques secteurs, dans beaucoup de cas, les entreprises sont préoccupées par la performance globale de leurs différents processus métiers et cela passe par la définition des métriques de performance (KPI). L’industrialisation du calcul de ces KPI se fait aujourd’hui principalement par lot à des périodes déterminées.

Avec le Big Data et la disponibilité de la puissance de calcul, les entreprises explorent le temps réel, l’industrialisation des modèles statistiques dans le but d’être plus réactive. Ce qui leur empêche aujourd’hui de le faire c’est d’une part les problèmes de silos  de données évoqués plus haut, car il faut savoir que l’efficacité et la pertinence des résultats d’une analyse de données dépend pour une grande partie de deux choses :

  • la qualité des données : les silos de données créent des doublons et des versions incomplètes des données, puisque chaque utilisateur possède sa propre version. Cela créé des problèmes d’incomplétude de données (missing value) préjudiciable aux analyses de données.  Avec le Big Data, ces problèmes prennent une importance sans précédent. Un axe de positionnement pour vous serait donc d’accompagner les entreprises sur l’ingénierie des données, c’est-à-dire le travail de croisement, d’intégration et de prétraitement qui vient en amont de l’analyse. Vous pouvez également assister les entreprises dans la mise en œuvre des projets qui assure la qualité des données (le MDM – Master Data Management).
  • La précision du modèle d’analyse de données : un modèle est une représentation simplifiée de la réalité. Il s’utilise lorsque l’on souhaite avoir une vision macroscopique d’un phénomène. Pour cela, le modèle élimine beaucoup de facteurs et n’en retient que les plus pertinents à la représentation du phénomène. D’une manière globale, on dit d’un modèle qu’il est précis s’il arrive à représenter de façon plus ou moins claire la réalité qu’il modélise. En analyse de données, la modélisation permet de ressortir les facteurs explicatifs essentiels d’une source de données. L’idée est de comprendre le schéma selon lequel les données sont générées pour pouvoir anticiper ses prochaines valeurs. Par exemple, supposons que vous avez la liste de données suivante :

3      5      8

10    12    15

100  102  105

7      9      12

Vous remarquerez que chaque ligne de données est générée selon un schéma précis. La valeur de la deuxième colonne est toujours égale à la valeur de la première colonne plus 2, tandis que la valeur de la troisième colonne est toujours égale à la valeur de la deuxième colonne plus 3. Dans ce cas de figure, si on suppose que cette hypothèse (ce constat) est vraie, alors il est facile pour nous d’anticiper que si la valeur de la première colonne est égale à 4, alors la valeur de la deuxième sera égale à 6 et la troisième à 9. Le but d’un modèle de données consiste à ressortir ce genre de relations. Plus il sera capable d’expliquer le schéma selon lequel les données sont générées et plus il sera précis. Il existe plusieurs techniques de modélisation de données, les techniques de régression, d’arbre de décision, de réseaux de neurones, de machine à vecteur support, etc. Manipuler ces techniques pour trouver le modèle le plus précis exige une certaine spécialisation.  Vous pouvez donc vous positionner sur ces sujets et aider les entreprises grâce aux modèles que vous développerez à prendre des décisions efficaces.

Au-delà de l’industrialisation de l’analyse de données, les entreprises cherchent également à rapprocher de plus en plus les utilisateurs métier aux analyses de données : c’est la problématique de consommation de l’Analytics. Il y’a un regain accru du côté de la visualisation des données pour la consommation par les métiers des résultats des analyses de données. Donc vous pouvez aussi vous spécialiser sur la visualisation pour aider les entreprises à faire parler leurs données. Dans le point suivant, nous allons approfondir les 6 profils métiers vers lesquels vous pouvez vous orienter pour vous lancer dans le Big Data.

Bien entendu, en dehors des besoins de mise en place d’un Data Lab et de l’industrialisation des analyses de données, les entreprises ont d’autres besoins dans le domaine du Big Data, mais ceux-ci sont les plus proéminents et les plus immédiats.

4 –Les technologies du Big Data

Comme vous avez pu le voir plus haut, la valorisation des données massives ne peuvent plus se faire avec les approches, ni les technologies traditionnelles. Pour réussir à exploiter les « Big Data » techniquement, l’idée n’est plus de centraliser le stockage et le traitement des données sur un serveur, mais de distribuer leur stockage et de paralléliser leur traitement sur plusieurs ordinateurs. Pour plus de détails par rapport à cette nouvelle approche, nous vous recommandons de suivre la vidéo suivante :

Nouvelle approche de valorisation des données massives

Cette approche est techniquement possible aujourd’hui grâce à une technologie qu’on appelle Hadoop. Hadoop est resté pendant longtemps entre les mains de l’open source. Mais aujourd’hui, il est en passe de devenir le standard de facto de traitement de données dans les entreprises, un peu comme Microsoft Excel est progressivement devenu le logiciel par défaut d’analyse de données. Par contre, quoique très puissant, Hadoop seul ne peut pas venir à bout de toutes les problématiques du Big Data. C’est pourquoi des technologies qui s’appuient sur lui ont été développées pour répondre à ces challenges. L’ensemble de ces outils forment ce qui s’appelle l’écosystème Hadoop. L’écosystème Hadoop enrichit Hadoop et le rend capable de résoudre une grande variété de problématiques métiers. A ce jour, l’écosystème Hadoop est composé d’une centaines de technologies que nous avons choisis de regrouper en 14 catégories selon leur segment de problématique. La figure ci-après récapitule très bien l’écosystème Hadoop

Les technologies du Big Data
Figure : les technologies du Big Data

Si vous souhaitez vous ré-orienter dans le Big Data, nous vous recommandons de télécharger ce livre numérique pour avoir une vision complète des technologies de l’écosystème Hadoop.

5 –Les métiers du Big Data

Comme vous avez pu le constater tout au long de cette chronique, l’intérêt du Big Data n’est plus à démontrer. Il est désormais connu et accepté que le Big Data va créer d’ici 2020 des millions d’emplois dans le monde. En France, de nombreuses études sérieuses montrent que 43 % des entreprises sont en pleine restructuration pour saisir les opportunités du Big Data dans les 3 années à venir. Par ailleurs, l’engagement de l’Etat dans le Big Data est palpable à travers la “Nouvelle France Industrielle” et ses autres nombreuses initiatives dans la Numérisation/digitalisation du pays. Aussi, c’est le Big Data qui alimente les tendances telles que l’Intelligence Artificielle, l’agriculture verte, les véhicules hybrides, l’internet des objets, etc. Ainsi, le timing est parfait pour faire carrière dans le Big Data ! Après analyses des appels d’offres des entreprises de 2016 à 2019, de l’étude de l’allocation de leur budget et dépenses IT sur la période, de l’analyse des publicités dans différents magasines IT, et de la veille technologique, nous avons identifié les 8 métiers du big data les plus demandés par les entreprises en 2019 et les tendances pour 2020. Ces  8 métiers par ordre de demande sont : 

  • Le Data Engineer,
  • Le TechLead
  • L’ingénieur DevOps/Cloud
  • L’architecte Big Data
  • L’administrateur/intégrateur Big Data
  • Le Data Analyst
  • et le Data Scientist

Nous avons rédigé un article complet que vous pouvez consulter ici pour le détail de ces métiers : Les 7 métiers porteurs du Big Data en 2019-2020

Si vous êtes en pleine réflexion pour vous ré-orienter, nous avons réalisé une session de cours vidéo dans laquelle nous présentons une démarche optimale pour la ré-orientation en Big Data. La session de cours vidéo tient en 13 min. Nous vous recommandons vivement de la suivre jusqu’au bout si vous êtes dans une démarche de ré-orientation.

6 –Les formations pour travailler dans le Big Data

En ce qui concerne le développement de vos compétences en Big Data, 3 options sont possibles : vous pouvez suivre un Master spécialisé, passer une certification ou suivre les formations spécialisées des éditions Juvénal & Associés. Voici quelques exemples :

  • Le Master Spécialisé Big Data de Telecom ParisTech : Télécom ParisTech est une école d’ingénieurs qui offre un Master spécialisé en Big Data sur un an intitulé « Big Data : Gestion et Analyse des données massives ». Le but de ce master est d’apporter à ses apprenants des compétences sur l’exploitation des données sur Hadoop et de compléter ces compétences par des compétences métier. De plus, Télécom Paris anime trois chaires de recherche et d’enseignement qui proposent plusieurs filières de formation autour du Big Data;
  • Le Master Spécialisé Big Data de Grenoble Ecole de Management & Grenoble INP : l’école de Management de Grenoble (Grenoble-EM) offre un Master spécialisé en Big Data comme son nom l’indique qui est le fruit d’une alliance entre deux écoles : une école d’Ingénieur (Grenoble INP) et une école de Management (Grenoble EM). Ce master est accrédité par la conférence des grandes écoles de France et se tient sur une durée de 15 mois ;
  • Le Master MSc Big Data de l’ESSEC & CentraleSupélec : ce master, intitulé « Master in Data Science & Business Analytics » est également le fruit d’une alliance entre une école de management (ESSEC) et une école d’ingénieurs (CentraleSupélec). Il propose au bout du troisième mois de formation une spécialisation sur le calcul massivement parallèle que vous pouvez choisir pour monter en compétence sur Hadoop. Ce master est accrédité par la conférence des grandes écoles de France et se tient sur une durée de 15 mois ;
  • Les formations spécialisées des éditions Juvénal & Associés : nous mettons à votre disposition des programmes de formation très spécialisés qui vous aideront à développer des compétences spécifiques du Big Data telles que le traitement streaming & temps réel des données, l’ingénierie de la data, la construction et le déploiement des bases de données, etc.

Nous avons rédigé un article complet sur les formations du Big Data. Vous pouvez le consulter ici : Les formations du Big Data

7 –Conclusion

Comme vous pouvez le voir, un vrai changement est en cours, le Big Data n’est pas un simple tapage médiatique. C’est un changement profond de notre société qui apporte des opportunités qui sont bel et bien réelles. Ceux qui seront proactifs, sortiront de leur zone de confort choisiront leur profil bénéficieront professionnellement, socialement, et financièrement des opportunités que le Big Data a à offrir. Ceux qui ne sortirons pas de leur zone de confort et continuerons à procrastiner ou nier l’évidence du Big Data finirons surpris et frustrés de n’avoir pas réagi suffisamment à temps. Souvenez-vous, 100 000 emplois directs sont prévu par le gouvernement cette année seulement.  Nous avons rédigé cette chronique pour vous rendre conscient des opportunités qui existent dans le Big Data et pour vous orienter dans vos choix de carrière et d’orientation. Maintenant, notre prière pour vous est que vous prenez les devants et embrassiez le monde fabuleux dans lequel nous vivons actuellement, le monde du Big Data ! Nous avons rédigé l’ouvrage « Hadoop Devenez opérationnel dans le monde du Big Data » pour vous accompagner dans votre transition vers le Big Data et nous vous recommandons fortement de vous le procurer. Il est depuis 3 ans aujourd’hui le Best Seller dans toute la francophonie sur le Big Data.

>