Fusion Cloudera Hortonworks et futur d’Hadoop

Le 3 Octobre 2018 dernier, Cloudera a annoncé sa fusion avec Hortonworks (lien en annexe).
De façon plus précise, Cloudera a “acheté” Hortonworks. Ci-après, la vidéo sur le journal CNBC de l’annonce officielle.

Vous êtes de plus en plus nombreux après les journalistes à me demander les impacts de cette fusion sur le marché du Big Data. Hadoop va t’il disparaître ? N’est ce pas la fin du Big Data ? Peut-on faire carrière dans le Big Data si Hadoop disparaît ? Peut-on faire du Big Data sans Hadoop ? etc…

La vision du projet DTN est de vous aider à “développer les compétences de base nécessaires pour saisir les opportunités du Big Data”. Dans ce mail, nous allons prendre le temps de dissoudre vos inquiétudes en répondant à ces questions. L’enjeu est de vous permettre de rester concentrer sur votre objectif.

1) Hadoop va t’il disparaître de la scène du Big Data avec l’acquisition d’Hortonworks par Cloudera ?

Pour répondre très simplement à cette question, non ! Pour rappel, aujourd’hui, Hadoop est la plateforme la plus mature qui implémente l’approche de traitement parallèle et de stockage distribuée des données à large échelle à l’aide d’un cluster. Son évolution n’est pas drivé par les éditeurs commerciaux, mais par l’open source. La valeur ajoutée des éditeurs intervient sur le support, la formation et la convivialité d’utilisation qu’ils offrent (cela s’appelle une distribution). Ainsi, même si Cloudera venait à stopper la commercialisation de sa distribution, la vibrante et active communauté de l’open source continuerait à faire évoluer Hadoop. Maintenant, si malgré tout, un éditeur venait s’engager à développer une plateforme propriétaire équivalente d’Hadoop, cela reviendrait beaucoup trop cher aux clients ! Vous n’avez qu’à voir le coût des solutions de traitement massivement parallèles telles que SAS, Teradata, GreenPlum, etc pour comprendre ce que nous disons. C’est pourquoi même les entreprises qui possèdent des liquidités élevées comme Amazon, Google, Microsoft préfèrent embarquer Hadoop dans leurs solutions de Big Data (Cf Amazon EMR, Microsoft Azure HDInsight. Cf. chapitre 17 de Maîtriser l’utilisation des technologies Hadoop). L’avantage d’Hadoop est que son coût de développement (et d’évolution) est nul puisque les membres de la communauté open source contribuent au développement de logiciels à titre bénévole.

Donc, non ! la probabilité qu’Hadoop disparaissent après l’acquisition d’Hortonworks par Cloudera est faible (voir quasi-inexistante), car ce n’est pas Cloudera qui drive l’évolution d’Hadoop, mais l’open source.

2) L’acquisition d’Hortonworks par Cloudera n’annonce-t-elle pas la fin du Big Data ?

Encore une fois, non ! L’acquisition d’Hortonworks par Cloudera est fort probablement une décision stratégique. Elle peut peut-être envoyer un signal aux marchés financiers (donc aux investisseurs), mais elle n’a aucun impact sur l’évolution du marché du Big Data.

Pour répondre par vous-même à cette question, il faut que vous compreniez ce qu’est véritablement le Big Data. Aujourd’hui, il est perçu aux yeux de tous comme étant l’explosion de données, la taille phénoménale du volume de données produite par les activités du Numérique. Bref, les fameux « 3V ». Malheureusement, concevoir le Big Data sous un aspect purement volumique c’est minimiser le potentiel économique de la donnée et limiter sa perception vis-à-vis de la transition numérique qui est en cours. Nous ne cesserons pas de le dire, le Big Data n’est pas avant tout un phénomène de volumétrie de données, c’est un phénomène social. C’est la partie visible de la transition du monde de l’ère industrielle à l’ère Numérique.

S’il vous plaît, relisez cette phrase. Le Big Data est la partie visible de la transition de l’économie industrielle vers l’économie Numérique. Cette transition a démarrée depuis 1989 avec la chute du mur de Berlin selon certains historiens et provient de la combinaison de 2 facteurs : la mise à disposition d’Internet entre les mains du grand public et l’augmentation du nombre de personnes connectées à Internet. Bien évidemment, nous n’allons pas l’expliquer en profondeur dans ce billet. Si vous souhaitez comprendre en profondeur la génère du Big Data, nous vous recommandons le second ouvrage du projet Maîtriser l’utilisation des technologies Hadoop (plus spécifiquement au chapitre 18).

Donc, non ! l’acquisition d’Hortonworks par Cloudera n’entraînera pas la fin du Big Data, car le Big Data n’est pas un phénomène technologique, mais une transition sociale. Bien au contraire, cette acquisition a lieu à cause de l’essort du Big Data !

3) Hadoop va-t-il être remplacé dans le futur ?

Non ! Hadoop ne va pas être remplacé dans un futur de moyen ou même long terme ! Déclaration audacieuse n’est-ce pas ? Pour comprendre d’où nous vient notre assurance, souvenez-vous que l’adoption à large échelle d’une technologie ne dépend pas de nous autres les développeurs, consultants, managers, Lead Engineers, mais des utilisateurs métiers (les madames Michui, les monsieurs Juvénal, les monsieurs Martin, etc.).

Traditionnellement, il est admis que c’est la rareté qui rend quelque chose important, c’est-à-dire le fait de posséder quelque chose que les autres n’ont pas (la différenciation, encore connue sous le nom de loi de la rareté, cf. paradoxe de l’eau et du diamant). Ce point de vue est valable et vrai. Cependant, il ne s’applique pas pour tous les produits. Certains produits, comme les produits culturels (livres, musiques, films, etc.) ou encore les produits technologiques (photocopieurs, téléphones, bases de données, Hadoop) gagnent en Valeur/importance en fonction du nombre de personnes qui les utilisent/consomment. Par exemple, plus le nombre de lecteurs d’un livre augmente, plus ce livre a de la valeur. Plus le nombre de personnes qui ont un compte Facebook/whatsApp augmente, plus le réseau social a de la valeur. Plus une application est téléchargée sous le Play Store ou Apple Store, plus cette application gagne en importance. Idem, plus l’audience d’une émission augmente, plus cette émission a de la valeur. On appelle cet effet en économie les effets de réseaux. Bob Metcalfe a fait ce constat pour les produits technologiques il y’a 3 décennies et a fait une déclaration qu’on admet aujourd’hui comme loi. Cette loi porte son nom (loi de Metcalfe). Elle stipule : « la valeur d’une technologie est proportionnelle au carré du nombre de personnes qui l’utilise ». Pour paraphraser cette loi, on pourrait dire que « la valeur d’une technologie est proportionnelle au nombre de personnes qui l’utilise ».

Ce sont ces effets de réseau, qui justifient que le succès d’une technologie ne dépende pas des développeurs ou des utilisateurs spécialisés, mais des utilisateurs métiers. Une technologie gagne en importance en fonction du nombre de personnes qui l’utilise. Lorsque les effets de réseaux deviennent suffisamment importants (ou lorsque le nombre d’utilisateurs atteint un seuil critique), la technologie finit par devenir un « standard ». Aujourd’hui, le nombre d’utilisateurs d’Hadoop n’a pas encore atteint une taille critique pour que les effets de réseaux entrent en jeu, mais il est facile de voir que cela ne tardera pas, car Hadoop présente les caractéristiques d’une technologie qui deviendra un standard.

Comment reconnaît-on qu’une technologie est prête à devenir un standard ? Une technologie est prête à devenir un standard si elle est transparente à l’utilisateur. Encore une fois, une technologie est prête à devenir un standard si elle est transparente à l’utilisateur ! En d’autres termes si elle ne demande pas plus de compétence à l’utilisateur que celle qu’il possède déjà. En français facile, cela signifie qu’une technologie est prête à devenir un standard si elle est facile à utiliser, si elle est accessible.

En matière de Data, le SQL est aujourd’hui un langage très commode et une compétence possédée par tout analyste métier digne de ce nom. De plus, la majorité des systèmes opérationnels des entreprises (par exemple Business Objects, Oracle, SAS, Tableau, SAP, Genesys Info Mart, etc.) tournent sur le SQL. Ainsi, une technologie de gestion de données, aussi performante soit-elle, ne deviendra jamais un standard si elle n’est pas complètement intégrée au SQL. En plus d’être mature et stable, Hadoop est l’une des rares plateformes technologiques du Big Data complètement intégrée au SQL qui dans quelques années ne requerra pas plus de compétences que le SQL pour être exploitée. C’est pour cela que nous pouvons dire avec assurance qu’Hadoop ne sera pas abandonné dans le futur, au contraire, sa standardisation ne fait que commencer. Spark a compris ce concept de transparence à l’utilisateur, mais n’est pas encore suffisamment mature pour remplacer Hadoop. De toutes les façons, les caractéristiques intrinsèques de Spark et d’Hadoop font qu’elles sont positionnées sur deux angles différents. Elles sont plus complémentaires que différentes.

Donc, soyez sans crainte et ne vous laissez pas déstabiliser par du bruit médiatique, les opportunités d’Hadoop et du Big Data sont bel et bien réelles.

Voilà, nous espérons que ce point de réflexion sur la fusion cloudera hortonworks vous éclaire sur le futur du Big Data et vous aide à rester concentrer sur votre objectif professionnel.

Bonne journée et restez concentré sur votre vision du futur. Ne vous laisser pas être distrait.

Si vous avez besoin d’assistance dans vos projets Big Data, nous vous recommandons le second ouvrage du projet Maîtriser l’utilisation des technologies Hadoop. Celui-ci vous assistera aussi bien techniquement que stratégiquement dans l’exécution de votre projet.

Voici le lien vers le communiqué officiel de la fusion cloudera hortonworks : https://www.cloudera.com/about/news-and-blogs/press-releases/2018-10-03-cloudera-and-hortonworks-announce-merger-to-create-worlds-leading-next-generation-data-platform-and-deliver-industrys-first-enterprise-data-cloud.html