La valorisation réussie des données repose sur la stratégie de gestion de données définie en amont lors de la conception du système informatique de l’entreprise. Il est d’ailleurs de coutume dans le milieu de dire « Big Data without Analytics is just data », en d’autres termes : Le « Big » Data sans l’analyse n’est que la donnée. Si l’entreprise n’est pas capable de traiter toutes les données qu’elle collecte à travers son système d’information, alors ces données ne lui servent à rien, même si elles contiennent le potentiel de lui fournir un avantage décisif par rapport à ses concurrents.

Le Data Hub a été mis sur pied au même titre que le Data Lab, le Data Lake ou le Data Warehouse , comme stratégie pour aider les entreprises à uniformiser toutes leurs sources de données et les rendre facilement exploitable.

Dans cette chronique, nous vous expliquerons en profondeur le concept de Data hub. Vous saurez comment il fonctionne et son positionnement par rapport aux autres stratégies de Data Management, à savoir le Data Warehouse et le Data Lake.

Pourquoi une entreprise a t’elle besoin d’un Hub de données ?

Pour comprendre ce que c’est qu’un Data Hub, il faut comprendre le problème que les entreprises rencontrent. Pour atteindre leur objectif de gestion, les entreprises spécialisent leur organisation en « directions métiers » qui s’occupent d’un processus particulier de l’activité de l’entreprise.  Cette organisation intrinsèque a tendance à « siloter les données » de l’entreprise.

En d’autres termes, pour atteindre son objectif de gestion, l’entreprise a besoin de découper son activité principale en plusieurs processus métiers, par exemple, le processus d’achat, le processus de vente, le processus d’exploitation, le processus de ressources humaines et bien d’autres. Chacun de ces processus génère des données opérationnelles qui sont le plus souvent capturées soit à partir d’une application spécialisée telle qu’un ERP (Entreprise Ressource Planning) type Oracle, SAP, PeopleSoft, soit alors à travers des feuilles de calcul Excel (ou des fichiers plats, csv, etc.).  Il s’en suit un « silotage des données » qui empêche au management d’avoir une vision globale de l’activité de l’entreprise : l’application de finance capture les données de la finance, l’application de logistique capture les données générées par le processus Logistique, l’application RH capture les données générées par les RH etc. Comme ces applications sont distinctes, propres à chaque processus métier, l’entreprise se retrouve avec plusieurs bases de données différentes. 

Ainsi, pour pouvoir valoriser les données de l’entreprise, il faut déjà réussir à les faire converger vers un même référentiel, indépendamment de leur provenance, ni de leur métier (c’est ce qu’on appelle le processus d’uniformisation des données). Le silotage inhérent à l’activité de l’entreprise rend cette tâche de transversalité très compliqué.

De plus, même lorsque l’entreprise dispose d’un ERP qui normalement centralise toutes ses données métiers à cause de son utilisation conjointe par toutes les directions de l’entreprise, chaque direction tend toujours à utiliser au sein de ses services ses propres applications, notamment les tableurs.

La flexibilité des tableurs permet aux utilisateurs métier de créer des applications simples sur les données structurées et d’effectuer leurs propres analyses des problèmes métier qu’ils rencontrent.  Malheureusement, cette lassitude offerte par les tableurs (et les outils de type « self service » en général) aux utilisateurs silote encore plus les données de l’entreprise, et rend plus difficile la tâche d’uniformisation des données, indispensable à la valorisation de données.

silos de données dans l'entreprise
Figure : silos de données créés dans l’entreprise à cause de sa nature multi-process d’une part, et de l’utilisation des solutions self-service d’autre part.

Le Data Hub intervient comme une stratégie de Data Management pour casser les silos de données de l’entreprise et les intégrer dans un même référentiel ou un même lieu de stockage physique.

data hub
Figure : l’objectif du Data Hub est de “casser les silots” c’est-à-dire unifier les données dans un lieu physique ou un répertoire de stockage physique pour en faciliter l’accès et l’utilisation.

Qu’est ce qu’un Data Hub ?

Plus formellement, un Data hub, encore appelé « hub des données », est une plateforme de stockage de données virtuelles provenant de diverses sources. Il déplace et intègre physiquement des données multi-structurées et les stocke dans un répertoire unique.

Explicitement, c’est une approche qui permet de déterminer plus efficacement où, quand et pour qui les données doivent être médiatisées, partagées, puis liées et / ou persistées.

3 caractéristiques principales vont le distinguer du Data warehouse ou du Data Lake :

  • Magasin (stockage) : les données de l’entreprise sont copiées et regroupées dans un nouvel espace de stockage. De cette manière, la structure du centre de données peut être libérée des bases de données opérationnelles et la disponibilité des données peut ainsi être améliorée. Le stockage permet de regrouper des silos de données en une seule source.
  • Harmonisation (Coordination) : les données du silo proviennent de différentes applications, elles sont capturées à l’aide de différentes technologies et stockées dans différents formats et architectures, il est donc important de garder ces données cohérentes afin que toutes les données du silo puissent être utilisées et analysées.
  • Indexation : le Data Hub permet une recherche et une analyse plus rapides des données grâce à ses stratégies d’indexation, appliquées automatiquement sur les données. L’indexation ne peut être appliquée qu’aux données stockées et unifiées. Dans leur format natif, les données ne peuvent pas être indexées car elles peuvent exister dans plusieurs silos dans des formats différents et des valeurs incohérentes.

Le Data Hub simplifie le travail de recherche et d’analyse des Data Analysts/Data Scientists, et améliore considérablement la fiabilité de leurs traitements de données en fin de chaîne du Système d’Information.

Les utilisateurs peuvent ainsi gagner du temps dans le travail de préparation, et se concentrer sur leur vraie valeur ajoutée : l’obtention d’informations, la valeur métier des données.

Le tableau ci-après récapitule les caractéristiques du Data Hub.

Caractéristique du Data Hub

Descriptif détaillé

HUB DE DONNÉES  APPLICATIVES

Concentré sur des systèmes d’exploitation complexes avec des fonctions multiples et cohérentes (d’où des domaines fonctionnels cohérents).
Avant de partager en tant que producteur de données, le centre agit comme un point de contrôle central. Il peut être lié au contexte fonctionnel d’une ou plusieurs applications (ou suites d’applications). Ces centres émergent alors que de plus en plus d’entreprises «réduisent» ou «adaptent» leurs procédures MDM trop coûteuses et / ou complexes.

HUB D’INTEGRATION DE DONNEES

C’est le Hub de données le plus polyvalent, axé sur l’intégration des données, il peut utiliser diverses méthodes d’intégration (y compris l’intégration des données et des applications) pour partager tous les types de données (référentiel ou données de base, données transactionnelles ou analytiques). Par conséquent, il couvre un large éventail de besoins de partage de données. Ce type de Hub de données peut également être étendu au-delà du périmètre de l’entreprise pour atteindre un partage de données étendu.

HUB DE DONNÉES DE REFERENCE

Similaire au Hub de données principal et au Hub de données applicatif, mais l’objectif est plus limité : se concentrer sur les « données de référence » (codes ou balises, tables, hiérarchies, etc. couramment utilisées par les entreprises). Ils permettent un accès et une synchronisation cohérents de ces données, généralement entre les systèmes opérationnels et analytiques.

Ici, on parle d’une architecture en Hub car elle permet de communiquer dans toutes les directions. 

Ce type d’architecture communique avec le système source, le système cible (y compris le reporting), la couche de métadonnées et la couche où tous les services (y compris les règles métier, les transformations, la répétition, la qualité des données, etc.) qui seront appliqués aux données sont réunies.

Traditionnellement, les équipes qui recevaient les exigences fonctionnelles en matière de données, utilisaient un ETL pour extraire les données des systèmes opérationnels et les charger dans le Data Warehouse, puis fournissait à l’équipe commerciale un accès en lecture seule.

L’intégration de données dans des architectures BI plus anciennes est un processus trop long pour les personnes utilisant des outils de « data scientist » avancés. Ils ne connaissent généralement pas toutes les données dont ils ont besoin avant de commencer la modélisation, et ils ont besoin de beaucoup de flexibilité lors du traitement des données.

 En résumé, un hub de données est un service centralisé qui connecte tous vos systèmes informatiques, qu’il s’agisse d’applications Web, d’appareils IoT, de solutions SaaS ou de plates-formes métier principales, telles que CRM ou ERP. Il gère les connexions à chacun des systèmes et orchestre le flux de données entre eux. Nous allons maintenant voir l’architecture du Data Hub, autrement dit, comment on construit un Data Hub ? Quelles sont les technologies sur lesquelles il s’appuie ?

Architecture d’un Data Hub

Le Data Hub repose sur une architecture centralisée de type Data Warehouse comme nous vous l’avons présenté dans la figure précédente. 2 catégories de technologies sont nécessaires pour le mettre en place : les processus ETL, et un SGBD.

  • L’ETLExtract Transform & Load ne fait pas nécessairement référence à un outil d’ETL précis, comme Talend ou Informatica, mais à toute technologie qui permet d’uniformiser les données et les pré-traitées afin qu’elles soient conformes pour un stockage unifié. On peut donc retrouver ici des ETL classiques comme Talend, Informatica, des technologies d’ingestion de données comme Apache Kafka, ou encore des moteurs de traitement massivement parallèle de données comme Apache Spark.
  • un SGBD : une fois que les données sont uniformisées selon les règles définies par les métiers, on les rapatrie dans un support de stockage unique. Le SGBD ici fait plus office de support de stockage que d’outil d’accès à la données. Donc, en fonction des cas d’usage de l’entreprise, le SGBD utilisé pourra être un SGBD Relationnel à l’exemple de SQL Server, ou un SGBD No SQL orienté-colonne tel que HBase ou Apache Cassandra. L’entreprise pourrait aussi choisir lors de la construction de son Data Hub de ne pas imposer une couche sémantique pour le stockage de données. Dans ce cas de figure, les données après uniformisation, pourront être stockées dans un système de fichier distribué tel que le HDFS en profitant de la scalabilité d’un cluster informatique.

Voilà les technologies principales d’un Data Hub ! Au-delà de ces technologies, Il existe aujourd’hui des plateformes uniques permettant de gérer l’ensemble des parcours de traitement de la donnée dans le Data Hub. Dans ces solutions, les services et fonctionnalités nécessaires pour gérer les données sont réunis au sein d’une même plateforme ergonomique et polyvalente, permettant ainsi aux utilisateurs de développer facilement leurs flux de travail, de mener des chantiers d’enrichissement des données, et de les transformer de manière simple et rapide, tout en assurant leur suivi en temps réel. Comme vous l’aurez déviné, les solutions de ces éditeurs sont basées sur le cloud. Les principaux fournisseurs sont :

  • Google, avec Google Cloud Datalab, sa solution  sur GCP pour le Data lab. Vous avez un infrastructure Cloud à votre portée avec la distribution Hadoop Cloud de Google, GCP.
  • SAP, avec sa solution SAP Data Hub (rebaptisé depuis SAP Data Intelligence). Avec l’aide de SAP Data Hub, les entreprises peuvent créer des pipelines Big data pour transférer des informations vers les emplacements souhaités (local, Cloud, etc.). Le Hub de SAP offre de nombreux autres outils (systèmes de stockage d’objets dans le Cloud, bases de données relationnelles, applications métier et d’intelligence artificielle) que vous pouvez exploiter directement pour les cas d’usage du Hub.
  • Amazon, avec sa solution AWS EMR, dans lequel vous combinez l’infrastructure Cloud AWS avec la distribution Cloud Hadoop d’Amazon, EMR.
  • Microsoft, avec sa solution cloud Azure, que vous pouvez coupler avec Azure HDInsight pour obtenir toutes les technologies dont vous avez besoin dans votre Data lab.

Les technologies cloud fournissent l’infrastructure et l’ensemble des logiciels nécessaires pour tout type de cas d’usage d’exploitation de la donnée dans votre Hub de données.

Nous allons finir cette chronique sur les différences entre le Data Hub, le Data Lake et le Data Warehouse.

Différence entre Data hub, Data Lake et Data Warehouse 

Au premier regard, le Data Hub semble très similaire aux autres stratégies de Data management, notamment le Data Lake, et le Data Warehouse. Mais lorsqu’on s’y penche attentivement, on se rend compte qu’il y’a des différences subtiles mais combien importantes entre eux ! Le cabinet d’étude Gartner s’est penché sur la question et a dressé un tableau de comparaison basé sur 7 critères pour distinguer les 3 stratégies. C’est ce tableau que nous reprenons ici. Nous estimons qu’il est plus parlant que si on devait expliquer ces différences séparément et littéralement.


Data Hub

Data Warehouse

Data Lake

Utilisation principale

Processus opérationnels

Processus décisionnels

Processus opérationnels & décisionnel

Forme des données

structuré

structuré

non-structuré & structuré

Gouvernance des données

Le principal pilier de toutes les règles de mise en œuvre de la gouvernance des données.

Gouvernance « après coup » car elle utilise les données opérationnelles existantes    Méthode de données « Utilisez à vos risques et périls ».

Légèrement gouverné.

Gouvernance « après coup » car elle utilise les données opérationnelles existantes.    Méthode de données « Utilisez à vos risques et périls ». Légèrement gouverné.

Méthode de données « Utilisez à vos risques et périls ». Légèrement gouverné.

Qualité des données

Haute qualité

Haute qualité

Haute ou basse qualité, car l’entreprise a le choix d’imposer une couche sémantique pour le stockage des données ou pas

Intégration avec les applications métiers

Intégration bidirectionnelle en temps réel avec les processus métier existants via des API.

ETL ou ELT unidirectionnel en mode batch. Les données converties et nettoyées sont actualisées à une faible fréquence (horaire, quotidienne ou hebdomadaire)

ETL ou ELT unidirectionnel en mode batch. En supposant que l’utilisateur nettoie à l’avenir, les données seront déversées dans le lac de manière incontrôlable.

Interactions avec les utilisateurs professionnels

Peut être la principale source de création d’éléments de données clés (comme les données de base et les données de base). Fournit une interface conviviale pour la création de données, la gestion des données et la recherche.    Fournissez un accès en lecture seule aux données agrégées et ajustées via des rapports, des tableaux de bord analytiques ou des requêtes ad hoc.    Besoin de nettoyer / préparer les données avant de les consommer. Fournissez un accès aux utilisateurs professionnels principalement via des rapports, des tableaux de bord ou des requêtes ad hoc. Utilisé pour mettre en scène des ensembles de données d’apprentissage automatique.

Fournit un accès en lecture seule aux données agrégées et ajustées via des rapports, des tableaux de bord analytiques ou des requêtes ad hoc.

Besoin de nettoyer / préparer les données avant de les consommer. Fournir un accès aux utilisateurs professionnels principalement via des rapports, des tableaux de bord ou des requêtes ad hoc. Utilisé pour mettre en scène des ensembles de données d’apprentissage automatique.

Processus opérationnels d’entreprise

Le référentiel principal de données de confiance exposées dans les processus métier.
Peut être le principal moteur des processus d’affaires de l’entreprise.

Principalement utilisé dans le processus d’analyse.

Principalement utilisé dans le processus d’apprentissage automatique.

Nous sommes arrivés au terme de cette chronique. Ce que vous devez retenir  en synthèse c’est qu’un hub de données est un service centralisé qui connecte tous vos systèmes informatiques, qu’il s’agisse d’applications Web, d’appareils IoT, de solutions SaaS ou de plates-formes métier principales, telles que CRM ou ERP. Il gère les connexions à chacun des systèmes et orchestre le flux de données entre eux. Son objectif de base est de casser les différents silos de données inhérents à l’activité de l’entreprise. Là où le Data Warehouse, et le Data Lake sont des terminaux de collecte de données qui existent uniquement pour soutenir les analyses de données dans l’entreprise, le Data Hub n’est pas uniquement réservé sur les utilisations analytiques des données.  Il a pour ambition de gérer aussi bien les cas d’usage d’analyse de données que les cas d’usage opérationnels.

Si vous souhaitez vous faire accompagner dans la mise en place de votre Data Hub, n’hésitez pas à nous contacter. Téléchargez le guide suivant pour apprendre à développer des applications Big Data en Scala.


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

>