Aujourd’hui, pour organiser les données de façon efficace, on a le choix entre plusieurs approches : Le Data Lake, le Data Lab, le Data Warehouse, le Data Mart ou encore le Data Hub. Mais ce qu’on oublie c’est que toutes ces approches ont le même ancêtre en commun : l’infocentre.

Aujourd’hui encore à l’ère du Big Data, il y’a des entreprises qui sont restés sur l’infocentre. Dans cette chronique, nous revenons sur ce concept historique, sa définition, son fonctionnement et nous vous indiquons comment le monde de la data a évolué de l’infocentre au Data Warehouse et du Data Warehouse au Data Lake.

Qu’est-ce qu’un infocentre ?

L’infocentre est une approche de gestion de données qui remonte aux années 60-70, à l’époque des mainfraimes. Pour le comprendre, il faut comprendre le contexte informatique de l’époque.

Dans les années 60-70, l’architecture informatique qui prévalait pour le traitement de données c’était l’architecture centralisée (encore appelée télétraitement). Les ordinateurs étaient des mainframes, de grosses centrales très puissantes qui pouvaient occuper toute une salle entière. IBM en était le principal fournisseur.

Dans l’architecture centralisée, la base de données ainsi que les différentes applications sont hébergées dans l’ordinateur central. Des terminaux sont connectés au mainframe via le réseau informatique et toute la charge de calcul est centralisée sur celui-ci. Les utilisateurs accèdent à la base de données à travers les terminaux. Ces terminaux sont passifs (« dumb » en anglais), c’est-à-dire qu’ils n’ont aucune capacité de traitement. Ils n’interviennent pas dans les calculs et servent juste à transmettre au mainframe les commandes que l’utilisateur souhaite effectuer sur la base de données, et à présenter sur écran les résultats de ces commandes.

Dans cette architecture, la base de données et le SGBD sont installés sur le mainframe, celui-ci héberge toutes les fonctions nécessaires pour l’exploitation de la base de données. La seule fonction qui est assurée par les terminaux c’est la présentation des résultats.

architecture centralisée infocentre
Figure : l’infocentre reposait sur une architecture centralisée

L’avantage principal de cette architecture est que la centralisation des applications, de la base de données et du SGBD facilitent  la mise à jour et la maintenance du système. De plus, peu de personnes sont nécessaires pour exploiter et maintenir l’architecture.

Cependant, comme vous avez dû le deviner, cette architecture impose à l’ordinateur central une charge de calcul considérable, car en plus de la charge d’exécution des applications et d’exploitation de la base de données, celui-ci doit supporter la charge d’exécution des requêtes de tous les utilisateurs de la base de données. C’est dans ce contexte que l’infocentre naît !

A cette époque, les Data Analysts et les administrateurs travaillaient de façon simultanée sur une même base de données. Les Data Analysts développaient des requêtes multidimensionnelles, de nature très complexes en vue d’obtenir des rapports d’aide à la décision. Le problème avec les requêtes multidimensionnelles est qu’elles sont très exigeantes en ressources informatiques. Comme l’architecture de calcul est centralisée, les requêtes opérationnelles et les requêtes décisionnelles sont faites sur le même mainframe, ce qui crée inévitablement des latences très importantes.

C’est pour résoudre ce problème de latence des requêtes décisionnelles qu’est né le concept d’Infocentre. Comme vous pouvez le voir, le même problème qu’on résout aujourd’hui avec des Data Warehouse, des data lakes ou des cubes OLAP, à l’époque on le résolvait avec un infocentre.

L’approche de l’infocentre va simplement consister à dupliquer la base des données au sein du mainframe ; c’est-à-dire, créer une copie distincte, dédiée aux requêtes décisionnelles. Cela nous semble évident aujourd’hui de procéder de la sorte, mais à l’époque c’était une véritable révolution !

L’infocentre se définit comme étant toute base de donnée permettant de regrouper et d’agréger dans un même endroit, des données provenant de sources différentes et permettant la production des analyses consolidées. C’était une technologie de traitement de données la plus remarquable de l’époque. Une belle innovation qui venait mettre en ordre l’utilisation des données.  

l’infocentre est une structure intégrée et rattachée au centre de traitement des données et dont le rôle principal est d’aider les représentants des différents niveaux de décision à mieux gérer les informations internes et externes. L’infocentre possède les caractéristiques suivantes :

  • Dans un infocentre, chaque nouvelle valeur remplace l’ancienne valeur, il n’y a pas de gestion d’historique des valeurs
  • Les décisions prises sont des décisions opérationnelles basées sur des valeurs courantes ;
  • Les processus d’alimentation de l’infocentre sont simples, ils consistent seulement en une duplication des données.

Fonctionnement d’un infocentre

Les premiers infocentres se sont contentés de créer une copie des données des applications de production dans des environnements séparés dédiés à l’analyse. Le rythme d’alimentation était habituellement mensuel, et leur utilisation n’étant pas aisée, des équipes d’assistance étaient souvent nécessaires. Ces systèmes ont beaucoup apporté au management des activités.

En réalité, le fonctionnement de l’infocentre repose sur la puissance de calcul du mainframe.

Contrairement au SQL où les procédures d’interrogation requièrent l’écriture de nombreuses lignes de codes incluant différentes clauses informatiques, l’infocentre se base sur une démarche réduisant la procédure d’interrogation au cliquage sur des icônes des différents écrans selon des chemins déjà pré-établis. Les données ne sont pas « extraites », elles sont simplement visualisées.

Il faut préciser que la modélisation d’un infocentre repose sur un modèle de de données qualifié à l’époque d’hiérarchique. Dans une base de données hiérarchique, les enregistrements sont organisés en hiérarchies un peu comme un organigramme.

Chaque fichier est un noeud. Les enregistrements sont persistés dans plusieurs fichiers qui peuvent être connectés entre eux de façon hiérarchique et constituer une arborescence.

Les enregistrements sont connectés en utilisant des pointeurs qui contiennent l’adresse de l’enregistrement avec lequel il est connecté. Les pointeurs indiquent à l’ordinateur la localisation physique des enregistrements liés, un peu comme une URL redirige vers une page web particulière sur Internet.

Chaque pointeur établit une relation parent-enfant, aussi appelée relation un-à-plusieurs, dans laquelle un parent peut avoir plusieurs enfants, mais chaque enfant ne put avoir qu’un seul parent. En d’autres termes, un enregistrement peut être le parent de plusieurs enregistrements qui à leur tour peuvent avoir des enfants. Par exemple, un fichier appelé Managers contenant les données sur les managers d’une entreprise est lié à un autre fichier appelé Employés contenant les données sur les employés de l’entreprise. Chaque manager peut avoir plusieurs employés sous sa tutelle, mais chaque employé ne peut être affecté qu’à un seul manager.

À l’aide d’un langage dit de navigation entre les fichiers, le programmeur accédant à un enregistrement du fichier Manager peut repérer automatiquement les enregistrements enfants du fichier Employés. Ainsi, il est désormais possible de récupérer les enregistrements des employés associés à un manager particulier et les enregistrements d’un manager ayant plusieurs employés. La figure suivante illustre la couche sémantique de l’infocentre.

modèle de données de l'infocentre
Figure : couche sémantique de l’infocentre – basée sur un modèle hiérarchique dans lequel l’interrogation de données se fait lecture d’un arborescence de noeuds pré-défini

L’infocentre s’installait sur un mainframe avec les équipements nécessaires (tels que les terminaux passifs comme la machine à écrire,  des écrans à tube cathodique, etc.). Il utilisait des systèmes comme le MVS/TSO, VMS, UNIX, VM/CMS et Multics.

Lors de la transition vers les PC et l’architecture client/serveur, l’infocentre a peu à peu été abandonné (surtout à cause des faiblesses inhérentes à l’organisation des données en hiérarchie) pour faire place au Data Warehouse.

De l’infocentre au Data Warehouse

Si l’infocentre a répondu aux besoins des entreprises à l’époque, il a rapidement montré ses limites. Comme nous l’avons dit plus haut, l’infocentre est basé sur une couche sémantique qui n’est pas propice aux nouvelles exigences de données.

Les données fournies aux utilisateurs ne sont pas historisées, elles sont transactionnelles et changent avec le temps. Étant donné qu’il n’y’a pas d’historique, il n’y’a pas un processus d’ETL mis en place pour unifier les différentes sources de données et les rendre homogènes.

De plus, l’interrogation d’un infocentre est très difficile pour les Data Analysts à cause de la difficulté des technologies utilisées pour interagir avec le mainframe.

Avec l’évolution des PC, des architectures client/serveur, ainsi que l’avènement du modèle relationnel, et du SQL, les Data Warehouse se sont révélées être plus pertinentes pour les nouvelles exigences du Data Management que l’infocentre.

Le Data Warehouse encore appelé Entrepôt de données, en tant que concept de Data Management, a été inventé en 1980 par Bill Inmon. Celui-ci le définit formellement comme : « une collection de données orientée-sujet, intégrée, à variance constante et non-volatile utilisée pour la prise de décision stratégique » :

  • Une collection de données : c’est-à-dire un point central d’intégration de toutes les données opérationnelles de l’entreprise contenues dans les applications opérationnelles (ERP, applications métiers, feuilles de calcul Excel, CRM, SCM, fichiers plats, csv, etc.). Ce point central ne fait pas forcément référence à la centralisation des données en un lieu physique précis ou dans une machine physique précise. L’idée, c’est réussir à unifier et à connecter toutes les données d’une entreprise en utilisant un référentiel commun ;
  • Orienté-sujet : les données stockées dans le Data Warehouse ne sont pas regroupées selon les besoins des processus métiers, mais selon les sujets, par exemple un sujet client, vendeur, production, localité… ;
  • Intégré : étant donné que les données proviennent de différentes sources ou systèmes, et sont donc souvent structurées et codées de façons différentes, le Data Warehouse les intègre pour fournir une représentation uniforme, cohérente et transparente ;
  • À variance constante : le Data Warehouse stocke les données sous forme d’historique et introduit ainsi la notion de temps dans le stockage de la donnée ;
  • Non-volatile : les données sérialisées dans le Data Warehouse sont accessibles en lecture seule, elles ne peuvent pas être modifiées ou changées. La seule opération possible dans le Data Warehouse est l’ajout de données ;
  • Utilisé pour la prise de décision stratégique : le Data Warehouse, avec cette approche de stockage, sert de socle pour l’analyse de données et la prise de décisions efficaces. 

Le Data Warehouse tire parti des avancées technologiques du Big Data et prennent alors le pas sur l’infocentre.

Une différence communément admise entre l’infocentre et le Data Warehouse est qu’un infocentre utilise une seule source de données alors que le Data Warehouse regroupe les données de différentes sources applicatives dans le but de pouvoir les croiser. Le tableau ci-dessous présente les détails par rapport à ces deux (02) concepts.

Infocentre

Data Warehouse

  • Collection de données
  • Orientées sujet
  • intégré
  • Volatiles
  • actuelles
  • conçu pour un processus de décision ponctuel
  • outils
  • collection de données
  • orientées sujet
  • intégré
  • non-historique 
  • historisées
  • conçu pour un processus de décision durable
  • architecture

Alors, avec l’arrivée du Data Warehouse, que deviens l’infocentre ? A-t-il disparu ? L’infocentre n’a pas encore complètement disparu. Il y a encore certaines entreprises qui utilisent l’infocentre. Par exemple, CTI Santé, Esus Group. Les institutions financées par les autorités utilisent également cette structure. C’est le cas du CNRS ou du ministère de l’Éducation nationale.

Nous voilà au terme de cette chronique. Ce que vous devez retenir c’est que l’infocentre représente une base de données apparue dans les années 60 – 70 pour pallier les difficultés décisionnelles des analystes. L’infocentre c’était comme le Data Warehouse d’aujourd’hui. Avec le temps et l’évolution technologique, il a été progressivement évolué vers les tous les concepts de Data Management qu’on connaît aujourd’hui, à savoir le Data Warehouse, le Cube OLAP, le Data Mart, ou encore le Data Hub. L’infocentre est l’ancêtre des stratégies de management de données actuelles.


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

>