Dans cette chronique, nous allons finaliser la série sur le Big Data dans le Cloud afin de vous rendre opérationnel sur le sujet. A titre de rappel, le déploiement de l’IT  Cloud computing apparaît aujourd’hui comme étant un modèle rentable économiquement pour les entreprises. Le Big Data ne fait pas exception. Le Cloud computing fait partie des phénomènes qui vont façonner de façon durable notre société dans l’ère numérique. Dans la troisième chronique de la série, nous avons abordé les 2 dangers principaux du Cloud computing, à savoir :
– la perte de souveraineté de l’Etat (donc de l’indépendance des entreprises)
– et le TCO à long terme.
Dans cette chronique, qui sera la dernière de la série sur le Big Data dans le Cloud, nous allons vous donner 8 critères pour évaluer un fournisseur Cloud. Si vous êtes consultant, vous pourrez utiliser cette grille pour aider vos clients à choisir les solutions Cloud qui sont plus adaptés à ses besoins. Si vous êtes interne, elle vous servira comme outil de due diligence pour  évaluer vos fournisseurs Cloud en général et vos fournisseurs de solutions Hadoop Cloud en particulier. 

Critère #1 : la viabilité à long terme du fournisseur Cloud

CloudWatt et Numergy, les principaux acteurs du Cloud souverain français, cela vous rappelle quelque chose n’est ce pas ? Compte tenu des enjeux d’une migration Cloud computing et de la catastrophe que résulterait d’un pas arrière vers le modèle de déploiement on Premise en cas d’échec du Cloud, le premier critère que nous proposons pour évaluer une offre Cloud c’est la viabilité potentielle du fournisseur. Vous devez vous assurer que le fournisseur Cloud ne mettra pas les clés sous le paillasson dans un avenir proche. Sur le marché du Cloud, il existe des fournisseurs de grande taille et des fournisseurs de petite taille spécialisés dans des niches. Les opérations de rachat sont très courantes dans le milieu et vous devez vous assurer qu’en cas du rachat de votre fournisseur, vos données n’en soient pas affectées. Nous vous recommandons vivement de faire une due diligence du fournisseur. Cette due diligence inclura au minimum l’analyse  de la santé financière de l’entreprise (son bilan et son compte de résultat sur N-3 ans).

Attention !!! Ne vous laissez pas avoir par la taille du fournisseur Cloud. Dans la mesure du possible, faites votre Due Diligence sans aucun préjugé. La taille d’une entreprise n’est pas un indicateur de sa viabilité à long terme

Critère #2 : les composants Hadoop disponibles dans l’offre Cloud

Le deuxième critère que nous vous recommandons ce sont les cas d’utilisation couverts par la solution Cloud du fournisseur. Vous devez évaluer la composition de l’offre Cloud du fournisseur. En effet, les composants Hadoop présents dans l’offre déterminent les cas d’usage potentiels. Nous vous recommandons de privilégier un fournisseur Cloud qui offre une distribution éditeur (Cloudera, Hortonworks, MapR, etc.)  complète d’Hadoop. Pourquoi ? Pour 2 raisons simples : 

– étant donné que la majorité des composants des distributions Hadoop viennent d’Apache, les utilisateurs peuvent directement utiliser les compétences qu’ils ont déjà des composants Hadoop dans le Cloud. 

– l’intégration d’une distribution Hadoop assure que les composants seront rapidement mis à jour par le fournisseur et que vous pourriez bénéficier des dernières nouveautés de la communauté open source d’Apache. 

Dans le cas où vous sélectionnez un fournisseur qui offre ses propres composants Hadoop, c’est-à-dire des composants qu’il a lui-même développé, n’hésitez pas à évaluer leur performance par rapport à leur équivalent Open Source (Apache) et assurez vous que leur courbe d’apprentissage est basse. 

Critère #3 : la Performance de l’offre Cloud

Vous devez évaluer la performance de l’offre du fournisseur. En effet, rien n’est plus frustrant que de constater une fois l’abonnement souscrit que le service est plus lent que ce qui avait été annoncé. Vous devez vérifier que l’offre IaaS d’approvisionnement des machines virtuelles du fournisseur offre les caractéristiques nécessaires pour le bon fonctionnement de vos composants Hadoop. Il s’agit entre autre du redimensionnement automatique du cluster en ressources, nécessaires pour gérer les augmentations ou les baisses de charge de calcul, la relance automatique des jobs en cas d’arrêts imprévus, la latence dans les calculs. En tout cas, l’idée est de vérifier toutes les options de performance offertes par le fournisseur Cloud.     

Attention !!! Ne perdez pas de vue que la performance que vous obtenez en Cloud est fonction des caractéristiques des instances que vous incluez dans votre abonnement comme nous l’avons vu avec Amazon EMR et Azure HDInsight. Evitez d’avoir des attentes de performance irréalistes par rapport au prix que vous payez et souscrivez à des instances de tailles supérieures en cas d’augmentation de charge de calcul   

Critère #4 : la responsabilité juridique des données

Comme nous, vous avez  remarqué Des montées impérialistes  de quelques Etats ces derniers temps n’est ce pas ? 
Vous devez régler la question de la responsabilité juridique du fournisseur Cloud vis-à-vis de vos données. Pendant longtemps, la question de propriété ne se posait pas puisque les données étaient stockées dans l’entreprise. Aujourd’hui, avec le déplacement des données et leur hébergement dans le Cloud, la notion de propriété de données doit être revue. Est-ce le fournisseur qui est propriétaire des données en vertu du fait qu’il héberge les données ? Ou bien est ce l’entreprise parce que les données restent les siennes ? Toujours est-il qu’il est crucial qu’avec le fournisseur, vous définissez clairement le propriétaire des données. Etre propriétaire de données signifie en être pénalement responsable, par exemple en cas de fuite ou de piratage, c’est le propriétaire qui répond de l’acte en justice. Or, la responsabilité pénale emmène la notion de juridiction sur la scène. Etre responsable pénalement aux états unis par exemple, n’est pas identique qu’être responsable pénalement en France. La juridiction varie en fonction des pays. Ainsi, pour définir le propriétaire des données vous devez prendre en compte 2 facteurs : 

–  La localisation géographique du fournisseur : la juridiction de l’Etat dans lequel le fournisseur Cloud a sa raison sociale peut avoir un impact sur le niveau de contrôle que celui exerce sur les données. Aux Etats Unis par exemple, avec le Patriot Act et le Cloud Act, le fournisseur Cloud est dans l’obligation de fournir l’accès aux données qu’il héberge dans le cas où l’Etat estime nécessaire.  Vous devez donc connaître la juridiction à laquelle le fournisseur est soumis dans son pays d’origine et voir les mécanismes juridiques mis en place par votre pays en cas de litige ;

–  La localisation géographique des données de l’entreprise : dans le Cloud, généralement vous n’avez pas connaissance de la localisation des données. Même si aujourd’hui, les fournisseurs vous donnent la possibilité de choisir la zone géographique dans laquelle vos données seront hébergées, les opérations de géo-réplication de données d’une zone géographique à une autre sont souvent nécessaires pour effectuer des restaurations en cas de problème (tremblement de terre, séisme, etc.). La juridiction de la zone géographique dans laquelle les données sont répliquées peut affecter la propriété et la responsabilité pénale. Vous pouvez demander au fournisseur de certifier que les données sont uniquement sous la juridiction de la zone géographique où vous choisissez de les héberger. Par exemple, si vous vous abonnez à un service en Irlande, alors le fournisseur doit garantir que seule la juridiction de l’Irlande s’applique à vos données ;   

De plus, le fournisseur doit garantir qu’il n’utilisera pas vos données à votre insu, ni qu’il ne les diffusera sous aucun prétexte (en dehors d’un recours légal éventuel ou d’un mandat émanant directement de l’Etat de sa résidence fiscale). 

Critère #5 : le niveau de sécurité des données

La sécurité est le second facteur critique du cloud après la souveraineté. Vous devez évaluer les stratégies mises en place par le fournisseur pour minimiser les risques de piratage des données hébergées.  Petit rappel vis-à-vis de ce critère : le fait de conserver les données en interne (On Premise) n’est pas non plus un gage de sécurité par rapport à un hébergement dans le Cloud. Aucune barrière de sécurité n’est infranchissable aussi longtemps qu’elle aura été conçue et mise en place par un être humain.  En général, les mesures et systèmes de sécurité des entreprises sont moins solides et moins élaborées que celles offertes par les fournisseurs Cloud, car là où la sécurité est un processus support pour une entreprise classique, elle est un processus métier clé chez les fournisseurs Cloud. Ceux-ci sont donc (normalement) conscients des enjeux de sécurité, savent que leur réputation de fournisseur Cloud dépend de leur capacité à garantir la protection des données de leurs clients et par conséquent investissent massivement dans le développement des systèmes hautement sécurisés. Mais on ne sait jamais ! Évaluez les mesures de sécurité mises en place par le fournisseur Cloud (par exemple par la certification des revus de ses processus de sécurité, la certification de ses processus d’identification des cartes de paiement, la certification de ses processus métiers au standards ISO, PCI, SAS 70, etc.) et les techniques de protection de données qu’il a développés pour garantir la sécurité de vos données (techniques de cryptage de données utilisées). 

Note ! Le cryptage est la technique de sécurité la plus utilisée actuellement aussi bien dans le Cloud qu’en dehors. Le cryptage assure que même si le pirate/hacker arrive à franchir les barrières de sécurité du système d’information et pirater les données, elles seront inutilisables s’il n’arrive pas à trouver la clé de décryptage. Dès lors, l’évaluation d’un fournisseur Cloud sous l’angle de la sécurité peut revenir au niveau le plus basique à évaluer le niveau de complexité de la clé de cryptage qu’il offre pour sécuriser vos données. 

Critère #6 : les SLA du fournisseur Cloud

Nous avons déjà beaucoup parlé des SLA dans les chroniques précédentes. Si cela n’est toujours pas clair pour vous, alors relisez la chronique suivante : https://www.data-transitionnumerique.com/big-data-deploiement-on-premise-ou-cloud. En gros, les SLA représentent les garanties de performance que le fournisseur Cloud offre vis-à-vis de sa solution. Ces garanties peuvent porter sur la restauration des données, la protection des données, la couverture juridique des données, la localisation géographique des données, etc. L’ensemble de ces garanties sont mentionnées dans un document légal appelé le SLA (Service Level Agreement), ou Accord de Niveau de Service. Le SLA  spécifie l’ensemble des fonctionnalités attendues du service Cloud aussi bien de la part du client que du fournisseur. Comme tout document légal, le but est de protéger les deux parties en cas de conflits sur la gestion des niveaux de services. Le SLA doit être revu par l’avocat des deux parties dans la mesure du possible. Les fournisseurs Cloud ne garantissent pas les mêmes niveaux de service. Vous devez donc évaluer très attentivement leurs garanties et les sélectionner sur cette base. Un fournisseur qui annonce des fonctionnalités mais n’est pas prêt à s’engager juridiquement pour garantir la fourniture de ces fonctionnalités est suspect !

Critère #7 : La tarification

L’un des avantages les plus significatifs du Cloud réside bien sur les coûts. Nous l’avons déjà vu, le Cloud  évite l’acquisition et la maintenance d’infrastructures informatiques coûteuses. Vous devez donc vous poser la question de savoir combien vous coûtera par période de consommation la solution du fournisseur. Dans la chronique suivante : https://www.data-transitionnumerique.com/big-data-deploiement-on-premise-ou-cloud/, nous avons vu les facteurs qui entrent dans la tarification des solutions Cloud et nous avons vu que l’un des plus importants d’entre eux c’est la taille des instances du cluster. Ainsi, avant d’évaluer les fournisseurs sur ce critère, assurez-vous d’être clair sur vos besoins, spécialement ceux concernant les ressources dont vous aurez besoin. 

Critère #8 : les conditions de sortie du Cloud

Oui vous avez bien lu ! Vous pouvez être coincés « légalement » dans le Cloud d’un fournisseur. Certains fournisseurs rendent leur contrat tellement complexe et les mécanismes de résiliation tellement difficiles qu’il peut être très difficile de sortir de l’offre Cloud. Encore une fois, c’est comme dans toute chose, « clarity is power« .  Demandez au fournisseur d’énoncer clairement les conditions de sortie de son Cloud. Et demandez cela avec un ton très ferme ! 

Voilà ! Nous sommes parvenus à la fin de la chronique. L’utilisation de cette grille de 8 critères vous aidera à évaluer le choix d’un fournisseur Cloud fiable pour vous (si vous êtes responsable d’une entreprise) ou pour votre client (si vous êtes consultant). Bien-sûr, vous pouvez vous-même par une séance de brainstorming, déterminer d’autres critères supplémentaires pertinents et adaptés à votre cas d’usage.


Ressources complémentaires

La fin de cette chronique marque également la fin de notre périple sur la série « Big Data dans le Cloud« . Nous espérons que maintenant après la lecture des 5 chroniques de la série, vous avez une vision claire du Cloud et vous pouvez vous affirmer sur le sujet pour aider vos clients ou votre entreprise. Si vous souhaitez aller plus loin dans votre apprentissage du Cloud, nous vous recommandons les ressources suivantes : 


Lectures recommandées

Nous vous recommandons les ouvrages suivants pour aller plus loin dans le Cloud Computing :

business-cloud-computing

Business in the Cloud : what every Business needs to know about the Cloud, un excellent livre des éditions Wiley & Sons

big data dans le cloud computing

« Maîtrisez l’utilisation des technologies Hadoop« , le deuxième ouvrage du projet DTN, dans lequel nous traitons intensivement le Big Data dans le Cloud 


Avez-vous des questions par rapport à cette chronique, au cloud computing ou au Big Data dans le Cloud ? Signalez-le nous dans les commentaires. Nous serons ravis de vous aider.


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

  • Narcisse dit :

    Les critères ont été bien présentés. Merci

  • >