Pour continuer à assurer des niveaux de productivité croissants qui leur permettront de faire face aux challenges posés par la nouvelle économie d’aujourd’hui, les entreprises ont compris qu’elles devaient communiquer, communiquer d‘une part en interne avec ses différents collaborateurs et communiquer d’autre part en externe avec ses fournisseurs.

Cette ouverture s’est faite via leur système d’information. L’explosion mondiale d’internet ces dernières années a largement favorisé cette ouverture et l’a littéralement transportée  à un autre niveau la communication : aujourd’hui les collaborateurs d’une entreprise communique sur les réseaux sociaux, sur les portails interne de l’entreprise, sur les forums et dans des blogs. Les entreprises échangent les informations avec leurs fournisseurs de manière quasi-automatisée en reliant leurs systèmes d’information. 

La trop grande ouverture et le décloisonnement des Systèmes d’Information voulus par les entreprises pour le partage d’information a provoqué l’apparition d’une nouvelle menace : la Cyber criminalité ou le « Hacking » pour être plus précis. En effet, des individus appelés communément « hackers » profitent des faiblesses et de l’ouverture des systèmes d’information pour pénétrer dans les entreprises et perpétrer des actes que nous qualifieront de « vandalisme », à savoir déclenchement de faux virements bancaires,  piratage des données confidentielles, espionnage industriel ou tout simplement vandalisme du système de l’entreprise. Ces actions ne sont bien sûr pas sans conséquence sur la performance et la réputation de l’entreprise.

En Février 2015, TV5 Monde est victime d’une cyber attaque sans précédent qui a forcé l’arrêt complet de la diffusion des programmes de la chaîne de télévision francophone TV5 Monde.

En Novembre 2014, SONY révèle une cyber attaque qui a paralysé son système informatique. Les pirates informatiques  ont détourné les données personnelles de 47 000 employés, diffusé cinq films en ligne dont certains n’étaient pas encore sortis et ont fait fuiter des documents confidentiels.

Tout récemment, le centre de vaccination contre le Covid-19 de l’Hôpital de DAX a dû fermer ses portes à cause d’une importante attaque de type rançongiciel.

Ces cas de figure sont de simples exemples parmi tant d’autres qui montrent à quel point le risque d’attaque est réel et l’urgence pour les entreprises de prendre des mesures permettant de les sécuriser de ces attaques d’un genre nouveau.

La tâche s’annonce d’autant plus difficile que :

  • la volumétrie de données disponible, l’accès à l’information, la complexité croissante des systèmes d’information renforçant leur vulnérabilité, offrent de plus en plus de possibilités aux hackers.
  • Les entreprises ne se sont pas organisées fonctionnellement et techniquement pour répondre efficacement à des menaces de cyber attaques.
  • La sécurité, n’étant pas un processus métier clé de l’entreprise, elle n’occupe pas une place prépondérante dans les postes budgétaires de l’IT (auquel cas il serait difficile pour les DSI d’innover en matière d’infrastructure technologique). D’après une enquête menée par le SANS Institute, 16% des entreprises enquêtées déclarent allouer 6% du budget de leur DSI à la sécurité.

Cette chronique est la première partie d’une série de chroniques dans lesquelles nous allons vous relater un retour d’expérience projet dans lequel nous avons implémenté une solution de cybersécurité basée sur l’analyse à large échelle de données et sur les faiblesses d’un SIEM (Security Event Management). Nous avons baptisé ce type de solution, Security Analytics. L’objectif pour nous c’est que vous voyez comment utiliser les techniques et les technologies du Big Data pour développer des solutions de cybersécurité. Dans cette chronique, nous allons commencer par les fondements : la définition de la cybersécurité.

Objectifs et enjeux d’un projet de cybersécurité via le Big Data

Avant d’entrer dans la façon de développer une solution de Security Analytics proprement dite, il est important que vous compreniez le contexte du projet, ses objectifs et ses enjeux. C’est ce que nous allons commencer par faire dans cette partie.

Objectifs du projet de Security Analytics

Le projet que nous avons  mené a pour but d’évaluer le niveau d’exposition d’un client à une attaque provenant de l’interne. Lorsque nous parlons d’attaque interne, nous faisons référence aux empreintes laissées par les pratiques des employés en matière de sécurité et qui peuvent être exploitées intelligemment par des hackers  pour lancer une attaque. 

L’idée c’est dans un premier temps d’être capable d’identifier et remonter les anomalies sur les logs de données internes  (badges, accès VPN))  et pouvoir corréler ces anomalies avec des sources de données externes pour ressortir les scénarios d’attaque possible et évaluer la risque de survenance de ces scénarios.  Une fois que cela sera fait, nous  implémenterons la solution dans  une plateforme  complète qui permettra d’automatiser le process de Security Analytics et qui sera suffisamment scalable pour prendre en compte de nouveaux use-cases, plus précisément l’extension à la Cyber Intelligence.

De façon plus global, l’objectif est que l’on soit capable à terme de fournir un indicateur de mesure du niveau d’exposition d’un client à une attaque aussi bien provenant de l’interne que de l’externe. Cela pourra se faire uniquement si on est capable de combiner les données internes aux données externes, autrement dit si l’on est capable de supprimer la limite entre la Cyber Sécurité et la Cyber Intelligence. Ceci permettra alors de fournir une vision 360° de l’exposition du client  à la fois à des attaques provenant des vulnérabilités de son Système d’Information et des attaques venant d’Internet.

Enjeux du projet

Ce type de projet a du sens aujourd’hui car les entreprises évoluent dans un contexte où les opportunités de business offertes par Internet ont accru de façon exponentielle les risques de Cyber-attaques. L’apport de ce projet par rapport à ce qui se fait d’habitude en matière de sécurité est l’intégration de la Data Science dans les processus de sécurisation des SI. En effet, actuellement, la majeur partie des solutions de sécurité consistent à détecter les attaques dans un mode réactif et curatif, c’est-à-dire intervenir lorsque l’attaque est en train d’être perpétrée ou a déjà été perpétrée et renforcer la sécurité du système  par rapport aux enseignements de cette attaque. Elles n’offrent pas la possibilité  d’évaluer les scénarios d’attaques et de les anticiper. La solution de Security Analytics que nous avons mis en place dans le projet ajoute à l’existant le mode préventif et permet de fournir une vision 360° du niveau d’exposition d’un client  à une attaque.  L’ enjeu d’un tel projet est donc de fournir aux entreprises une de solutions de sécurité qui leur permettent de se protéger des cyberattaques et d’avoir une vision 360° du niveau d’exposition de leur SI à des attaques.

Cybersécurité vs Cyber intelligence : quelle est la limite entre les deux ?

Il est important lorsque vous travaillez sur un projet de Security Analytics, de bien préciser le périmètre sur lequel vous développerez votre solution, soit cybersécurité, soit cyber-intelligence. Pour comprendre la différence entre les 2 concepts, analysons-les chacun pris séparément.

Définition de la Cybersécurité

Le document de stratégie nationale publié en février 2011 clarifie le terme de cybersécurité. « C’est l’état recherché pour un système d’information lui permettant de résister à des événements issus du cyberespace* susceptibles de compromettre la disponibilité, l’intégrité ou la confidentialité des données stockées, traitées ou transmises et des services connexes que ces systèmes offrent ou qu’ils rendent accessibles. La cyber sécurité fait appel, premièrement, à des techniques de protection des systèmes d’information connues depuis une vingtaine d’années sous le terme de Sécurité des systèmes d’information(SSI). Elle s’appuie, deuxièmement, sur la lutte contre la cybercriminalité et, troisièmement, sur la mise en place d’une cyberdéfense. La cyberdéfense est l’ensemble des mesures techniques et non techniques permettant à un État de défendre dans le cyberespace les systèmes d’information qu’il juge essentiels. »

Les moyens généralement utilisés en cybersécurité pour assurer la protection d’un système d’information sont :

  • Les pare-feu : un pare-feu, ou firewall, est un logiciel et/ou un matériel, permettant de faire respecter la politique de sécurité du réseau, celle-ci définissant quels sont les types de communication autorisés sur ce réseau informatique. Il mesure la prévention des applications et des paquets.
    • Les logiciels antivirus : ce sont des logiciels conçus pour neutraliser et éliminer des logiciels malveillants
    • Le SIEM : Security Information & Event Management, sont des systèmes logiciels qui permettent de centraliser  la gestion de toutes les informations et les événements liées à la sécurité dans l’entreprise. Son rôle est d’exploiter les fichiers de log produits par tous les outils de sécurité de l’entreprise pour les corréler, déclencher des alertes et effectuer le Reporting des événements de sécurité. Nous y reviendrons plus bas.
    • Les audits de sécurité pour détecter les vulnérabilités du système : sont des moyens préventifs qui permettent de détecter les failles d’un réseau informatique. Le principe consiste à effectuer des tests d’intrusion (pain test) sur un ensemble d’adresses IP appartenant au réseau de l’entreprise pour détecter les points d’entrée du réseau et ses vulnérabilités. 

Tous ces différents outils fonctionnent dans un mode réactif, c’est-à-dire permettent de détecter les intrusions et les attaques lorsqu’elles sont déjà présentes dans le système.

La Data Science, que nous désignons ici par “analytics“, fait référence aux concepts et techniques  qui permettent d’extraire de la valeur dans les données.

Le concept de Security Analytics (le nom de la solution de cybersécurité basée sur l’exploitation intelligente de la data) a pour but d’analyser les données de log de tous les outils de sécurité et de réseaux de l’entreprise afin de fournir une vision du niveau d’exposition global d’un système d’information à une attaque provenant de l’interne.

Ici, on exploite les bases de données virales, les logs des pare-feu, les données des accès VPN, les bases de données geo-localisées d’adresses IP, les logs de routeurs et d’autres actifs du réseau pour détecter les vulnérabilités, les anomalies d’une part et surtout fournir le risque d’autre part d’une attaque.

Cette approche est préventive par rapport à des solutions comme le SIEM et reste illimitée en termes de capacité d’analyse (là où dans un SIEM on cherche simplement à détecter des attaques sur la base des corrélations et des règles préalablement définies).

Définition de la Cyber-Intelligence

La Cyber-intelligence ou Digital Network Intelligence est l’ensemble des activités de collecte et d’analyse de données digitales afin d’identifier le maximum de renseignement concernant une cible.

Ici, les renseignements peuvent être obtenus à partir des sources ouvertes de données (données provenant d’internet telles que données de Blog, de réseaux sociaux…), de sites Web.

Pour rappel, un renseignement est une information estimée pour sa valeur et sa pertinence. Le renseignement se définit ainsi par opposition à la donnée (qui se réfère à la précision de l’information), ou d’un fait (constatation objective). Le renseignement se définit aussi par son usage : c’est une information délivrée (à un gouvernement ou une institution) pour guider des prises de décisions et des actions. L’objectif d’une investigation cyber-intelligence peut être multiple:

  • Obtenir un avantage concurrentiel ;
  • Porter atteinte au système d’information cible (DICT) ;
  • Découvrir des  secrets industriels ;

Périmètre d’une solution de Security Analytics

Comme nous pouvons le constater, la cybersécurité et la cyber-intelligence ont pour point commun le but qu’elle poursuit : fournir une vision du niveau d’exposition d’une entreprise à une attaque.  La différence fondamentale entre les deux, qui constitue également la limite de périmètre entre les 2 disciplines est leur source de données. Tandis qu’en cyber sécurité on va utiliser les données provenant de l’interne du Système d’information, en cyber intelligence on va investir les données provenant plutôt de l’externe.

Dans le cadre du projet de Security Analytics dont nous parlons dans cette chronique, le périmètre qui a été défini est l’utilisation des sources de données interne au SI dans un premier temps, ensuite on pourra corréler ces données internes avec des données provenant de l’externe.

Typologie d’attaques

Une cyber-attaque c’est toute action intentionnelle qui consiste soit à détruire, soit à altérer, soit à accéder à des données sensibles d’une organisation dans le but de les modifier ou de nuire au bon fonctionnement du Système d’Information de l’entreprise. Les motivations sont diverses et fonctions de la nature des informations recherchées et de l’organisme visé.  Voici une liste non-exhaustive des types de cyber attaques :

  • Usurpation d’adresse  IP : ce type d’attaque consiste à envoyer des paquets IP en utilisant une adresse IP source qui n’a pas été attribuée à l’ordinateur qui les émet. Le principe consiste à masquer sa propre identité en usurpant l’adresse  d’un équipement du réseau pour bénéficier des services auxquels il a accès.
  • Les écoutes Réseau : ce type d’attaque consiste en l’interception non-autorisée de la  communication réseau de la cible et la découverte des paquets échangés.
  • Les intrusions: les intrusions ne sont pas des attaques en tant que telles, elles sont le point d’entrée des attaques. Elles consistent à exploiter les vulnérabilités du système d’information cible afin d’avoir un accès non-autorisé  au réseau de la cible. Une fois dans le système d’information, les attaques peuvent être perpétrées. Par exemple, une intrusion d’un serveur Web consiste à envoyer à ce serveur plus de requêtes que celui qu’il n’a été programmé pour gérer, cela provoquant son plantage.
  • Le piratage : ces attaques sont essentiellement des tentatives d’obtention d’accès non-autorisés à un système en utilisant la connexion légitime d’une entité du système. Par exemple, si un utilisateur laisse sa session de travail ouverte, cette session peut être sujette à un piratage de session par un hacker. Le piratage du numéro de séquence du TCP est un autre exemple de piratage de session ; celle-ci consiste à exploiter la session de communication qui a été établie entre  l’hôte cible  et l’hôte légitime qui a initié la session. Le hacker pirate la session de l’hôte légitime en prédisant le numéro de séquence utilisé par l’hôte cible, qui est utilisé par le TCP.le piratage.
  • Les attaques de Denis de Service (DoS) : Ces attaques essayent de faire planter  les entités (serveurs, applications…) du réseau en leur envoyant plus de requêtes qu’elles ne peuvent gérer. Une technique avancée du DoS consiste à utiliser les ressources d’un environnement distribué pour émettre des requêtes  à un hôte cible.
  • Pishing : cette attaque consiste à envoyer à des utilisateurs du système cible, un mail « piégé », c’est-à-dire un mail contenant du code malveillant en pièce jointe  qui va être exécuté une fois que l’utilisateur va cliquer dessus. La majeure partie des attaques réussies à ce jour sont en grande majorité dûes à des mails « piégés ».
  • Les attaques de niveau applicatives : ce sont des attaques qui sont faites à l’aide de l’introduction sur l’hôte cible d’un logiciel ou script  malveillant. Les exemples de ces attaques incluent les attaques de virus, Trojans, malwares, l’injection des scripts SQL et le « Cross-Site Scripting (XXS) ». Elles exploitent les faiblesses d’une application, par exemple les faiblesses de sécurité dans un serveur web, plus précisément sur la technologie utilisée pour le site web.
  • Les attaques SYN flood: ce sont des  attaques informatiques visant à atteindre un déni de service. Elle s’applique dans le cadre du protocole TCP et consiste à envoyer une succession de requêtes SYN vers la cible. Elles profitent de l’incapacité d’un serveur à répondre à plusieurs requêtes SYN incomplètes.

Déroulement globale d’une cyberattaque

En général, lors d’une attaque ciblée contre une entreprise, Les attaquants atteignent leur cible de la façon suivante (voir figure) :

1ère phase : compromission d’un ou de plusieurs sites Internet publics, afin de les utiliser comme vecteurs d’infection des postes informatiques de l’entreprise ciblée. Les sites Internet publics sont sélectionnés parmi ceux qui sont régulièrement consultés par le personnel de cette entreprise (notamment le site Internet institutionnel de la cible). Les attaquants compromettent les sites en exploitant par exemple des vulnérabilités de logiciels utilisés pour gérer leur contenu. Pour cela, les attaquants modifient les pages des sites afin de provoquer la navigation vers un script malveillant, provenant d’un serveur tiers, au moyen d’un lien illégitime. Ce script exploite les vulnérabilités des navigateurs Internet usuels et de leurs modules d’extensions. Ces vulnérabilités sont généralement exploitées dans le mois suivant leur publication ou parfois beaucoup plus vite en quelques heures ;

2ème phase : compromission des postes informatiques des personnes ayant consulté le ou les sites Internet publics piégés lors de la première étape (par
exemple, avec vol de mot de passe), grâce à un code malveillant spécifiquement conçu ;

3ème phase : accès aux réseaux internes de l’entreprise depuis les postes informatiques compromis ;

4ème phase : exfiltration de données sensibles copiées depuis les réseaux internes atteints.

attaque cybersécurité
Figure : scénario possible d’une cyber-attaque

Bien sûr ce scénario est un scénario parmi tant d’autres scénarios possibles.

Voilà! Nous espérons qu’à travers cette chronique, vous avez compris ce que c’est que la cybersécurité, ses enjeux et l’intérêt de développer une solution de Security Analytics. Dans la session suivante, nous allons approfondir les choses avec le SIEM.


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

>