selenium python

Selenium Python : réussir ses tests unitaires et extractions de données

La sécurité est un enjeu majeur des technologies numériques modernes. Avec le développement d’Internet et de la notion du partage en général, de nombreuses données circulent chaque jour sur les réseaux interconnectés et spécialement sur les sites web. Certains sites web peuvent contenir une très grande quantité d’informations ou de Read more…

BeautifulSoup

Scrapez automatiquement n’importe quel site web avec BeautifulSoup

Les données sont devenues le carburant de la croissance des entreprises au cours de la dernière décennie. L’internet est la principale source de données, avec 5 milliards d’utilisateurs générant des milliards de points de données chaque seconde, ce qui constitue le Big Data. L’analyse des données web peut aider les Read more…

JupyterLab : Présentation de l’interface UI Notebook de Python

Dans un projet Big Data, plusieurs intervenants collaborent afin d’utiliser les multitudes de données traitées par ces derniers lors de la prise de décision de l’entreprise. Les Data Engineers, les Data Scientists et les Data Analysts font partie de ces personnes. Chacun d’eux possède des tâches spécifiques à exécuter. Cependant, Read more…

hadoop mapreduce

Exécuter le MapReduce dans un cluster Hadoop

Pour valoriser le volume astronomique de données générées dans l’ère du Big Data, la meilleure stratégie consiste à distribuer le stockage de données et à paralléliser leur traitement dans un cluster d’ordinateurs.  Dit comme cela, c’est très facile à appréhender, cependant la réalité est tout autre ! Car valoriser les données Read more…

Apache Airflow : déployer automatiquement des projets Big Data en production

Les informations à collecter et à stocker sont de plus en plus nombreuses. L’énorme flux de données qui affluent de nos jours favorise l’émergence de nouveaux outils. Parmi eux figurent Apache Airflow. Dans l’écosystème de technologies Big Data, Apache Airflow tout comme Oozie, est l’orchestrateur et le planificateur automatique des Read more…

Maitrisez Spark SQL pour l’ingénierie des bases de données

De nombreux data scientists, data analysts, data engineers et utilisateurs de Business Intelligence s’appuient sur des requêtes SQL interactives pour explorer les données. Spark SQL est un module d’Apache Spark pour le traitement de données structurées. Spark SQL fournit une abstraction de programmation appelée DataFrame et peut agir comme un Read more…

HBase : Développez des applications NoSQL – Tutoriel complet

citation Tutoriel HBase :     « Faire du NoSQL c’est juste faire des choix intelligents » Avec toute la volumétrie des données dont on dispose aujourd’hui et toutes leurs caractéristiques, c’est impossible de penser « Gestion de données » tel qu’on l’a fait dans le passé, c’est-à-dire centraliser le stockage Read more…

web scraping

Web Scraping : Comment collecter les données du web avec Python ?

Vous travaillez avec Python ? Vus vous intéressez au Big Data et vous souhaitez travailler dans ce domaine en tant que Data Analyst ? Ou dans le cadre de votre travail, vous devez traiter une masse importante de données pour enrichir votre rapports décisionnels ? Si vous répondez oui à l’une Read more…

Développer des applications de consommation de données avec Kafka Connect

Vous le savez déjà peut-être, mais la base du développement d’applications de Big Data Streaming avec Kafka se déroule en 3 étapes, à savoir, 1 – déclarer le Producer, 2- indiquer le topic de stockage 3- et déclarer le Consumer. En ce qui concerne le Producer, il existe 2 façon de le déclarer : Read more…

LE SQL DANS HADOOP : Hive & Pig

La solution conceptuelle au problème de traitement de données dans l’ère Numérique est la suivante : les traitements/calculs doivent être divisés en tâches et leur exécution doit être parallélisée dans un cluster d’ordinateurs complètement tolérant aux pannes. La tolérance aux pannes est fournie par un tout nouveau type de Système Read more…

data mining textuel

Data Mining : les principes d’interrogation d’une base de données

Le Big Data est résolument tourné vers la valorisation et l’exploitation de la donnée. Le contexte actuel et la majorité des approches de gestion de projet  (les méthodes agiles, SCRUM, KANBAN, Lean, Six Sigma, SAFe, …) exigent que les salariés et l’ensemble des professionnels de l’entreprise aient un accès opportun Read more…

bases de données SQL

Hadoop vs Teradata : les approches technologiques d’interrogation d’une base de données en Big Data

Vous travaillez sur des projets de reporting, Business Intelligence, Big Data et vous avez du mal avec vos requêtes ? Vos bases de données SQL prennent trop de temps pour s’exécuter ? Vos requêtes SQL sont trop lentes ? Dans cette chronique, nous vous expliquerons l’approche technologique utilisée pour interroger efficacement les bases de données

SOA et microservices en Big Data

Architecture SOA : Développement d’applications Big Data en services et microservices

L’objectif ultime du Big « Data », c’est l’information, l’extraction de l’information pertinente pour la prise de décision, ce que beaucoup qualifient par « valeur » ou « insights« . L’objectif du « Big » Data est l’information.  Malheureusement, malgré la disponibilité des technologies du Big Data, beaucoup d’entreprises et d’organisations ont encore du mal à obtenir l’information dont ils ont Read more…

>