Maitrisez Spark SQL pour l’ingénierie des bases de données

De nombreux data scientists, data analysts, data engineers et utilisateurs de Business Intelligence s’appuient sur des requêtes SQL interactives pour explorer les données. Spark SQL est un module d’Apache Spark pour le traitement de données structurées. Spark SQL fournit une abstraction de programmation appelée DataFrame et peut agir comme un Read more…

web scraping

Web Scraping : Comment collecter les données du web avec Python ?

Vous travaillez avec Python ? Vus vous intéressez au Big Data et vous souhaitez travailler dans ce domaine en tant que Data Analyst ? Ou dans le cadre de votre travail, vous devez traiter une masse importante de données pour enrichir votre rapports décisionnels ? Si vous répondez oui à l’une Read more…

hadoop mapreduce

Exécuter le MapReduce dans un cluster Hadoop

Pour valoriser le volume astronomique de données générées dans l’ère du Big Data, la meilleure stratégie consiste à distribuer le stockage de données et à paralléliser leur traitement dans un cluster d’ordinateurs.  Dit comme cela, c’est très facile à appréhender, cependant la réalité est tout autre ! Car valoriser les données Read more…

Développer des applications de consommation de données avec Kafka Connect

Vous le savez déjà peut-être, mais la base du développement d’applications de Big Data Streaming avec Kafka se déroule en 3 étapes, à savoir, En ce qui concerne le Producer, il existe 2 façon de le déclarer : vous pouvez entièrement le créer par programmation, ou alors vous pouvez exposer une application existante Read more…

SOA et microservices en Big Data

Architecture SOA : Développement d’applications Big Data en services et microservices

L’objectif ultime du Big “Data”, c’est l’information, l’extraction de l’information pertinente pour la prise de décision, ce que beaucoup qualifient par “valeur” ou “insights“. L’objectif du “Big” Data est l’information.  Malheureusement, malgré la disponibilité des technologies du Big Data, beaucoup d’entreprises et d’organisations ont encore du mal à obtenir l’information dont ils ont Read more…

bases de données SQL

Hadoop vs Teradata : les approches technologiques d’interrogation d’une base de données en Big Data

Vous travaillez sur des projets de reporting, Business Intelligence, Big Data et vous avez du mal avec vos requêtes ? Vos bases de données SQL prennent trop de temps pour s’exécuter ? Vos requêtes SQL sont trop lentes ? Dans cette chronique, nous vous expliquerons l’approche technologique utilisée pour interroger efficacement les bases de données

data mining textuel

Data Mining : les principes d’interrogation d’une base de données

Le Big Data est résolument tourné vers la valorisation et l’exploitation de la donnée. Le contexte actuel et la majorité des approches de gestion de projet  (les méthodes agiles, SCRUM, KANBAN, Lean, Six Sigma, SAFe, …) exigent que les salariés et l’ensemble des professionnels de l’entreprise aient un accès opportun Read more…

LE SQL DANS HADOOP : Hive & Pig

La solution conceptuelle au problème de traitement de données dans l’ère Numérique est la suivante : les traitements/calculs doivent être divisés en tâches et leur exécution doit être parallélisée dans un cluster d’ordinateurs complètement tolérant aux pannes. La tolérance aux pannes est fournie par un tout nouveau type de Système Read more…

>