Les données et les informations fusent partout grâce à la numérisation de tous les secteurs d’activité. Le domaine du Big Data est plus que jamais d’actualité et les entreprises s’intéressent de plus en plus aux avantages que peuvent leur apporter cette mine d’informations à leur prise de décision. Toutefois, avant d’user de l’opportunité qu’offre le Big Data, il faut savoir collecter les données, les trier, les traiter et les transformer afin de les rendre consommables. Les Data Analyst, les Data Engineer ou encore les Data Scientist travaillent dans le but de réaliser cet objectif. Et pour que cela soit bien fait, il leur faut les outils et les technologies adéquates. S’ils utilisent Python, Anaconda est l’une des logiciels qui vont les aider dans cette tâche.

Dans ce tutoriel exhaustif, nous allons vous montrer la manière d’installer et de configurer Anaconda pour Python.

C’est quoi Python ?

Avant de commencer le tutoriel, découvrons tout d’abord ce qu’est Python. En 1989 aux Pays-Bas, Guido van Rossum invente le langage de programmation Python. C’est un fan de la série télévisée Monty Python’s Flying Circus, donc pour rendre un hommage à la série il donne le nom Python aux langues. Ce n’est qu’en 1991 que la première version de ce langage a été publiée.

La version 3 de Python est la plus récente, plus spécifiquement la version 3.10.0. C’est la Python Software Foundation qui se charge de développer Python et de faire vivre la communauté de développeurs et utilisateurs.

Python a d’énorme caractéristique intéressante :

  • Il est multiplateforme : fonctionne sur des nombreux systèmes d’exploitation ;
  • Il est gratuit ;
  • C’est un langage interprété : le script python est directement exécuté, il n’a pas besoin d’être compilé avant d’être exécuté ;
  • C’est un langage orienté objet : on peut créer des programmes qui imite le comportement du monde réel ;
  • Enfin, il est utilisé en bio-informatique et plus couramment en analyse de données.

Ces caractéristiques faisaient de ce langage un des langages les plus prisés des développeurs, que ce soit dans le domaine de la Data Science ou de la programmation web.

Qu’est-ce que Anaconda ?

Anaconda est un outil en distribution libre et open source destiné à la programmation Python et R. Il est véritablement utilisé en science de données, machine learning et l’intelligence artificielle car il contient plusieurs packages nécessaires dans ce domaine notamment Python, Numpy, Panda, Jupyter, etc. Et comme le langage Python, il est multiplateforme.

Ce logiciel est primordial et incontournable pour tous les développeurs dans le domaine de la data science. Il permet de collecter et transformer des données à grande échelle grâce aux outils qu’il propose.

Installation de Anaconda pour Python

Passons sans plus tarder à l’installation de Anaconda pour Python. Pour ce faire, il faut juste suivre les différentes étapes suivantes :

1. Téléchargez  Anaconda sur le site officiel de ce dernier. Faites attention à ce que la version que vous prenez soit compatible avec votre système d’exploitation.

Anaconda site web

2. Une fois le téléchargement terminé, lancez le programme puis cliquer sur next :

installation anaconda étape 1

3. Acceptez les conditions d’utilisation après avoir lu :

installation anaconda étape 2

4. Cochez la case recommandée “just me( recommended)” et cliquez sur Next

installation anaconda étape 3

5. Ensuite, cliquez sur Next

installation anaconda étape 4

6.  Cochez la deuxième case puis Install

installation anaconda étape 5

7. Puis, Cliquez sur Next

installation anaconda étape 6

8.                 Pour finir, cliquez sur Finish

installation anaconda étape 7

Voilà, vous avez maintenant Anaconda installé sur votre machine. Découvrons ce qu’il contient, les outils que vous pourriez utiliser ainsi que les paramétrages nécessaires.

Anaconda Prompt, la console de commande

Anaconda a pour console par défaut “Anaconda Prompt” dans lequel on peut taper directement les commandes.

Grâce à cette console il est facile de lancer les différentes applications d’anaconda ou d’installer des librairies.

Pour l’ouvrir il faut juste taper Anaconda Prompt dans la barre de recherche.

Anaconda prompt python

Comme exemple, essayons de lancer l’éditeur de code Python Jupiter Notebook. Pour cela, tapons la commande :

jupiter notebook
cmd installation jupyter notebook

Si on a besoin d’installer un module, prenons, par exemple, Numpy, on tape la commande suivante :

Conda install numpy

Cette console par défaut est très utile pour l’utilisation d’Anaconda. Nous allons évoquer un peu plus les avantages d’Anaconda Prompt dans les sections suivantes.

Conda, le package manager

Conda est un système de gestion open source qui permet de gérer tous les packages ainsi que leurs installations. Grâce à Conda, on peut séparer nos programmes en créant un environnement pour chacun. Pour vérifier si Conda est opérationnel sur votre système, il faut taper : 

-- conda version 
cmd conda version

Et si une mise à jour de la version de Conda est nécessaire, il suffit de taper la commande suivante :

Conda update conda
cmd update conda

Tout est prêt pour la mise à jour de Conda. Il suffit maintenant de taper pour confirmer.

conda confirm version

Vérifions la nouvelle version de conda avec la commande ci-dessous :

On remarque sur cette console que l’on est passé de la version 4.10.1 à la version 4.10.3.

L’interface graphique de Anaconda Navigator

Anaconda Navigator est une interface incluse dans Anaconda. Grâce à cette interface, on peut facilement lancer des applications et gérer les différents packages et environnement. Il faut taper dans la barre de recherche “Anaconda Navigator” pour lancer cette interface.

Anaconda Navigator interface

Avec Anaconda Navigator, on travaille plus facilement, car on n’a pas besoin de connaître toutes les lignes de commande de Conda. Ce qui est un gain de temps et de performance non négligeable, surtout si l’on travaille avec une quantité importante de données.

Anaconda Navigator : les applications

Il existe plusieurs applications dans Anaconda Navigator tel que :

  • JupyterLab
  • JupyterNotebook
  • Spyder
  • Pycharm
  • VSCode
  • Orane 3 APP
  • RStudio
  • Anaconda powerShell

Nous allons beaucoup plus voir celles qui permettent de coder en Python. D’ailleurs, si vous souhaitez apprendre ce langage de programmation ou que vous voulez vous initier à la programmation informatique, nous avons publié plusieurs tutoriels sur ces sujets.

Jupyter Notebook

Jupiter Notebook est une plateforme Web open source qui facilite la création et le partage des documents qui contiennent du code. Jupiter Notebook permet de gérer des fichiers, des modules et aussi la présentation du travail. Il y a deux manières de lancer Jupiter Notebook.

  • Avec la console Anaconda prompt : sur la barre de recherche, taper “Anaconda prompt” puis taper « jupiter notebook” :
cmd jupyter notebook
  • Méthode directe : taper directement dans la barre de recherche : “Anacondanavigator”. Une fois que l’interface est affichée, cliquez sur launch.
jupyter notebook anaconda navigator

Après avoir cliquer sur Launch, on observe ceci :

jupyter notebook dossiers

Il faut savoir qu’il est judicieux de créer un dossier sur votre Bureau pour pouvoir enregistrer tous vos projets et organiser vos fichiers. Pour cela, cliquez sur Desktop puis chercher le dossier que vous avez créé. Ici, nous avons décidé de nommer le dossier en question Python :

jupyter notebook enregistrement dossier

Création d’un premier Notebook sur Anaconda pour Python

Un notebook est un fichier dans lequel on écrit les différentes lignes de code. Afin de pouvoir effectuer cela, il suffit de suivre les étapes qui suit :

  • Cliquez sur New et ensuite Python 3 :
création jupyter notebook
  • Il faut ensuite renommer le fichier en cliquant sur File puis sur rename :
rename jupyter notebook
  • En ce qui concerne le nom du nouveau fichier, nous allons choisir, par exemple, Projet1 :
rename notebook

Spyder

Spyder est un environnement open-source et multiplateforme pour le développement Python. Il est compatible avec plusieurs bibliothèques tel que Numpy, Matplotlib et SciPy. Cet environnement donne un ensemble de fonctionnalités avancées d’édition de profilage d’un outil de développement et ainsi d’analyse.

Il existe trois manières de lancer Spyder à savoir :

  • La méthode directe en tapant Spyder dans la barre de recherche de navigation Windows ;
  • Passer par la console de commande Anaconda prompt en tapant spyder ; 
  • Ouvrir Anaconda Navigator et cliquer sur Spyder pour le lancer.

Si l’on se penche sur l’interface de Spyder, il faut retenir que trois fenêtres sont essentielles pour celle-ci :

  • L’éditeur pour rédiger des programmes ;
  • La console pour tester les commandes ;
  • Explorateur d’objets, de variables et de fichiers.

L’éditeur de programme

Utiliser cet outil apporte des avantages tels que :

  • Il impose les indentations quand c’est nécessaire.
  • La couleur du texte varie selon le type de code, que ce soit des variables ou des fonctions ;
  • De l’aide s’affiche pour l’utilisation des fonctions en Python.

On observe ci-dessous le code d’un programme qui vérifie la parité de nombre que l’on va copier sur l’éditeur :

nombre=int (input (‘Donner un nombre de votre choix’))
nombre=2
if nombre%2==0 :
  print ("le nombre est pair")
else
  print ("le nombre est impair)
spyder editeur programme

Comme on peut le constater, l’éditeur met une croix rouge à la ligne 12, car il manque deux points “ : ”. Comme d’autres éditeurs, Spyder facilite la tâche quand on rencontre des petites erreurs syntaxiques de la sorte.

Il vous suffit donc de corriger cette erreur, puis de relancer le programme :

spyder correction programme

La console IPython

Cette console indique la version de Python utilisée au démarrage de Spyder. Des commandes peuvent être directement exécutées sur cette console :

IPython console

Il faut savoir que cette commande n’est pas créée pour la programmation Python, mais juste pour tester des petits bouts de commande.

L’explorateur

L’explorateur dans Spyder est essentiellement composé de 3 onglets principaux que nous allons voir tout de suite.

Explorateur de variable

Dans celui-ci, on retrouve toutes les variables définies dans le programme. Il nous donne aussi les types de valeur de chacune des variables. 

Dans l’extrait de code que nous avons vu un peu plus haut, il y avait une seule variable, comme ceci :

Donc, on remarque ici que la variable est de type entier et sa valeur est 2.

En ajoutant d’autres variables (décimal et cara) à notre programme précédent, on obtient ce qui suit :

code ajout variable spyder
explorateur variables spyder

On voit bien que nos trois variables sont là avec leur type et valeur.

Explorateur d’objet

Cet explorateur donne des informations sur les fonctions. Pour connaître la manière d’utiliser une fonction spécifique, il suffit de taper le nom de la fonction. Prenons comme exemple la fonction print :

explorateur objet spyder
Explorateur de fichier

Dans cet explorateur, on peut voir l’arborescence du disque et explorer les différents fichiers enregistrés :

explorateur fichier spyder

Jupiter lab

Jupyter Lab est une interface web dernière génération qui offre des fonctionnalités avancées. C’est une combinaison de l’utilisation des Notebooks avec d’autres outils en même temps. C’est une amélioration de l’environnement Jupiter qui, auparavant, était limitée à la création des notebooks. 

Pour le lancer, on a deux méthodes :

  • Passer par anaconda prompt ;
  • Ou par Anaconda Navigator.

Voici l’interface graphique de Jupiter Lab :

jupiter lab interface

Parfois, pour écrire un programme, on a besoin de consulter un support de cours et écrire en même temps le code sur une console. Avec Jupiter lab, plus besoin d’avoir plusieurs fenêtres ouvertes.

jupiter lab doc et code

Nous avons vu jusqu’ici différentes sortes d’applications qui existent, alors à vous maintenant de choisir laquelle utiliser pour vos développements de vos projets avec Anaconda pour Python.

Les environnements de Anaconda Navigator

Anaconda Navigator joue un grand rôle au niveau de la gestion des différents environnements. Plusieurs traitements sont possibles :

  • La recherche d’ un environnement ;
  • La création  d’un nouvel environnement ;
  • L’importation d’un environnement ;
  • La mise à jour d’un environnement ;
  • La suppression d’un environnement.

Voici la liste et le nombre des environnement installés présentement sur la machine :

python anaconda navigator interface

Chercher un environnement

Pour chercher un environnement il suffit de taper son nom dans la barre de recherche :

anaconda navigator recherche env

Créer un nouvel environnement

Pour effectuer cette tâche, voici les étapes à suivre :

  • Cliquez sur le bouton Create en bas de la page ;
  • Choisissez le nom de l’environnement ;
  • Choisissez Python, R, ou les deux ;
  • Terminez en cliquant sur Create.
anaconda navigator création env

Importer un environnement

 Pour importer un environnement, il faut :

  • Cliquer sur le bouton import en bas de la fenêtre ;
  • Spécifier le nom du nouvel environnement ;
  • Cliquer sur l’icône dossier pour parcourir le fichier ;
  • Cliquer sur le bouton import.
anaconda navigator import env

Mettre à jour un environnement

En ce qui concerne la mise à jour d’un environnement, vous devez juste cliquer sur l’environnement que vous voulez mettre à jour et ensuite cliquer sur update index :

anaconda navogator maj env

Supprimer un environnement

Afin d’effacer un environnement, vous devez choisir l’environnement que vous souhaitez supprimer et cliquer sur remove.

anaconda navigator suppression env

Documentation Python dans Anaconda Navigator

Anaconda Navigator possède une documentation Python plus large, des différentes librairies et applications. Cette documentation est toujours utile lorsque l’on développe une solution. Son existence au sein même d’Anaconda Navigator est donc très pratique.

python anaconda navigator doc

Communauté d’Anaconda Navigator

La force d’Anaconda pour Python réside également dans le fait que l’on peut participer à des conférences ou rejoindre une large communauté de milliers de développeurs. On peut par exemple rejoindre la communauté de DATASCIENCESALON ou encore d’autres communautés toutes aussi intéressantes les unes que les autres.

anaconda navigator communauté

Anaconda Navigator pour la science des données

anaconda navigator data science

Il y a un concept qui dit « si vous me donnez six heures pour abattre un arbre, je passerai les quatre premières heures à affûter la hache ». Par analogie, la science des données est comme l’arbre et anaconda est la hache. 

Oui, si vous débutez dans la science des données, alors vous devez commencer par vous familiariser avec Anaconda.

Science de données : Pourquoi Anaconda pour Python ?

Anaconda est spécialement axé sur la science des données. Il se charge de la gestion des fonctionnalités des paquets qui peuvent aider un scientifique de donnée à disposer d’un espace de travail ou il peut tout faire facilement. 

Mais pourquoi est-il le plus utilisé par rapport à d’autres environnements virtuels ? En voici les raisons :

  • On n’a pas besoin d’un répertoire : avec anaconda, on n’a pas besoin de préciser l’emplacement ou l’on doit configurer l’environnement contrairement à d’autres comme virtualenv. Alors, cela aide à activer l’environnement virtuel dans n’importe quelle position de votre système ;
  • On a la possibilité de choisir la version de Python qui existe sur le serveur: que la version soit installée sur votre système ou non, Conda d’Anaconda peut créer l’environnement en trouvant la version exacte de Python sur le serveur

Et voici d’autres raisons supplémentaires pour laquelle un Data Scientist, les Data Analyst ainsi que tous ceux qui oeuvrent dans le Big Data doit choisir Anaconda pour ces projets :

  • Simple à installer ;
  • Plus de 1000 packages de data science sont disponibles ;
  • Anaconda installe la dernière version Python 2 ou 3 dans un environnement isolé et activé afin que toute version Python installée ne pose aucun problème pour vos projets ;
  • C’est sympa pour les débutants ! Oui, on n’a pas besoin d’une grande connaissance en programmation. Juste le minimum est déjà bon.

Anaconda ou Python Virtualenv : lequel est le meilleur pour la science des données ?

C’est vraiment facile de créer des modèles d’apprentissage en profondeur ou d’apprentissage automatique dans des systèmes locaux. Mais il devient très difficile de reproduire les mêmes modèles dans le cloud. 

Les environnements anaconda et python virtualenv sont les meilleurs pour la communauté de science de données. 

Le virtualenv Python

Pour créer cet environnement, on peut utiliser le package python virtualenv que l’on installe à l’aide pip. Grâce à cet environnement, on peut installer et utiliser les packages pythons d’apprentissage automatique populaire.

pip install virtualenv

Création d’environnement avec virtualenv

À l’aide de la commande suivante, on peut créer l’environnement :

virtualenv name_of_the_folder

Le name_of_the_folder est à remplacer par le nom de votre projet.

Activation et désactivation de l’environnement virtualenv

Une fois l’environnement créé, il faut alors l’activer pour tirer profit de tout ce qu’il peut mettre à notre disposition. Grâce au commande suivante, on peut activer l’environnement :

Sous windows : 

name_of_the_folder\Scripts\activate

Sous Mac ou Ubuntu :

 source name_of_the_folder\bin\activate

Ce qu’il faut faire dans un premier temps est de se positionner dans le dossier où est créé l’environnement avant d’exécuter la commande.

Python virtualenv et Anaconda : qui est le meilleur ?

Il n’y a pas une réponse nette à cette question car tout dépend de ce dont le projet nécessite.

Imaginons que nous créons un projet de science de données de base où nous n’avons besoin que de quelques packages de science de données. Ensuite, nous utilisons anaconda pour ce projet.

Mais le problème avec anaconda est qu’à son installation, il propose tous les packages de science de données. Cela prend de l’espace dans notre système, car on ne les utilise pas tous.

Si pour notre projet, on veut à la fois un pipeline de données et d’apprentissage automatique, il est recommandé de configurer l’environnement python virtualenv.

Pour la sélection de l’environnement pour vos projets, référez-vous à l’image suivante. Elle résume la comparaison de l’environnement virtualenv et anaconda :

python virtualenv vs anaconda python

Pour résumer, on a appris comment créer des environnement virtuels grâce à anaconda et virtualenv. 

Maintenant, si votre projet nécessite en même temps le frontal (application web) et la modélisation de science de données, il est conseillé d’utiliser virtualenv. Et si le projet n’a que besoin des packages de science de données, utilisez anaconda.

Il y a aussi le paquet pyenv qui prend en compte l’environnement virtualenv et anaconda. Pyenv est un wrapper qui se trouve au-dessus de ces deux environnements. Ce paquet offre plus de flexibilité pour la création des environnements.

Comment Anaconda facilite la programmation en Python ?

L’application Jupiter Notebook de Anaconda facilite les développeurs lors du partage de code et de l’exécution du programme dans la même interface utilisateur. Jupiter Notebook associe des lignes de code, de graphiques qui s’exécutent dans un navigateur web.

Qu’on soit développeur ou data scientist, on finit toujours par montrer ce que l’on a eu à faire comme travail. Généralement, les programmes informatiques se partagent sous forme de code brut ou comme un exécutable  compilé.

Imaginez-vous un instant que vous ayez la possibilité de voir, modifier, et d’exécuter le code dans la même interface utilisateur et de voir instantanément le résultat ? Et bien, c’est ce que propose Jupiter Notebook. Cette application est créée pour faciliter la présentation de travail de programmation d’un développeur.

Les avantages de Jupyter Notebook

Jupiter Notebook présente plusieurs avantages tels que :

  • La visualisation des données : Les Données sont présentées sous la forme d’un graphique. Jupyter permet de créer ces visuels, de les partager et d’autoriser les modifications interactives sur le code partagé et les jeux de données ;
  • Le partage de code : Certains services cloud tels que GitHub et Pastebin permettent le partage de code, mais ils ne sont pas interactifs. Ce qui est le cas de Jupyter Notebook ;
  • La documentation de code : Il est possible de mettre des longues explications de code dans un cahier Jupyter ;
  • Les interactions en direct avec le code : Le code est dynamique et peut être modifié à tout moment de façon incrémentale en direct avec le feedback fourni par le navigateur web.

Ci-dessous on voit que, dans la même interface, on a un cahier Jupiter associant du texte qui donne une explication du code ainsi que son graphique.

import matplotlib.pyplot as plt
import numpy as np
 
x = np.array([5,7,8,7,2,17,2,9,4,11,12,9,6])
y = np.array([99,86,87,88,111,86,103,87,94,78,77,85,86])
 
plt.scatter(x, y)
plt.show()
jupyter notebook interface avantage

Voilà, nous arrivons à la fin de ce tutoriel sur lequel vous avez appris à installer et paramétrer Anaconda pour Python. Vous avez maintenant toutes les cartes en main pour appréhender cet outil qui vous sera sans doute très utile dans votre carrière dans le Big Data. Si vous souhaitez apprendre davantage sur ce domaine, nous vous invitons de télécharger cette formation sur la programmation Scala pour le big data.


Juvénal JVC

Juvénal est spécialisé depuis 2011 dans la valorisation à large échelle des données. Son but est d'aider les professionnels de la data à développer les compétences indispensables pour réussir dans le Big Data. Il travaille actuellement comme Lead Data Engineer auprès des grands comptes. Lorsqu'il n'est pas en voyage, Juvénal rédige des livres ou est en train de préparer la sortie d'un de  ses livres. Vous pouvez télécharger un extrait de son dernier livre en date ici : https://www.data-transitionnumerique.com/extrait-ecosystme-hadoop/

>