Liste des bibliothèques Python pour les data scientists et les data ingénieurs

Présentation d'une bibliothèque Python utile pour l'analyse des données, le traitement des données, l'apprentissage automatique, etc.

Pourquoi Python

Pour les statistiques et l'apprentissage automatique, il existe également l'option R. C'est un langage qui excelle dans le traitement, l'agrégation et le traitement statistique des données R, et peut faire beaucoup avec seulement les fonctions du langage standard. La bibliothèque d'apprentissage automatique est également étendue et il ne fait aucun doute que c'est une option puissante. L'avantage de Python par rapport à R est la richesse de l'écosystème environnant. L'écosystème Python va au-delà du domaine de la science des données. Les données traitées avec NumPy et Pands peuvent également être utilisées dans des applications Web à grande échelle utilisant Django.

Installation de bibliothèques

La plupart des bibliothèques répertoriées ici peuvent être installées en masse sur Anaconda.

Traitement de l'information

NumPy NumPy est une bibliothèque pour un calcul numérique efficace. Ici, un tableau unidimensionnel est pris comme exemple, mais un tableau multidimensionnel peut également être pris en charge. Les calculs vectoriels et matriciels peuvent être effectués à grande vitesse.

In [1]: import numpy as np #Importer NumPy

In [2]: arr = np.asarray([n for n in range(10)]) #Créer un vecteur

In [3]: arr #production
Out[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]: arr * 10 #Traitement de l'information
Out[4]: array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

NumPy — NumPy

Pandas

Pandas est une bibliothèque qui étend NumPy et possède des fonctions indispensables pour le prétraitement de l'apprentissage automatique, telles que la lecture de données et la gestion des valeurs manquantes. Il existe un objet appelé «DataFrame», qui facilite le traitement et la fusion des données. Près de data.frame de R.

In [1]: import pandas as pd #Importer des pandas

In [2]: df = pd.DataFrame({ #Créer un bloc de données
   ...: 'A': [n for n in range(5)],
   ...: 'B': ['male', 'male', 'female', 'female', 'male'],
   ...: 'C': [0.3, 0.4, 1.2, 100.5, -20.0]
   ...: })

In [3]: df
Out[3]: 
   A       B      C
0  0    male    0.3
1  1    male    0.4
2  2  female    1.2
3  3  female  100.5
4  4    male  -20.0

In [4]: df.describe() #Sortie des statistiques de base
Out[4]: 
              A           C
count  5.000000    5.000000
mean   2.000000   16.480000
std    1.581139   47.812101
min    0.000000  -20.000000
25%    1.000000    0.300000
50%    2.000000    0.400000
75%    3.000000    1.200000
max    4.000000  100.500000

In [5]: df[df['B'] == 'female'] #Appeler un sous-ensemble
Out[5]: 
   A       B      C
2  2  female    1.2
3  3  female  100.5

Python Data Analysis Library — pandas: Python Data Analysis Library

Rapport, visualisation

jupyter

Jupyter Notebook est un environnement d'exécution Python qui enregistre le contenu du code et les résultats de sortie, il peut donc être utilisé comme environnement de codage pour le traitement exploratoire des données et le traitement statistique. Il peut également être imprimé sous forme de rapport ou de diapositive.

Project Jupyter | Home

matplotlib

matplotlib est une bibliothèque de dessins graphiques. Il prend en charge divers graphiques tels que des graphiques à barres, des diagrammes de dispersion et des histogrammes.

Matplotlib: Python plotting — Matplotlib 2.0.2 documentation

plotly

plotly peut dessiner des graphiques plus riches et plus interactifs que matplotlib. Le graphique créé peut également être partagé avec plot.ly.

Python Graphing Library, Plotly

Messagerie, traitement de flux

Kafka-Python

Kafka-Python, comme son nom l'indique, est le client Python d'Apache Kafka.

from kafka import KafkaConsumer
import json

consumer = KafkaConsumer('topic', bootstrap_servers='localhost:9092')

for msg in consumer:
    data = json.loads(msg.value.decode())
    print(data)

PySpark

Spark et Kafka sont devenus indispensables pour le Big Data. Il existe une bibliothèque d'apprentissage automatique appelée MLlib.

Python Programming Guide - Spark 0.9.0 Documentation

Apprentissage automatique

scikit-learn

scikit-learn est une bibliothèque d'apprentissage automatique. En plus des réseaux de neurones à la mode, d'autres algorithmes sont disponibles. En outre, il dispose de fonctions telles que la division en données d'entraînement et données de vérification, la vérification croisée et la recherche de grille, qui sont nécessaires pour effectuer un apprentissage automatique, et c'est une bibliothèque qui peut atteindre l'endroit qui démange. Si vous souhaitez toucher la bibliothèque d'apprentissage automatique, commencez à partir de maintenant.

scikit-learn: machine learning in Python — scikit-learn 0.18.2 documentation

TensorFlow

Vous connaissez la bibliothèque d'apprentissage en profondeur.

TensorFlow

Keras

Keras est un wrapper pour TensorFlow, CNTK, Theano et plus.

Keras Documentation

Livres recommandés

O'Reilly Japan \ -Introduction à l'analyse de données avec Python

Un livre de l'auteur de Pandas. Vous pouvez apprendre à utiliser les pandas et les méthodes d'analyse des données. Il couvre également les bibliothèques périphériques telles que NumPy et matplotlib.

O'Reilly Japan \ -Apprentissage automatique à partir de Python

Un livre de l'auteur de scikit-learn. Vous pouvez apprendre à utiliser scikit-learn et l'ingénierie requise pour l'apprentissage automatique.

Sortez de Python

Si vous n'êtes pas satisfait de simplement peaufiner les données dans Pandas ou de régler votre bibliothèque d'apprentissage automatique, vous devrez sortir de l'écosystème Python. Le monde des données est profond et vaste, et les ingénieurs doivent couvrir un domaine plus large pour suivre les data scientists. Plus précisément, si vous supprimez les infrastructures de traitement distribuées telles que Hadoop, Spark, Apex et DWH entièrement géré telles que BigQuery et TreasureData, le champ d'activité s'étendra.