Liste des bibliothèques Python pour les data scientists et les data ingénieurs

Présentation d'une bibliothèque Python utile pour l'analyse des données, le traitement des données, l'apprentissage automatique, etc.

Pourquoi Python

Pour les statistiques et l'apprentissage automatique, il existe également l'option R. C'est un langage qui excelle dans le traitement, l'agrégation et le traitement statistique des données R, et peut faire beaucoup avec seulement les fonctions du langage standard. La bibliothèque d'apprentissage automatique est également étendue et il ne fait aucun doute que c'est une option puissante. L'avantage de Python par rapport à R est la richesse de l'écosystème environnant. L'écosystème Python va au-delà du domaine de la science des données. Les données traitées avec NumPy et Pands peuvent également être utilisées dans des applications Web à grande échelle utilisant Django.

Installation de bibliothèques

La plupart des bibliothèques répertoriées ici peuvent être installées en masse sur Anaconda.

Traitement de l'information

NumPy NumPy est une bibliothèque pour un calcul numérique efficace. Ici, un tableau unidimensionnel est pris comme exemple, mais un tableau multidimensionnel peut également être pris en charge. Les calculs vectoriels et matriciels peuvent être effectués à grande vitesse.

In [1]: import numpy as np #Importer NumPy

In [2]: arr = np.asarray([n for n in range(10)]) #Créer un vecteur

In [3]: arr #production
Out[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]: arr * 10 #Traitement de l'information
Out[4]: array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

NumPy — NumPy

Pandas

Pandas est une bibliothèque qui étend NumPy et possède des fonctions indispensables pour le prétraitement de l'apprentissage automatique, telles que la lecture de données et la gestion des valeurs manquantes. Il existe un objet appelé «DataFrame», qui facilite le traitement et la fusion des données. Près de data.frame de R.

In [1]: import pandas as pd #Importer des pandas

In [2]: df = pd.DataFrame({ #Créer un bloc de données
   ...: 'A': [n for n in range(5)],
   ...: 'B': ['male', 'male', 'female', 'female', 'male'],
   ...: 'C': [0.3, 0.4, 1.2, 100.5, -20.0]
   ...: })

In [3]: df
Out[3]: 
   A       B      C
0  0    male    0.3
1  1    male    0.4
2  2  female    1.2
3  3  female  100.5
4  4    male  -20.0

In [4]: df.describe() #Sortie des statistiques de base
Out[4]: 
              A           C
count  5.000000    5.000000
mean   2.000000   16.480000
std    1.581139   47.812101
min    0.000000  -20.000000
25%    1.000000    0.300000
50%    2.000000    0.400000
75%    3.000000    1.200000
max    4.000000  100.500000

In [5]: df[df['B'] == 'female'] #Appeler un sous-ensemble
Out[5]: 
   A       B      C
2  2  female    1.2
3  3  female  100.5

Python Data Analysis Library — pandas: Python Data Analysis Library

Rapport, visualisation

jupyter

Jupyter Notebook est un environnement d'exécution Python qui enregistre le contenu du code et les résultats de sortie, il peut donc être utilisé comme environnement de codage pour le traitement exploratoire des données et le traitement statistique. Il peut également être imprimé sous forme de rapport ou de diapositive.

Project Jupyter | Home

matplotlib

matplotlib est une bibliothèque de dessins graphiques. Il prend en charge divers graphiques tels que des graphiques à barres, des diagrammes de dispersion et des histogrammes.

Matplotlib: Python plotting — Matplotlib 2.0.2 documentation

plotly

plotly peut dessiner des graphiques plus riches et plus interactifs que matplotlib. Le graphique créé peut également être partagé avec plot.ly.

Plot 9

Python Graphing Library, Plotly

Messagerie, traitement de flux

Kafka-Python

Kafka-Python, comme son nom l'indique, est le client Python d'Apache Kafka.

from kafka import KafkaConsumer
import json

consumer = KafkaConsumer('topic', bootstrap_servers='localhost:9092')

for msg in consumer:
    data = json.loads(msg.value.decode())
    print(data)

PySpark

Spark et Kafka sont devenus indispensables pour le Big Data. Il existe une bibliothèque d'apprentissage automatique appelée MLlib.

Python Programming Guide - Spark 0.9.0 Documentation

Apprentissage automatique

scikit-learn

scikit-learn est une bibliothèque d'apprentissage automatique. En plus des réseaux de neurones à la mode, d'autres algorithmes sont disponibles. En outre, il dispose de fonctions telles que la division en données d'entraînement et données de vérification, la vérification croisée et la recherche de grille, qui sont nécessaires pour effectuer un apprentissage automatique, et c'est une bibliothèque qui peut atteindre l'endroit qui démange. Si vous souhaitez toucher la bibliothèque d'apprentissage automatique, commencez à partir de maintenant.

scikit-learn: machine learning in Python — scikit-learn 0.18.2 documentation

TensorFlow

Vous connaissez la bibliothèque d'apprentissage en profondeur.

TensorFlow

Keras

Keras est un wrapper pour TensorFlow, CNTK, Theano et plus.

Keras Documentation

Livres recommandés

O'Reilly Japan \ -Introduction à l'analyse de données avec Python

Un livre de l'auteur de Pandas. Vous pouvez apprendre à utiliser les pandas et les méthodes d'analyse des données. Il couvre également les bibliothèques périphériques telles que NumPy et matplotlib.

O'Reilly Japan \ -Apprentissage automatique à partir de Python

Un livre de l'auteur de scikit-learn. Vous pouvez apprendre à utiliser scikit-learn et l'ingénierie requise pour l'apprentissage automatique.

Sortez de Python

Si vous n'êtes pas satisfait de simplement peaufiner les données dans Pandas ou de régler votre bibliothèque d'apprentissage automatique, vous devrez sortir de l'écosystème Python. Le monde des données est profond et vaste, et les ingénieurs doivent couvrir un domaine plus large pour suivre les data scientists. Plus précisément, si vous supprimez les infrastructures de traitement distribuées telles que Hadoop, Spark, Apex et DWH entièrement géré telles que BigQuery et TreasureData, le champ d'activité s'étendra.

Recommended Posts

Liste des bibliothèques Python pour les data scientists et les data ingénieurs
[Introduction to Data Scientists] Bases de Python ♬ Fonctions et classes
6 bibliothèques Python pour un développement et un débogage plus rapides
Structure de données Python et implémentation interne ~ Liste ~
[Introduction to Data Scientists] Bases de Python ♬ Branchements conditionnels et boucles
[Introduction au Data Scientist] Bases de Python ♬
[Introduction aux Data Scientists] Bases de Python ♬ Fonctions et fonctions anonymes, etc.
J'ai mesuré la vitesse de la notation d'inclusion de liste, pendant et pendant avec python2.7.
Liste de code Python à déplacer et à mémoriser
Installer Python et les bibliothèques pour Python sur MacOS Catalina
Liste des modules python
Bibliothèques de visualisation de données Python
[Python] Créer une liste de date et d'heure (type datetime) pour une certaine période
Note d'apprentissage Python de Mayungo: liste d'histoires et de liens
Traitement pleine largeur et demi-largeur des données CSV en Python
Vitesse de lecture Python netCDF4 et imbrication d'instructions for
Liste d'exemples de sites de distribution de programmes pour les livres Python
Une comparaison rapide des bibliothèques de test Python et node.js
Liste du code Python utilisé dans l'analyse de Big Data
Python: obtenir une liste de méthodes pour un objet
Méthodes de traitement des données pour les ingénieurs mécaniciens et les ingénieurs non informaticiens (Introduction 2)
Méthodes de traitement des données pour les ingénieurs mécaniciens et les ingénieurs non informaticiens (Introduction 1)
Quoi utiliser pour les piles et les files d'attente Python (comparaison de vitesse de chaque structure de données)
Liste Python, pour instruction, dictionnaire
Résumé des opérations de liste Python3
Python pour l'analyse des données Chapitre 4
[Python] Copie d'une liste multidimensionnelle
Liste Python et tapples et virgules
Python pour l'analyse des données Chapitre 2
Notation et générateur d'inclusion de liste Python
[Python / PyQ] 4. liste, pour instruction
#List Python pour les super débutants
Installation source et installation de Python
Python pour l'analyse des données Chapitre 3
Recommandation de Jupyter Notebook, un environnement de codage pour les data scientists
[Python] Chapitre 04-01 Différentes structures de données (création de liste et récupération d'éléments)
Liste des informations sur les arguments de méthode pour les classes et les modules en Python
[Note] Liste des commandes de base pour la construction d'un environnement python / conda
[Python] Créer une liste de dates et d'heures pour une période spécifiée
Application de Python: Nettoyage des données Partie 3: Utilisation d'OpenCV et prétraitement des données d'image
Débarrassez-vous des données sales avec Python et les expressions régulières
Astuces utiles liées à la liste et aux instructions en Python
Résumé de la prise en charge des opérations de hachage (dictionnaire) pour Ruby et Python
Python: créer un dictionnaire à partir d'une liste de clés et de valeurs
Liste des bibliothèques à installer lors de l'installation de Python à l'aide de Pyenv
Obtenez une liste des métriques CloudWatch et une table de correspondance des unités unitaires avec Python boto
J'ai étudié 4 bibliothèques de test d'analyse de données de certification d'ingénieur Python 3
Livres et sources recommandés de programmation d'analyse de données (Python ou R)
L'histoire de Python et l'histoire de NaN
Différence entre list () et [] en Python
Créer et tester un environnement CI pour plusieurs versions de Python
Installer SciPy et matplotlib (Python)
Acquisition automatique des données de niveau d'expression génique par python et R
Créer un environnement Python pour ceux qui veulent devenir des data scientists 2016
Cours Python pour la science des données - techniques utiles
[Python of Hikari-] Chapitre 05-03 Syntaxe de contrôle (pour les éléments d'extraction d'instructions de la liste-)
Ceci et cela des propriétés python
Pratique de l'analyse de données par Python et pandas (Tokyo COVID-19 data edition)
Hashing de données en R et Python
Modèle de prétraitement pour l'analyse des données (Python)