Liste der Python-Bibliotheken für Datenwissenschaftler und Dateningenieure

Einführung einer Python-Bibliothek, die für Datenanalyse, Datenverarbeitung, maschinelles Lernen und mehr nützlich ist.

Warum Python?

Für Statistik und maschinelles Lernen gibt es auch die Option R. Es ist eine ausgezeichnete Sprache zum Verarbeiten, Aggregieren und statistischen Verarbeiten von R-Daten und kann nur mit den Funktionen des Sprachstandards viel bewirken. Die Bibliothek für maschinelles Lernen ist ebenfalls umfangreich, und es besteht kein Zweifel daran, dass es sich um eine leistungsstarke Option handelt. Der Vorteil von Python gegenüber R ist der Reichtum des umgebenden Ökosystems. Das Python-Ökosystem geht über den Bereich der Datenwissenschaft hinaus. Mit NumPy und Pands verarbeitete Daten können mit Django auch in vollständigen Webanwendungen verwendet werden.

Installation von Bibliotheken

Die meisten der hier aufgeführten Bibliotheken können unter Anaconda in großen Mengen installiert werden.

Datenverarbeitung

NumPy NumPy ist eine Bibliothek zur effizienten numerischen Berechnung. Hier wird ein eindimensionales Array als Beispiel genommen, es ist jedoch auch ein mehrdimensionales Array verfügbar. Vektor- und Matrixberechnungen können mit hoher Geschwindigkeit durchgeführt werden.

In [1]: import numpy as np #NumPy importieren

In [2]: arr = np.asarray([n for n in range(10)]) #Vektor erstellen

In [3]: arr #Ausgabe
Out[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]: arr * 10 #Datenverarbeitung
Out[4]: array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

NumPy — NumPy

Pandas

Pandas ist eine Bibliothek, die NumPy erweitert und über Funktionen verfügt, die für die Vorverarbeitung des maschinellen Lernens unverzichtbar sind, z. B. das Lesen von Daten und den Umgang mit fehlenden Werten. Es gibt ein Objekt namens "DataFrame", mit dem Daten einfach verarbeitet und zusammengeführt werden können. In der Nähe von Rs data.frame.

In [1]: import pandas as pd #Pandas importieren

In [2]: df = pd.DataFrame({ #Erstellen eines Datenrahmens
   ...: 'A': [n for n in range(5)],
   ...: 'B': ['male', 'male', 'female', 'female', 'male'],
   ...: 'C': [0.3, 0.4, 1.2, 100.5, -20.0]
   ...: })

In [3]: df
Out[3]: 
   A       B      C
0  0    male    0.3
1  1    male    0.4
2  2  female    1.2
3  3  female  100.5
4  4    male  -20.0

In [4]: df.describe() #Ausgabe der Basisstatistik
Out[4]: 
              A           C
count  5.000000    5.000000
mean   2.000000   16.480000
std    1.581139   47.812101
min    0.000000  -20.000000
25%    1.000000    0.300000
50%    2.000000    0.400000
75%    3.000000    1.200000
max    4.000000  100.500000

In [5]: df[df['B'] == 'female'] #Rufen Sie eine Teilmenge auf
Out[5]: 
   A       B      C
2  2  female    1.2
3  3  female  100.5

Python Data Analysis Library — pandas: Python Data Analysis Library

Bericht, Visualisierung

jupyter

Jupyter Notebook ist eine Python-Ausführungsumgebung, die Codeinhalt und Ausgabeergebnisse aufzeichnet, sodass sie als Codierungsumgebung für die explorative Datenverarbeitung und statistische Verarbeitung verwendet werden kann. Es kann auch als Bericht oder Folie ausgegeben werden.

Project Jupyter | Home

matplotlib

matplotlib ist eine Grafikzeichnungsbibliothek. Es unterstützt verschiedene Diagramme wie Balkendiagramme, Streudiagramme und Histogramme.

Matplotlib: Python plotting — Matplotlib 2.0.2 documentation

plotly

plotly kann reichhaltigere und interaktivere Grafiken zeichnen als matplotlib. Das erstellte Diagramm kann auch mit plot.ly geteilt werden.

Python Graphing Library, Plotly

Messaging, Stream-Verarbeitung

Kafka-Python

Kafka-Python ist, wie der Name schon sagt, der Python-Client von Apache Kafka.

from kafka import KafkaConsumer
import json

consumer = KafkaConsumer('topic', bootstrap_servers='localhost:9092')

for msg in consumer:
    data = json.loads(msg.value.decode())
    print(data)

PySpark

Spark und Kafka sind für Big Data unverzichtbar geworden. Es gibt eine Bibliothek für maschinelles Lernen namens MLlib.

Python Programming Guide - Spark 0.9.0 Documentation

Maschinelles Lernen

scikit-learn

scikit-learn ist eine Bibliothek für maschinelles Lernen. Neben den trendigen neuronalen Netzen stehen weitere Algorithmen zur Verfügung. Darüber hinaus verfügt es über Funktionen wie die Unterteilung in Trainingsdaten und Verifizierungsdaten, die Kreuzverifizierung und die Rastersuche, die für die Durchführung des maschinellen Lernens erforderlich sind, und es ist eine Bibliothek, die den juckenden Ort erreichen kann. Wenn Sie die Bibliothek für maschinelles Lernen berühren möchten, beginnen Sie von nun an.

scikit-learn: machine learning in Python — scikit-learn 0.18.2 documentation

TensorFlow

Sie kennen die Deep-Learning-Bibliothek.

TensorFlow

Keras

Keras ist ein Wrapper für TensorFlow, CNTK, Theano und mehr.

Keras Documentation

Empfohlene Bücher

O'Reilly Japan \ - Einführung in die Datenanalyse mit Python

Ein Buch des Autors von Pandas. Sie können lernen, wie Sie Pandas und Datenanalysemethoden verwenden. Es umfasst auch periphere Bibliotheken wie NumPy und Matplotlib.

O'Reilly Japan \ -Maschinenlernen beginnend mit Python

Ein Buch des Autors von scikit-learn. Sie lernen den Umgang mit Scikit-Learn und die für das maschinelle Lernen erforderliche Technik.

Springe aus Python heraus

Wenn Sie nicht nur Daten in Pandas optimieren oder Ihre Bibliothek für maschinelles Lernen optimieren möchten, müssen Sie aus dem Python-Ökosystem herausspringen. Die Welt der Daten ist tief und riesig, und Ingenieure müssen einen größeren Bereich abdecken, um Datenwissenschaftlern zu folgen. Wenn Sie eine verteilte Verarbeitungsinfrastruktur wie Hadoop, Spark, Apex und vollständig verwaltete DWH wie BigQuery und TreasureData unterdrücken, wird das Tätigkeitsfeld erweitert.