Einführung einer Python-Bibliothek, die für Datenanalyse, Datenverarbeitung, maschinelles Lernen und mehr nützlich ist.
Für Statistik und maschinelles Lernen gibt es auch die Option R. Es ist eine ausgezeichnete Sprache zum Verarbeiten, Aggregieren und statistischen Verarbeiten von R-Daten und kann nur mit den Funktionen des Sprachstandards viel bewirken. Die Bibliothek für maschinelles Lernen ist ebenfalls umfangreich, und es besteht kein Zweifel daran, dass es sich um eine leistungsstarke Option handelt. Der Vorteil von Python gegenüber R ist der Reichtum des umgebenden Ökosystems. Das Python-Ökosystem geht über den Bereich der Datenwissenschaft hinaus. Mit NumPy und Pands verarbeitete Daten können mit Django auch in vollständigen Webanwendungen verwendet werden.
Die meisten der hier aufgeführten Bibliotheken können unter Anaconda in großen Mengen installiert werden.
NumPy NumPy ist eine Bibliothek zur effizienten numerischen Berechnung. Hier wird ein eindimensionales Array als Beispiel genommen, es ist jedoch auch ein mehrdimensionales Array verfügbar. Vektor- und Matrixberechnungen können mit hoher Geschwindigkeit durchgeführt werden.
In [1]: import numpy as np #NumPy importieren
In [2]: arr = np.asarray([n for n in range(10)]) #Vektor erstellen
In [3]: arr #Ausgabe
Out[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [4]: arr * 10 #Datenverarbeitung
Out[4]: array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
Pandas
Pandas ist eine Bibliothek, die NumPy erweitert und über Funktionen verfügt, die für die Vorverarbeitung des maschinellen Lernens unverzichtbar sind, z. B. das Lesen von Daten und den Umgang mit fehlenden Werten. Es gibt ein Objekt namens "DataFrame", mit dem Daten einfach verarbeitet und zusammengeführt werden können. In der Nähe von Rs data.frame
.
In [1]: import pandas as pd #Pandas importieren
In [2]: df = pd.DataFrame({ #Erstellen eines Datenrahmens
...: 'A': [n for n in range(5)],
...: 'B': ['male', 'male', 'female', 'female', 'male'],
...: 'C': [0.3, 0.4, 1.2, 100.5, -20.0]
...: })
In [3]: df
Out[3]:
A B C
0 0 male 0.3
1 1 male 0.4
2 2 female 1.2
3 3 female 100.5
4 4 male -20.0
In [4]: df.describe() #Ausgabe der Basisstatistik
Out[4]:
A C
count 5.000000 5.000000
mean 2.000000 16.480000
std 1.581139 47.812101
min 0.000000 -20.000000
25% 1.000000 0.300000
50% 2.000000 0.400000
75% 3.000000 1.200000
max 4.000000 100.500000
In [5]: df[df['B'] == 'female'] #Rufen Sie eine Teilmenge auf
Out[5]:
A B C
2 2 female 1.2
3 3 female 100.5
Python Data Analysis Library — pandas: Python Data Analysis Library
jupyter
Jupyter Notebook ist eine Python-Ausführungsumgebung, die Codeinhalt und Ausgabeergebnisse aufzeichnet, sodass sie als Codierungsumgebung für die explorative Datenverarbeitung und statistische Verarbeitung verwendet werden kann. Es kann auch als Bericht oder Folie ausgegeben werden.
matplotlib
matplotlib ist eine Grafikzeichnungsbibliothek. Es unterstützt verschiedene Diagramme wie Balkendiagramme, Streudiagramme und Histogramme.
Matplotlib: Python plotting — Matplotlib 2.0.2 documentation
plotly
plotly kann reichhaltigere und interaktivere Grafiken zeichnen als matplotlib. Das erstellte Diagramm kann auch mit plot.ly geteilt werden.
Python Graphing Library, Plotly
Kafka-Python
Kafka-Python ist, wie der Name schon sagt, der Python-Client von Apache Kafka.
from kafka import KafkaConsumer
import json
consumer = KafkaConsumer('topic', bootstrap_servers='localhost:9092')
for msg in consumer:
data = json.loads(msg.value.decode())
print(data)
PySpark
Spark und Kafka sind für Big Data unverzichtbar geworden. Es gibt eine Bibliothek für maschinelles Lernen namens MLlib.
Python Programming Guide - Spark 0.9.0 Documentation
scikit-learn
scikit-learn ist eine Bibliothek für maschinelles Lernen. Neben den trendigen neuronalen Netzen stehen weitere Algorithmen zur Verfügung. Darüber hinaus verfügt es über Funktionen wie die Unterteilung in Trainingsdaten und Verifizierungsdaten, die Kreuzverifizierung und die Rastersuche, die für die Durchführung des maschinellen Lernens erforderlich sind, und es ist eine Bibliothek, die den juckenden Ort erreichen kann. Wenn Sie die Bibliothek für maschinelles Lernen berühren möchten, beginnen Sie von nun an.
scikit-learn: machine learning in Python — scikit-learn 0.18.2 documentation
TensorFlow
Sie kennen die Deep-Learning-Bibliothek.
Keras
Keras ist ein Wrapper für TensorFlow, CNTK, Theano und mehr.
Ein Buch des Autors von Pandas. Sie können lernen, wie Sie Pandas und Datenanalysemethoden verwenden. Es umfasst auch periphere Bibliotheken wie NumPy und Matplotlib.
Ein Buch des Autors von scikit-learn. Sie lernen den Umgang mit Scikit-Learn und die für das maschinelle Lernen erforderliche Technik.
Wenn Sie nicht nur Daten in Pandas optimieren oder Ihre Bibliothek für maschinelles Lernen optimieren möchten, müssen Sie aus dem Python-Ökosystem herausspringen. Die Welt der Daten ist tief und riesig, und Ingenieure müssen einen größeren Bereich abdecken, um Datenwissenschaftlern zu folgen. Wenn Sie eine verteilte Verarbeitungsinfrastruktur wie Hadoop, Spark, Apex und vollständig verwaltete DWH wie BigQuery und TreasureData unterdrücken, wird das Tätigkeitsfeld erweitert.
Recommended Posts