Liste der Python-Bibliotheken für Datenwissenschaftler und Dateningenieure

Einführung einer Python-Bibliothek, die für Datenanalyse, Datenverarbeitung, maschinelles Lernen und mehr nützlich ist.

Warum Python?

Für Statistik und maschinelles Lernen gibt es auch die Option R. Es ist eine ausgezeichnete Sprache zum Verarbeiten, Aggregieren und statistischen Verarbeiten von R-Daten und kann nur mit den Funktionen des Sprachstandards viel bewirken. Die Bibliothek für maschinelles Lernen ist ebenfalls umfangreich, und es besteht kein Zweifel daran, dass es sich um eine leistungsstarke Option handelt. Der Vorteil von Python gegenüber R ist der Reichtum des umgebenden Ökosystems. Das Python-Ökosystem geht über den Bereich der Datenwissenschaft hinaus. Mit NumPy und Pands verarbeitete Daten können mit Django auch in vollständigen Webanwendungen verwendet werden.

Installation von Bibliotheken

Die meisten der hier aufgeführten Bibliotheken können unter Anaconda in großen Mengen installiert werden.

Datenverarbeitung

NumPy NumPy ist eine Bibliothek zur effizienten numerischen Berechnung. Hier wird ein eindimensionales Array als Beispiel genommen, es ist jedoch auch ein mehrdimensionales Array verfügbar. Vektor- und Matrixberechnungen können mit hoher Geschwindigkeit durchgeführt werden.

In [1]: import numpy as np #NumPy importieren

In [2]: arr = np.asarray([n for n in range(10)]) #Vektor erstellen

In [3]: arr #Ausgabe
Out[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]: arr * 10 #Datenverarbeitung
Out[4]: array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

NumPy — NumPy

Pandas

Pandas ist eine Bibliothek, die NumPy erweitert und über Funktionen verfügt, die für die Vorverarbeitung des maschinellen Lernens unverzichtbar sind, z. B. das Lesen von Daten und den Umgang mit fehlenden Werten. Es gibt ein Objekt namens "DataFrame", mit dem Daten einfach verarbeitet und zusammengeführt werden können. In der Nähe von Rs data.frame.

In [1]: import pandas as pd #Pandas importieren

In [2]: df = pd.DataFrame({ #Erstellen eines Datenrahmens
   ...: 'A': [n for n in range(5)],
   ...: 'B': ['male', 'male', 'female', 'female', 'male'],
   ...: 'C': [0.3, 0.4, 1.2, 100.5, -20.0]
   ...: })

In [3]: df
Out[3]: 
   A       B      C
0  0    male    0.3
1  1    male    0.4
2  2  female    1.2
3  3  female  100.5
4  4    male  -20.0

In [4]: df.describe() #Ausgabe der Basisstatistik
Out[4]: 
              A           C
count  5.000000    5.000000
mean   2.000000   16.480000
std    1.581139   47.812101
min    0.000000  -20.000000
25%    1.000000    0.300000
50%    2.000000    0.400000
75%    3.000000    1.200000
max    4.000000  100.500000

In [5]: df[df['B'] == 'female'] #Rufen Sie eine Teilmenge auf
Out[5]: 
   A       B      C
2  2  female    1.2
3  3  female  100.5

Python Data Analysis Library — pandas: Python Data Analysis Library

Bericht, Visualisierung

jupyter

Jupyter Notebook ist eine Python-Ausführungsumgebung, die Codeinhalt und Ausgabeergebnisse aufzeichnet, sodass sie als Codierungsumgebung für die explorative Datenverarbeitung und statistische Verarbeitung verwendet werden kann. Es kann auch als Bericht oder Folie ausgegeben werden.

Project Jupyter | Home

matplotlib

matplotlib ist eine Grafikzeichnungsbibliothek. Es unterstützt verschiedene Diagramme wie Balkendiagramme, Streudiagramme und Histogramme.

Matplotlib: Python plotting — Matplotlib 2.0.2 documentation

plotly

plotly kann reichhaltigere und interaktivere Grafiken zeichnen als matplotlib. Das erstellte Diagramm kann auch mit plot.ly geteilt werden.

Plot 9

Python Graphing Library, Plotly

Messaging, Stream-Verarbeitung

Kafka-Python

Kafka-Python ist, wie der Name schon sagt, der Python-Client von Apache Kafka.

from kafka import KafkaConsumer
import json

consumer = KafkaConsumer('topic', bootstrap_servers='localhost:9092')

for msg in consumer:
    data = json.loads(msg.value.decode())
    print(data)

PySpark

Spark und Kafka sind für Big Data unverzichtbar geworden. Es gibt eine Bibliothek für maschinelles Lernen namens MLlib.

Python Programming Guide - Spark 0.9.0 Documentation

Maschinelles Lernen

scikit-learn

scikit-learn ist eine Bibliothek für maschinelles Lernen. Neben den trendigen neuronalen Netzen stehen weitere Algorithmen zur Verfügung. Darüber hinaus verfügt es über Funktionen wie die Unterteilung in Trainingsdaten und Verifizierungsdaten, die Kreuzverifizierung und die Rastersuche, die für die Durchführung des maschinellen Lernens erforderlich sind, und es ist eine Bibliothek, die den juckenden Ort erreichen kann. Wenn Sie die Bibliothek für maschinelles Lernen berühren möchten, beginnen Sie von nun an.

scikit-learn: machine learning in Python — scikit-learn 0.18.2 documentation

TensorFlow

Sie kennen die Deep-Learning-Bibliothek.

TensorFlow

Keras

Keras ist ein Wrapper für TensorFlow, CNTK, Theano und mehr.

Keras Documentation

Empfohlene Bücher

O'Reilly Japan \ - Einführung in die Datenanalyse mit Python

Ein Buch des Autors von Pandas. Sie können lernen, wie Sie Pandas und Datenanalysemethoden verwenden. Es umfasst auch periphere Bibliotheken wie NumPy und Matplotlib.

O'Reilly Japan \ -Maschinenlernen beginnend mit Python

Ein Buch des Autors von scikit-learn. Sie lernen den Umgang mit Scikit-Learn und die für das maschinelle Lernen erforderliche Technik.

Springe aus Python heraus

Wenn Sie nicht nur Daten in Pandas optimieren oder Ihre Bibliothek für maschinelles Lernen optimieren möchten, müssen Sie aus dem Python-Ökosystem herausspringen. Die Welt der Daten ist tief und riesig, und Ingenieure müssen einen größeren Bereich abdecken, um Datenwissenschaftlern zu folgen. Wenn Sie eine verteilte Verarbeitungsinfrastruktur wie Hadoop, Spark, Apex und vollständig verwaltete DWH wie BigQuery und TreasureData unterdrücken, wird das Tätigkeitsfeld erweitert.

Recommended Posts

Liste der Python-Bibliotheken für Datenwissenschaftler und Dateningenieure
[Einführung in Data Scientists] Grundlagen von Python ♬ Funktionen und Klassen
6 Python-Bibliotheken für schnellere Entwicklung und Debugging
Python-Datenstruktur und interne Implementierung ~ Liste ~
[Einführung in Data Scientists] Grundlagen von Python ♬ Bedingte Verzweigung und Schleifen
[Einführung in Data Scientist] Grundlagen von Python ♬
[Einführung in Data Scientists] Grundlagen von Python ♬ Funktionen und anonyme Funktionen usw.
Ich habe die Geschwindigkeit der Listeneinschlussnotation für und während mit Python2.7 gemessen.
Liste des zu verschiebenden und zu merkenden Python-Codes
Installieren Sie Python und Bibliotheken für Python unter MacOS Catalina
Liste der Python-Module
Python-Datenvisualisierungsbibliotheken
[Python] Erstellen Sie eine Liste mit Datum und Uhrzeit (Datum / Uhrzeit-Typ) für einen bestimmten Zeitraum
Mayungos Python-Lernhinweis: Liste der Geschichten und Links
Verarbeitung von CSV-Daten in voller und halber Breite in Python
Python netCDF4 Lesegeschwindigkeit und Verschachtelung von for-Anweisungen
Liste der Verteilungsseiten für Beispielprogramme für Python-Bücher
Ein schneller Vergleich der Testbibliotheken von Python und node.js.
Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird
Python: Ruft eine Liste der Methoden für ein Objekt ab
Datenverarbeitungsmethoden für Maschinenbauingenieure und Nicht-Computeringenieure (Einführung 2)
Datenverarbeitungsmethoden für Maschinenbauingenieure und Nicht-Computeringenieure (Einführung 1)
Verwendung für Python-Stapel und -Warteschlangen (Geschwindigkeitsvergleich jeder Datenstruktur)
Python-Liste, für Anweisung, Wörterbuch
Zusammenfassung der Python3-Listenoperationen
Python für die Datenanalyse Kapitel 4
[Python] Kopie einer mehrdimensionalen Liste
Python-Liste und Tapples und Kommas
Python für die Datenanalyse Kapitel 2
Python-Listeneinschlussnotation und Generator
[Python / PyQ] 4. Liste zur Anweisung
Python #Liste für Super-Anfänger
Quellinstallation und Installation von Python
Python für die Datenanalyse Kapitel 3
Empfehlung von Jupyter Notebook, einer Codierungsumgebung für Datenwissenschaftler
[Python] Kapitel 04-01 Verschiedene Datenstrukturen (Listenerstellung und Elementabruf)
Listet Methodenargumentinformationen für Klassen und Module in Python auf
[Hinweis] Liste der grundlegenden Befehle zum Erstellen einer Python / Conda-Umgebung
[Python] Erstellen Sie eine Datums- und Zeitliste für einen bestimmten Zeitraum
Anwendung von Python: Datenbereinigung Teil 3: Verwendung von OpenCV und Vorverarbeitung von Bilddaten
Befreien Sie sich mit Python und regulären Ausdrücken von schmutzigen Daten
Nützliche Tricks in Bezug auf Listen und Anweisungen in Python
Zusammenfassung der Unterstützung von Hash-Operationen (Dictionary) für Ruby und Python
Python: Erstellen Sie ein Wörterbuch aus einer Liste von Schlüsseln und Werten
Liste der zu installierenden Bibliotheken bei der Installation von Python mit Pyenv
Holen Sie sich eine Liste der CloudWatch-Metriken und eine Entsprechungstabelle der Einheiteneinheiten mit Python boto
Ich habe 4 Bibliotheken des Python 3 Engineer Certification Data Analysis-Tests studiert
Empfohlene Bücher und Quellen für die Datenanalyseprogrammierung (Python oder R)
Die Geschichte von Python und die Geschichte von NaN
Unterschied zwischen list () und [] in Python
Erstellen und testen Sie eine CI-Umgebung für mehrere Versionen von Python
Installation von SciPy und matplotlib (Python)
Automatische Erfassung von Genexpressionsdaten durch Python und R.
Aufbau einer Python-Umgebung für diejenigen, die Datenwissenschaftler 2016 werden möchten
Python-Kurs für datenwissenschaftlich-nützliche Techniken
[Hikari-Python] Kapitel 05-03 Steuerungssyntax (zum Abrufen von Elementen aus der Liste-)
Dies und das von Python-Eigenschaften
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)
Hashing von Daten in R und Python
Vorverarbeitungsvorlage für die Datenanalyse (Python)