Zusammenfassung der Tools, die zum Analysieren von Daten in Python benötigt werden

Über diesen Artikel

Hier ist ein Setup, mit dem Sie Ihre Daten in Python analysieren können.

Wenn Sie an einer Datenanalyse interessiert sind, überprüfen Sie dies bitte auch hier Wenn Sie sich für Datenwissenschaftler interessieren, schauen Sie sich zuerst hier um. Zusammenfassung der Literatur und Videos (nach Bedarf hinzugefügt) --Qiita

Ausführungsumgebung

Jupyter (früher iPython Notebook)

http://jupyter.org/ Umgebung für die interaktive Codeausführung Es eignet sich sehr gut für die Datenanalyse. Wenn Sie sich erst einmal daran gewöhnt haben, können Sie es nicht mehr mit anderen IDEs analysieren.

Zusätzlich zu der Möglichkeit, jeden beliebig unterteilten Codeblock auszuführen und das Ergebnis jedes Mal anzuzeigen, ・ Inline-Anzeige des Diagramms ・ Beschreibung der Formel (Latex) ・ Textbeschreibung der Mark-Down-Methode

Es eignet sich sehr gut für Analysearbeiten während des Erforschens, Teilens und Speicherns von Ergebnissen usw. Es ist auch in der wissenschaftlichen Kunstindustrie weit verbreitet, da es durch Zeichnen von Sätzen und Diagrammen mit iPython in einem papierähnlichen Format geschrieben werden kann.

image

Es gibt auch ein Produkt namens jupyterhub, das von mehreren Personen verwendet werden kann. https://github.com/jupyter/jupyterhub

Andere Optionen

Google Cloud Datalab https://cloud.google.com/datalab/?hl=ja Jupyter-basiertes Frontend für die Google Cloud-Datenexploration Referenz: BigQuery-Integration für Python-Benutzer - Qiita

beaker notebook http://beakernotebook.com/

Apache Zeppelin https://zeppelin.incubator.apache.org/

Bibliothek

Numerische Berechnung, Datenmanipulation

Numpy http://www.numpy.org/ Im Vergleich zu Pythons integrierter Liste kann es für Operationen zwischen Arrays und mehrdimensionalen Arrays verwendet werden (Matrixberechnung). Eine Bibliothek, die gute Objekte bietet Eine Sammlung von Numpy Arrays wird zum Pandas-Datenrahmenobjekt, das unten vorgestellt wird.

Weitere Informationen zur Verwendung von Numpy und Pandas finden Sie in diesem Buch

Einführung in die Datenanalyse mit Python-Datenverarbeitung mit NumPy und Pandas http://www.oreilly.co.jp/books/9784873116556/

Pandas http://pandas.pydata.org/ Eine Bibliothek zum Verarbeiten von Daten in einer RDB-ähnlichen Form (Datenrahmen) in Python Es ist zum Standard für die Datenanalyse geworden, einschließlich Sciki Learn und Matplotlib. Die Koordination mit Pandas-Objekten ist reibungslos

image

Kommentarartikel

Eine rudimentäre Zusammenfassung der Datenmanipulation in Python Pandas http://qiita.com/hik0107/items/d991cc44c2d1778bb82e

Scipy http://docs.scipy.org/doc/scipy/reference/ Bibliothek für wissenschaftliche und technische Berechnungen Enthält verschiedene Techniken wie Sonderfunktionen, Optimierung, statistische Verarbeitung (ziemlich viele)

Beispiel für scipy.optimize für die Funktionsnäherung (Qiita-Artikel)

Nichtlineare Funktionsmodellierung in Python http://qiita.com/hik0107/items/9bdc236600635a0e61e8

Datenverknüpfung

csv http://docs.python.jp/2/library/csv.html#module-csv Eine praktische Bibliothek zum Laden, Verarbeiten und Betreiben von CSV Stellen Sie einen Reader oder Writer für CSV-Dateien bereit

DB-Verbindung

Es gibt Bibliotheken für die Verbindung mit verschiedenen DBs wie MySQL, PostgreSQL, BigQuery und SQLite.

MySQL : MySQL-Connector-Python https://pypi.python.org/pypi/mysql-connector-python/

PostgreSQL : Pycopg2 http://initd.org/psycopg/download/

BigQuery : BigQuery-Python https://github.com/tylertreat/BigQuery-Python

Oder sehen Sie hier, wie man Pandas benutzt http://qiita.com/hik0107/items/3944ccea04371331c3b4

SQLite: SQLite3 (Installation ist nicht erforderlich, da es integriert ist) http://docs.python.jp/2/library/sqlite3.html

Einfache Analyse

pivottablejs https://pypi.python.org/pypi/pivottablejs Eine Bibliothek, die Pandas-Objekte akzeptiert und Vorgänge wie Excel-Pivot-Tabellen ermöglicht Nützlich, wenn Sie eine einfache Aggregation durchführen und Daten überprüfen möchten

image

Sammlungen (eingebaute Funktionen)

http://docs.python.jp/2/library/collections.html Ein Modul, das Funktionen wie "Counter" enthält, die wie Count Distinct und "named tuple" verwendet werden können, um vereinfachte Objekte von Datenrahmen zu entwerfen 

Modellierung (maschinelles Lernen)

scikitlearn http://scikit-learn.org/ Paket für maschinelles Lernen mit Modellen zur Klassifizierung und Vorhersage Dies hat auch eine Position, von der man sagen kann, dass sie bei der Datenanalyse mit Python fast de facto ist.

image

Diagrammzeichnung

matplotlib (+ seaborn) http://matplotlib.org/ http://stanford.edu/~mwaskom/software/seaborn/ matplotlib ist effektiv das De-facto-Tool für die Python-Datenvisualisierung. seaborn ist eine solche Hülle, die es einfacher macht, schöne Grafiken zu zeichnen.

Es gibt verschiedene Diagramme sowie Liniendiagramme, Balkendiagramme, Histogramme, Streudiagramme usw.

Qiita Artikel

Schöne Grafikzeichnung mit Python-Seaborn erleichtert die Datenanalyse und -visualisierung http://qiita.com/hik0107/items/3dc541158fceb3156ee0

image

Andere Optionen

Beide sind leistungsstarke Grafikwerkzeuge Wenn Sie matplotlib nicht mögen, nicht zufrieden sind oder ein ehemaliger R-Benutzer sind, überprüfen Sie es bitte.

・ Bokeh http://bokeh.pydata.org/en/latest/ ・ Ggplot (Python-Version der ggplogt2-Bibliothek von R) http://ggplot.yhathq.com/ ・ Plotly https://plot.ly/

Andere

Beschleunigte Berechnung: Cython

http://cython.org/ Kompilieren Sie Python-Code zur schnellen Ausführung in C-Code Nützlich, wenn der Rechenaufwand groß ist und die Geschwindigkeit zu einem Engpass wird

Symbolberechnung: Sympy

http://www.sympy.org/en/index.html

Daten bearbeiten und berechnen: Datum / Uhrzeit

http://docs.python.jp/2/library/datetime.html

Dieser Artikel auch

Es ist Zeit, ernsthaft über die Definition und die Fähigkeiten von Datenwissenschaftlern nachzudenken http://qiita.com/hik0107/items/f9bf14a7575d5c885a16

Recommended Posts

Zusammenfassung der Tools, die zum Analysieren von Daten in Python benötigt werden
Zusammenfassung zum Importieren von Dateien in Python 3
Zusammenfassung der Verwendung von MNIST mit Python
Datenanalyse in Python Zusammenfassung der Quellen, die Anfänger zuerst betrachten sollten
Grundlegende Zusammenfassung der Datenoperationen in Python Pandas - Zweite Hälfte: Datenaggregation
[Python] Zusammenfassung der Verwendung von Pandas
Zusammenfassung verschiedener for-Anweisungen in Python
[Python2.7] Zusammenfassung der Verwendung von unittest
Zusammenfassung der integrierten Methoden usw. der Python-Liste
Zusammenfassung der Verwendung der Python-Liste
[Python2.7] Zusammenfassung der Verwendung des Unterprozesses
[Einführung in Data Scientist] Grundlagen von Python ♬
So senden Sie ein visualisiertes Bild der in Python erstellten Daten an Typetalk
Zusammenfassung der 2016 erstellten OSS-Tools und -Bibliotheken
Echtzeitvisualisierung von Thermografie AMG8833-Daten in Python
Zusammenfassung der in Command Line Vol.8 verwendeten Tools
Zusammenfassung der in Command Line Vol.5 verwendeten Tools
Die Geschichte des Lesens von HSPICE-Daten in Python
Zusammenfassung des Studiums von Python zur Verwendung von AWS Lambda
Aufgezeichnete Umgebung für die Datenanalyse mit Python
Zusammenfassung der Excel-Operationen mit OpenPyXL in Python
Zusammenfassung der Python-Argumente
Zusammenfassung zum Lesen numerischer Daten mit Python [CSV, NetCDF, Fortran Binary]
Organisieren Sie Python-Tools, um die anfängliche Bewegung von Datenanalyse-Wettbewerben zu beschleunigen
Verarbeitung von CSV-Daten in voller und halber Breite in Python
So ermitteln Sie die Anzahl der Stellen in Python
Zusammenfassung der Tools zum Betreiben der Windows-Benutzeroberfläche mit Python
Zusammenfassung der beim Extrahieren von Daten verwendeten Pandas-Methoden [Python]
Den Inhalt der Daten in Python nicht kennen
Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird
Verwenden wir die offenen Daten von "Mamebus" in Python
[Python] Zusammenfassung, wie die Farbe der Figur angegeben wird
Um das Äquivalent von Rubys ObjectSpace._id2ref in Python zu tun
Zusammenfassung der Datumsverarbeitung in Python (Datum / Uhrzeit und Datum)
Zusammenfassung der statistischen Datenanalysemethoden mit Python, die im Geschäftsleben verwendet werden können
[Einführung in Python] Zusammenfassung der Funktionen und Methoden, die häufig in Python vorkommen [Problemformat]
So löschen Sie stdout in Python
Zusammenfassung der Python-Dateivorgänge
Zusammenfassung der Python3-Listenoperationen
Was ist neu in Python 3.10 (Zusammenfassung)
Zeigen Sie UTM-30LX-Daten in Python an
Melden Sie sich auf der Website in Python an
Objektäquivalenzbeurteilung in Python
Python-Datentyp-Zusammenfassungsnotiz
Sprechen mit Python [Text zu Sprache]
Zusammenfassung der Gesichtserkennung in Python
Wie man in Python entwickelt
Implementierung der schnellen Sortierung in Python
Was ist neu in Python 3.9 (Zusammenfassung)
Post an Slack in Python
Versuchen Sie, COVID-19 Tokyo-Daten mit Python zu kratzen
Ich möchte Daten mit Python analysieren können (Teil 3)
Ermöglichen Sie die Installation von in Python erstellten Befehlszeilentools
[Python] Zusammenfassung zum Abrufen von Listen und Wörterbuchelementen
Ich möchte Daten mit Python analysieren können (Teil 1)
Python3-Verarbeitung, die in Paiza verwendbar zu sein scheint
[Von Zeit zu Zeit aktualisiert] Zusammenfassung der Entwurfsmuster in Java
[Für Anfänger] Zusammenfassung der Standardeingabe in Python (mit Erklärung)