Hier ist ein Setup, mit dem Sie Ihre Daten in Python analysieren können.
Wenn Sie an einer Datenanalyse interessiert sind, überprüfen Sie dies bitte auch hier Wenn Sie sich für Datenwissenschaftler interessieren, schauen Sie sich zuerst hier um. Zusammenfassung der Literatur und Videos (nach Bedarf hinzugefügt) --Qiita
http://jupyter.org/ Umgebung für die interaktive Codeausführung Es eignet sich sehr gut für die Datenanalyse. Wenn Sie sich erst einmal daran gewöhnt haben, können Sie es nicht mehr mit anderen IDEs analysieren.
Zusätzlich zu der Möglichkeit, jeden beliebig unterteilten Codeblock auszuführen und das Ergebnis jedes Mal anzuzeigen, ・ Inline-Anzeige des Diagramms ・ Beschreibung der Formel (Latex) ・ Textbeschreibung der Mark-Down-Methode
Es eignet sich sehr gut für Analysearbeiten während des Erforschens, Teilens und Speicherns von Ergebnissen usw. Es ist auch in der wissenschaftlichen Kunstindustrie weit verbreitet, da es durch Zeichnen von Sätzen und Diagrammen mit iPython in einem papierähnlichen Format geschrieben werden kann.
Es gibt auch ein Produkt namens jupyterhub, das von mehreren Personen verwendet werden kann. https://github.com/jupyter/jupyterhub
Google Cloud Datalab https://cloud.google.com/datalab/?hl=ja Jupyter-basiertes Frontend für die Google Cloud-Datenexploration Referenz: BigQuery-Integration für Python-Benutzer - Qiita
beaker notebook http://beakernotebook.com/
Apache Zeppelin https://zeppelin.incubator.apache.org/
Numpy http://www.numpy.org/ Im Vergleich zu Pythons integrierter Liste kann es für Operationen zwischen Arrays und mehrdimensionalen Arrays verwendet werden (Matrixberechnung). Eine Bibliothek, die gute Objekte bietet Eine Sammlung von Numpy Arrays wird zum Pandas-Datenrahmenobjekt, das unten vorgestellt wird.
Weitere Informationen zur Verwendung von Numpy und Pandas finden Sie in diesem Buch
Einführung in die Datenanalyse mit Python-Datenverarbeitung mit NumPy und Pandas http://www.oreilly.co.jp/books/9784873116556/
Pandas http://pandas.pydata.org/ Eine Bibliothek zum Verarbeiten von Daten in einer RDB-ähnlichen Form (Datenrahmen) in Python Es ist zum Standard für die Datenanalyse geworden, einschließlich Sciki Learn und Matplotlib. Die Koordination mit Pandas-Objekten ist reibungslos
Kommentarartikel
Eine rudimentäre Zusammenfassung der Datenmanipulation in Python Pandas http://qiita.com/hik0107/items/d991cc44c2d1778bb82e
Scipy http://docs.scipy.org/doc/scipy/reference/ Bibliothek für wissenschaftliche und technische Berechnungen Enthält verschiedene Techniken wie Sonderfunktionen, Optimierung, statistische Verarbeitung (ziemlich viele)
Beispiel für scipy.optimize für die Funktionsnäherung (Qiita-Artikel)
Nichtlineare Funktionsmodellierung in Python http://qiita.com/hik0107/items/9bdc236600635a0e61e8
csv http://docs.python.jp/2/library/csv.html#module-csv Eine praktische Bibliothek zum Laden, Verarbeiten und Betreiben von CSV Stellen Sie einen Reader oder Writer für CSV-Dateien bereit
Es gibt Bibliotheken für die Verbindung mit verschiedenen DBs wie MySQL, PostgreSQL, BigQuery und SQLite.
MySQL : MySQL-Connector-Python https://pypi.python.org/pypi/mysql-connector-python/
PostgreSQL : Pycopg2 http://initd.org/psycopg/download/
BigQuery : BigQuery-Python https://github.com/tylertreat/BigQuery-Python
Oder sehen Sie hier, wie man Pandas benutzt http://qiita.com/hik0107/items/3944ccea04371331c3b4
SQLite: SQLite3 (Installation ist nicht erforderlich, da es integriert ist) http://docs.python.jp/2/library/sqlite3.html
pivottablejs https://pypi.python.org/pypi/pivottablejs Eine Bibliothek, die Pandas-Objekte akzeptiert und Vorgänge wie Excel-Pivot-Tabellen ermöglicht Nützlich, wenn Sie eine einfache Aggregation durchführen und Daten überprüfen möchten
http://docs.python.jp/2/library/collections.html Ein Modul, das Funktionen wie "Counter" enthält, die wie Count Distinct und "named tuple" verwendet werden können, um vereinfachte Objekte von Datenrahmen zu entwerfen
scikitlearn http://scikit-learn.org/ Paket für maschinelles Lernen mit Modellen zur Klassifizierung und Vorhersage Dies hat auch eine Position, von der man sagen kann, dass sie bei der Datenanalyse mit Python fast de facto ist.
matplotlib (+ seaborn) http://matplotlib.org/ http://stanford.edu/~mwaskom/software/seaborn/ matplotlib ist effektiv das De-facto-Tool für die Python-Datenvisualisierung. seaborn ist eine solche Hülle, die es einfacher macht, schöne Grafiken zu zeichnen.
Es gibt verschiedene Diagramme sowie Liniendiagramme, Balkendiagramme, Histogramme, Streudiagramme usw.
Qiita Artikel
Schöne Grafikzeichnung mit Python-Seaborn erleichtert die Datenanalyse und -visualisierung http://qiita.com/hik0107/items/3dc541158fceb3156ee0
Beide sind leistungsstarke Grafikwerkzeuge Wenn Sie matplotlib nicht mögen, nicht zufrieden sind oder ein ehemaliger R-Benutzer sind, überprüfen Sie es bitte.
・ Bokeh http://bokeh.pydata.org/en/latest/ ・ Ggplot (Python-Version der ggplogt2-Bibliothek von R) http://ggplot.yhathq.com/ ・ Plotly https://plot.ly/
http://cython.org/ Kompilieren Sie Python-Code zur schnellen Ausführung in C-Code Nützlich, wenn der Rechenaufwand groß ist und die Geschwindigkeit zu einem Engpass wird
http://www.sympy.org/en/index.html
http://docs.python.jp/2/library/datetime.html
Es ist Zeit, ernsthaft über die Definition und die Fähigkeiten von Datenwissenschaftlern nachzudenken http://qiita.com/hik0107/items/f9bf14a7575d5c885a16