Aufgezeichnete Umgebung für die Datenanalyse mit Python

Überblick

Ich ließ die Firma O'Reillys "Datenanalyse beginnend mit Python" kaufen.

Notieren Sie den Bauvorgang, damit Sie ihn intern verbreiten können.

Nachtrag

Mir wurde gesagt, dass es kein Verfahren für Windows gibt, obwohl es für interne Missionen ist, also habe ich es hinzugefügt. Windows-Benutzer sollten Cygwin verwenden. Hier ist eine Referenz: So installieren Sie Pip und Setuptools auf Cygwin Wenn Sie pip verwenden können, Klicken Sie hier, um virtualenv einzufügen

Umgebung

Vorstellung der Bibliothek

Ich werde die Erklärung von pip und virtualenv weglassen. Stellen Sie sicher, dass Sie die Befehle mkvirtualenv und pip zur Verfügung haben. Außerdem werde ich mich an Python3 gewöhnen, also werde ich Python3 verwenden. O'Reilly sagt, er solle einen Baldachin-Express aufstellen, aber ich werde die Bibliothek selbst aufstellen.

$ mkvirtualenv --no-site-package --python /usr/local/bin/python3 analytics
(analytics)$ pip install numpy
(analytics)$ pip install scipy 
(analytics)$ pip install matplotlib
(analytics)$ pip install ipython
(analytics)$ pip install ipython[notebook] 
(analytics)$ ipython

Ich habe es in eine Umgebung namens Analytics unterteilt. Von nun an werde ich in dieser Umgebung arbeiten. Installieren Sie ipython und andere für die Analyse verwendete Bibliotheken. Überprüfen Sie die installierte Bibliothek

$ pip freeze
appnope==0.1.0
cycler==0.9.0
decorator==4.0.6
gnureadline==6.3.3
ipykernel==4.2.2
ipython==4.0.1
ipython-genutils==0.1.0
Jinja2==2.8
jsonschema==2.5.1
jupyter-client==4.1.1
jupyter-core==4.0.6
MarkupSafe==0.23
matplotlib==1.5.0
mistune==0.7.1
nbconvert==4.1.0
nbformat==4.0.1
notebook==4.0.6
numpy==1.10.4
path.py==8.1.2
pexpect==4.0.1
pickleshare==0.5
ptyprocess==0.5
Pygments==2.0.2
pyparsing==2.0.7
python-dateutil==2.4.2
pytz==2015.7
pyzmq==15.1.0
scipy==0.16.1
simplegeneric==0.8.1
six==1.10.0
terminado==0.6
tornado==4.3
traitlets==4.0.0
wheel==0.24.0

Überprüfen Sie, ob ipython funktioniert.

Python 3.5.1 (default, Dec  7 2015, 21:59:08) 
Type "copyright", "credits" or "license" for more information.

IPython 4.0.1 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]: 

Beenden Sie mit Strg + d und installieren Sie Pandas

$ pip install pandas

Funktionsprüfung

Lassen Sie uns die Operation überprüfen. Beginnen Sie mit der Option --pylab, um die Diagrammzeichnung zu verwenden

$ ipython --pylab
...
RuntimeError: Python is not installed as a framework. The Mac OS X backend will

Ich bekomme eine Fehlermeldung. Was ist "Python ist nicht als Framework installiert." Gelöst unter Bezugnahme auf das Ergebnis von Google hier. Erstellen Sie eine matplotlibrc-Datei unter ~ / .matplotlib. Füllen Sie Folgendes aus.

~/.matplotlib/matplotlibrc


backend : TkAgg

Überprüfen Sie den Betrieb erneut.

ipython --pylab
In [1]: import pandas  #Pandas können gezogen werden
In [2]: plot(arange(10))  #Sie können matplotlib verwenden

OK, wenn ein gerades Diagramm angezeigt wird

Verwenden Sie das IPython-Notizbuch

ipython notebook

Der Browser wird gestartet. Erstellen Sie ein Notizbuch aus Neu oben rechts. Da es sich um eine Seite handelt, auf der Sie zunächst Befehle eingeben können

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

Drücken Sie und führen Sie mit der Wiedergabetaste oben aus. Jetzt können Sie das Diagramm zeichnen

plt.plot(np.random.randn(1000))

Drücken Sie die Wiedergabetaste mit. Generieren Sie 1000 Zufallszahlen, die einer Normalverteilung folgen, und zeichnen Sie sie in ein Diagramm. Das ipython-Notizbuch kann die Befehlszeile wie folgt aufzeichnen. es ist wunderbar!

スクリーンショット 2016-02-11 20.47.21.png

Versuchen Sie die Datenanalyse

Vorbereitungen

Wechseln Sie in ein geeignetes Arbeitsverzeichnis

git clone https://github.com/pydata/pydata-book.git

Auf diese Weise erhalten Sie Beispieldaten, mit denen Sie Ihre Statistiken üben können.

cd pydata-book/ch02

Lassen Sie uns usagov_bitly_data2012-03-16-1331923249.txt in diesem mit Python analysieren! Dies ist übrigens wie ein Protokoll der verkürzten URL-Generierung.

Analyse

Ich dachte, ich würde es schreiben, aber ich werde es weglassen, weil es von nun an ein Lehrbuch rund um Pakuri sein wird!

Einführung des Linienprofilers

Ein praktisches Tool, das in Kapitel 3 vorgestellt wird. Nehmen Sie es auf, weil es Teil der Umgebungskonstruktion ist. In der Analyse scheint es so, als ob Sie das Verhalten der Funktion zeilenweise sehen möchten, wenn Sie einige erweiterte Berechnungen durchführen. Wenn die Berechnung von 10 ms beispielsweise 1 Million Mal wiederholt wird, sie jedoch jedes Mal auf 5 ms verbessert werden kann, kann 1 Million Mal viel Zeit sparen. Ich denke, dass diese Verbesserungen wahrscheinlich effektiver sein werden, wenn es um wissenschaftliche und technologische Berechnungen mit großformatigen Matrizen geht. Es scheint also, dass der Zeilenprofiler ein praktisches Werkzeug ist, mit dem bewertet werden kann, welcher Prozess wie lange für jede Zeile der Funktion dauert.

Einführungsmethode

pip install line_profiler
ipython profile create
vi ~/.ipython/extensions/line_profiler_ext.py

txt:~/.ipython/extensions/line_profiler_ext.py


import line_profiler

def load_ipython_extension(ip):
    ip.define_magic('lprun', line_profiler.magic_lprun)
vi ~/.ipython/profile_default/ipython_config.py

py:~/.ipython/profile_default/ipython_config.py


#------------------------------------------------------------------------------
# TerminalIPythonApp configuration
#------------------------------------------------------------------------------

c.TerminalIPythonApp.extensions = [
  'line_profiler_ext',
]

#------------------------------------------------------------------------------
# TerminalIPythonApp configuration
#------------------------------------------------------------------------------

c.TerminalIPythonApp.extensions = [
  'line_profiler_ext',
]

Versuchen Sie, die Funktion zu bewerten

In [1]: from numpy.random import randn

In [2]: def add_and_sum(x, y):
   ...:     added = x + y
   ...:     summed = added.sum(axis=1)
   ...:     return summed
   ...: 

In [5]: x = randn(3000, 3000)

In [6]: y = randn(3000, 3000)

Führen Sie die oben definierte add_and_sum aus. Bewerten Sie mit den Argumenten x und y, wie lange es dauert. Kann mit dem magischen Befehl% lprun verwendet werden.

In [16]: %lprun -f add_and_sum add_and_sum(x, y)
Timer unit: 1e-06 s

Total time: 0.036058 s
File: <ipython-input-2-19f64f63ba0a>
Function: add_and_sum at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
     1                                           def add_and_sum(x, y):
     2         1        28247  28247.0     78.3      added = x + y
     3         1         7809   7809.0     21.7      summed = added.sum(axis=1)
     4         1            2      2.0      0.0      return summed

Recommended Posts

Aufgezeichnete Umgebung für die Datenanalyse mit Python
Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird
Datenanalyse Python
Zeigen Sie eine Liste der Alphabete in Python 3 an
Datenanalyse mit Python 2
Datenanalyse Übersicht Python
Holen Sie sich den Aufrufer einer Funktion in Python
So senden Sie ein visualisiertes Bild der in Python erstellten Daten an Typetalk
Echtzeitvisualisierung von Thermografie AMG8833-Daten in Python
Umschreiben von Elementen in einer Listenschleife (Python)
Python-E-Book-Zusammenfassung nützlich für die frei lesbare Datenanalyse
Die Geschichte des Lesens von HSPICE-Daten in Python
Python-Datenanalysevorlage
Machen Sie mit Python eine Joyplot-ähnliche Handlung von R.
Ausgabe in Form eines Python-Arrays
Lassen Sie uns einen Teil des maschinellen Lernens mit Python berühren
Assoziationsanalyse in Python
Code lesen von faker, einer Bibliothek, die Testdaten in Python generiert
Datenanalyse mit Python
Regressionsanalyse mit Python
Datenanalyse in Python Zusammenfassung der Quellen, die Anfänger zuerst betrachten sollten
Erstellen Sie mit Selenium einen Datenerfassungsbot in Python
Zusammenfassung der Tools, die zum Analysieren von Daten in Python benötigt werden
[Python] [Word] [python-docx] Einfache Analyse von Diff-Daten mit Python
Empfangen Sie Wörterbuchdaten von Python-Programmen mit AppleScript
Eine Code-Sammlung, die häufig in persönlichem Python verwendet wird
Fordern Sie die Hauptkomponentenanalyse von Textdaten mit Python heraus
Den Inhalt der Daten in Python nicht kennen
Bis Sie Daten in eine Tabelle in Python einfügen
Verwenden wir die offenen Daten von "Mamebus" in Python
Gruppieren Sie nach aufeinanderfolgenden Elementen einer Liste in Python
Ein Memorandum über die Umsetzung von Empfehlungen in Python
Machen Sie einen Screenshot in Python
Mein Python-Datenanalyse-Container
Behandeln Sie Umgebungsdaten in Python
Erstellen Sie eine Funktion in Python
Erstellen Sie ein Wörterbuch in Python
Python für die Datenanalyse Kapitel 4
Zeigen Sie UTM-30LX-Daten in Python an
Statische Analyse von Python-Programmen
Objektäquivalenzbeurteilung in Python
Axialsymmetrische Spannungsanalyse mit Python
Lernnotizen zur Python-Datenanalyse
Erstellen Sie ein Lesezeichen in Python
Python für die Datenanalyse Kapitel 2
Einfache Regressionsanalyse mit Python
Zeichne ein Herz in Python
Implementierung der schnellen Sortierung in Python
Datenanalyse mit Python-Pandas
Python für die Datenanalyse Kapitel 3
Zusammenfassung der statistischen Datenanalysemethoden mit Python, die im Geschäftsleben verwendet werden können
Holen Sie sich mit Python eine große Menge von Starbas Twitter-Daten und probieren Sie die Datenanalyse Teil 1 aus
Konsolidieren Sie eine große Anzahl von CSV-Dateien in Ordnern mit Python (Daten ohne Header).
Versuchen Sie, COVID-19 Tokyo-Daten mit Python zu kratzen
Grundlegende Zusammenfassung der Datenoperationen in Python Pandas - Zweite Hälfte: Datenaggregation
Veröffentlichung einer Bibliothek, die Zeichendaten in Python-Bildern verbirgt
Holen Sie sich die Anzahl der spezifischen Elemente in der Python-Liste
Aufzeichnung der Höllenstunden, die Python-Anfängern auferlegt wurden
[In kürzester Zeit verstehen] Python-Grundlagen für die Datenanalyse