Aufbau einer Datenanalyseumgebung mit Python (IPython Notebook + Pandas)

Einführung

Dieses Mal erstellen wir mit Python eine Umgebung für die Datenanalyse in einer virtuellen Umgebung. Insbesondere werden die folgenden verwendet.

Name Erläuterung
VirtualBox Ausführungsumgebung für virtuelle Maschinen
Vagrant Tools zum Verwalten virtueller Maschinen über die Konsole
IPython (+notebook) Python-Entwicklung&Ausführungsumgebung
Pandas Bibliothek zur Analyse

Was ist VirtualBox?

VirtualBox ist eine Software zur Virtualisierung der x86-Virtualisierung (gewöhnlicher PC / Server liegt herum). Der offizielle Name lautet Oracle VM VirtualBox. Wird derzeit von Oracle entwickelt.

Ein sehr nützliches Werkzeug zum Experimentieren mit verschiedenen Dingen, ohne die vorhandene Umgebung zu beeinträchtigen.

Was ist Vagrant?

Vagrant ist ein Tool, das die Verwaltung virtueller Umgebungen über die Konsole erleichtert. Sie können auch einfach eine Testumgebung erstellen, indem Sie Box verwenden, das von Freiwilligen erstellt wurde.

Die Einführung spart häufig Zeit und Mühe beim Erstellen verschiedener Umgebungen.

Was ist IPython?

IPython ist eine wichtige Erweiterung des vorhandenen interaktiven Python-Interpreters. Abschlussfunktion zum Zeitpunkt der Eingabe, Parallelverarbeitung in Clusterumgebung, Befehlszeilen-Shell-Funktion, Es wurden Erweiterungen wie Toolkits rund um die GUI vorgenommen.

Sehr nützlich als interaktiver Interpreter für Ad-hoc-Analysen.

Was ist ein IPython-Notebook?

IPython-Notizbuch ist IPython, das über einen Webbrowser verfügbar gemacht wird. Praktisch für Teile, an denen die GUI beteiligt ist, insbesondere für Diagrammdiagramme.

Es ist möglich, es auf einem einzelnen Computer abzuschließen. Wenn Sie es jedoch auf einem Server mit guten Spezifikationen installieren, Sie können leicht von schwachen Kunden analysieren und die Ergebnisse mit allen teilen.

Was ist Pandas?

Pandas ist eine Python-Datenanalysebibliothek. Eine Datenstruktur, die das Bedienen von numerischen Werten und Matrizen erleichtert, sowie eine Zusammenfassung der Vorgänge.

Hinter den Kulissen verwende ich eine numerische Berechnungsbibliothek für Python, wie z. B. numpy und scipy. Dank dessen ist die Geschwindigkeit der numerischen Berechnung schnell.

Einführung verschiedener Umgebungen und Tools

Arbeitsumgebung

Dieses Mal gingen wir in die folgende Umgebung.

Debian 7.6.0 (64 Bit) wurde als Betriebssystem der virtuellen Umgebung ausgewählt.

Einführung in VirtualBox

Laden Sie die für Ihre Umgebung geeignete Datei von [dieser Seite] herunter und installieren Sie sie (https://www.virtualbox.org/wiki/Downloads). Es unterstützt alle gängigen Betriebssysteme wie Windows, Mac und Linux. Wenn Sie den Anweisungen des Installationsprogramms folgen, sollte es kein Problem geben.

Vagrant vorstellen

Laden Sie die für Ihre Umgebung geeignete Datei von [dieser Seite] herunter und installieren Sie sie (https://www.vagrantup.com/downloads.html). Es ist kompatibel mit Windows, Mac, Linux (RedHat, Debian-Serie).

Aufbau einer virtuellen Umgebung

Wählen Sie die Box-Datei aus dieser Seite. Dieses Mal habe ich Debian 7.6.0 (64bit) gewählt.

https://github.com/jose-lpa/packer-debian_7.6.0/releases/download/1.0/packer_virtualbox-iso_virtualbox.box

Führen Sie den folgenden Befehl aus.

$ vagrant box add debian-7.6 https://github.com/jose-lpa/packer-debian_7.6.0/releases/download/1.0/packer_virtualbox-iso_virtualbox.box
$ vagrant list
...
debian-7.6       (virtualbox, 0)
...
$ mkdir -p ~/vagrant/debian7.6 #Erstellen Sie einen Speicherort, an dem Sie die virtuelle Umgebung installieren möchten
$ cd ~/vagrant/debian7.6
$ vagrant init debian-7.6
$ ls
Vagrantfile

Bearbeiten Sie die erstellte Vagrant-Datei wie folgt.

Vagrantfile


# -*- mode: ruby -*-
# vi: set ft=ruby :

VAGRANTFILE_API_VERSION = "2"

Vagrant.configure(VAGRANTFILE_API_VERSION) do |config|
  config.vm.box = "debian-7.6"
  config.vm.network "private_network", ip: "192.168.20.10"
  config.vm.provider "virtualbox" do |vb|
    vb.customize ["modifyvm", :id, "--memory", "2048"]
  end
end

Die private IP der virtuellen Maschine lautet jetzt "192.168.20.10" Die Speicherzuordnung kann auf 2 GB eingestellt werden.

Starten Sie die virtuelle Maschine mit dem folgenden Befehl und stellen Sie eine Verbindung mit SSH her.

$ vagrant up
Bringing machine 'default' up with 'virtualbox' provider...
==> default: Importing base box 'debian-7.6'...
...

$ vagrant ssh
Linux packer-virtualbox-iso-1411922062 3.2.0-4-amd64 #1 SMP Debian 3.2.57-3 x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
Last login: Sun Sep 28 16:43:22 2014 from 10.0.2.2
vagrant@packer-virtualbox-iso-1411922062:~$

Sie können sich jetzt bei der virtuellen Umgebung anmelden. Sie können mit "$ logout" oder "Strg + D" zur lokalen Umgebung zurückkehren. Beim Beenden der virtuellen Maschine

$ vagrant halt

Sie können mit enden.

Pandas vorstellen

Dieses Mal werde ich die Python 2.7-Serie des Systems verwenden.

Da es sich um eine virtuelle Maschine handelt, wird nur pip für die Paketverwaltung verwendet. Ohne spezielle Paketverwaltung durch virtualenv etc. Installieren Sie es auf dem Python Ihres Systems.

Führen Sie den folgenden Befehl aus, um alle für die Analyse erforderlichen Module zu installieren.

$ sudo apt-get update
$ sudo apt-get upgrade
...
Do you want to continue [Y/n]? Y
...

$ sudo apt-get install -y gcc g++ libpyside-dev python2.7-dev libevent-dev python-all-dev build-essential python-numpy python-scipy python-matplotlib libatlas-dev libatlas3gf-base python-pandas emacs
$ pip install --user --install-option="--prefix=" -U scikit-learn

Einführung von IPython + IPython Notebook

Installieren Sie IPython mit dem folgenden Befehl.

$ sudo pip install "ipython[all]"

Erstellen Sie eine Einstellungsdatei und schreiben Sie den folgenden Inhalt am Anfang der Einstellungsdatei.

$ ipython profile create nbserver
$ emacs /home/vagrant/.ipython/profile_nbserver/ipython_notebook_config.py

ipython_notebook_config


# Configuration file for ipython-notebook.                                                                                                                       

c = get_config()

c.IPKernelApp.pylab = 'inline'
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 9999

...

Starten Sie als Server mit dem folgenden Befehl.

$ ipython notebook --profile=nbserver &

Wenn Sie auf http://192.168.20.10:9999/ zugreifen, wird der folgende Bildschirm angezeigt.

Kobito.vdvZ5F.png

Wählen Sie nun oben rechts New-> Python2, um den interaktiven Interpreter aufzurufen.

Kobito.KlbmW9.png

Diesmal handelt es sich um eine virtuelle Umgebung, daher gibt es kein Problem. Wenn Sie sie jedoch in einer realen Umgebung verwenden, lesen Sie die folgende Seite und Sie sollten ein Passwort festlegen.

Starten Sie den IPython-Notebook-Server. Legen Sie ein Kennwort fest, um den Zugriff einzuschränken.

Ausführungsbeispiel

sample.py


%matplotlib inline
import matplotlib.pyplot as plt

plt.plot(range(100))

Geben Sie den obigen Code ein und klicken Sie zum Ausführen auf .

Kobito.JNPLyq.png

abschließend

Jetzt haben Sie eine Python-Analyseumgebung.

Verweise

Recommended Posts

Aufbau einer Datenanalyseumgebung mit Python (IPython Notebook + Pandas)
Datenanalyse mit Python 2
Datenanalyse mit Python
Datenanalyse mit Python-Pandas
Aufbau einer virtuellen Umgebung mit Docker + Flask (Python) + Jupyter-Notebook
Aufbau einer Pepper-Kun-Fernbedienungsumgebung mit Docker + IPython Notebook
Einfache Erstellung einer Python-Datenanalyseumgebung mit Windows 10 Pro x VS Code x Docker
Beginnen Sie mit Python! ~ ① Umweltbau ~
Erstellen Sie eine IPython Notebook-Umgebung mit boot2docker
Bequeme Analyse mit Pandas + Jupyter Notebook
Python3-Umgebungskonstruktion mit pyenv-virtualenv (CentOS 7.3)
pytorch @ python3.8 Umgebungskonstruktion mit pipenv
Datenanalyse beginnend mit Python (Datenvisualisierung 1)
Datenanalyse beginnend mit Python (Datenvisualisierung 2)
Aufbau einer Python-Umgebung auf einem Mac (pyenv, virtualenv, anaconda, ipython notebook)
Datenpipeline-Aufbau mit Python und Luigi
Datenanalyse Python
Umgebungskonstruktion (Python)
[Aktienkursanalyse] Pandas lernen mit fiktiven Daten (001: Vorbereitung der Umgebung auf das Lesen von Dateien)
Python-Umgebungskonstruktion
Python - Umgebungskonstruktion
Aufbau einer Python-Umgebung
Datenanalyse beginnend mit Python (Datenvorverarbeitung - maschinelles Lernen)
Kommen wir zu Python # 0 (Umgebungskonstruktion)
Erstellen Sie ein USB-Boot-Ubuntu mit einer Python-Umgebung für die Datenanalyse
Erstellen einer Analyseumgebung mit Docker (Jupyter Notebook + PostgreSQL)
Datenanalyse zur Verbesserung von POG 2 ~ Analyse mit Jupiter-Notebook ~
Lesen Sie Python-CSV-Daten mit Pandas ⇒ Graph mit Matplotlib
Poetry-Virtualenv-Umgebungskonstruktion mit Centos-Sclo-Rh-Python ~ Hinweise
[Umgebungskonstruktion] Abhängigkeitsanalyse mit CaboCha mit Python 2.7
Erste Python ① Umgebungskonstruktion mit Pythonbrew & Hello World !!
Von der Python-Umgebungskonstruktion zur virtuellen Umgebungskonstruktion mit Anaconda
Datenanalyse Übersicht Python
Homebrew Python Umgebung Konstruktion
Aufbau einer Python-Entwicklungsumgebung
Sprachanalyse mit Python
Datenvisualisierung mit Pandas
Python-Umgebung mit Docker-Compose
Datenmanipulation mit Pandas!
Python-Datenanalysevorlage
python2.7 Konstruktion der Entwicklungsumgebung
Daten mit Pandas mischen
Sprachanalyse mit Python
Virtuelle Umgebung mit Python 3.6
Python-Umgebungskonstruktion @ Win7
Erstellen einer R-Umgebung mit Jupyter (ehemals IPython-Notebook) (unter OS X El Capitan 10.11.3)
Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~
[Python] OpenCV-Umgebungskonstruktion mit Docker (cv2.imshow () funktioniert auch)
Lesehinweis: Einführung in die Datenanalyse mit Python
Fordern Sie die Hauptkomponentenanalyse von Textdaten mit Python heraus
Webanwendung erstellt mit Python3.4 + Django (Teil.1 Umgebungskonstruktion)
Aufbau einer QGIS3 Python-Plug-In-Entwicklungsumgebung mit VSCode (macOS)
Verarbeiten Sie CSV-Daten mit Python (Zählverarbeitung mit Pandas)
Berichtsumgebungskonstruktion durch Python (Matplotlib, Pandas, Sphinx) + wkhtmltopdf
Mit Python erstellte Beispieldaten
Mein Python-Datenanalyse-Container