Construction d'un environnement d'analyse de données avec Python (notebook IPython + Pandas)

introduction

Cette fois, nous allons créer un environnement d'analyse de données avec Python sur un environnement virtuel. Plus précisément, les éléments suivants sont utilisés.

Nom La description
VirtualBox Environnement d'exécution de machine virtuelle
Vagrant Outils de gestion des machines virtuelles depuis la console
IPython (+notebook) Développement Python&Environnement d'exécution
Pandas Bibliothèque pour analyse

Qu'est-ce que VirtualBox?

VirtualBox est un logiciel de virtualisation de la virtualisation x86 (PC / serveur ordinaire qui traîne). Le nom officiel est Oracle VM VirtualBox. En cours de développement par Oracle.

Un outil très utile pour expérimenter diverses choses sans affecter l'environnement existant.

Qu'est-ce que Vagrant

Vagrant est un outil qui facilite la gestion des environnements virtuels depuis la console. Vous pouvez également créer facilement un environnement de test en utilisant Box créé par des volontaires.

L'introduire permet souvent d'économiser du temps et des efforts lors de la création de divers environnements.

Qu'est-ce qu'IPython

IPython est une extension majeure de l'interpréteur interactif Python existant. Fonction de complétion au moment de l'entrée, traitement parallèle dans l'environnement de cluster, fonction shell de ligne de commande Des extensions telles que des boîtes à outils autour de l'interface graphique ont été faites.

Très utile comme interprète interactif pour une analyse ad hoc.

Qu'est-ce qu'un notebook IPython?

Bloc-notes IPython est IPython mis à disposition à partir d'un navigateur Web. Pratique pour les parties où l'interface graphique est impliquée, en particulier pour les tracés graphiques.

Il est possible de le compléter sur une seule machine, mais si vous l'installez sur un serveur avec de bonnes spécifications, Vous pourrez facilement analyser les clients faibles et partager les résultats avec tout le monde.

Qu'est-ce que les pandas

Pandas est une bibliothèque d'analyse de données Python. Une structure de données qui facilite l'utilisation des valeurs numériques et des matrices, et un résumé des opérations.

Dans les coulisses, j'utilise une bibliothèque de calcul numérique pour Python, telle que numpy et scipy. Grâce à cela, la vitesse du calcul numérique est rapide.

Introduction de divers environnements et outils

Environnement de travail

Cette fois, nous sommes allés dans l'environnement suivant.

Debian 7.6.0 (64 bits) a été sélectionné comme système d'exploitation de l'environnement virtuel.

Présentation de VirtualBox

Téléchargez et installez le fichier qui convient à votre environnement depuis cette page. Il prend en charge tous les principaux systèmes d'exploitation tels que Windows, Mac et Linux. Si vous suivez les instructions de l'installateur, il ne devrait y avoir aucun problème.

Présentation de Vagrant

Téléchargez et installez le fichier qui correspond à votre environnement à partir de cette page. Il est compatible avec les systèmes d'exploitation Windows, Mac, Linux (séries RedHat, Debian).

Construire un environnement virtuel

Sélectionnez le fichier Box depuis cette page. Cette fois, j'ai choisi Debian 7.6.0 (64 bits).

https://github.com/jose-lpa/packer-debian_7.6.0/releases/download/1.0/packer_virtualbox-iso_virtualbox.box

Exécutez la commande suivante.

$ vagrant box add debian-7.6 https://github.com/jose-lpa/packer-debian_7.6.0/releases/download/1.0/packer_virtualbox-iso_virtualbox.box
$ vagrant list
...
debian-7.6       (virtualbox, 0)
...
$ mkdir -p ~/vagrant/debian7.6 #Créez un emplacement où vous souhaitez installer l'environnement virtuel
$ cd ~/vagrant/debian7.6
$ vagrant init debian-7.6
$ ls
Vagrantfile

Modifiez le Vagrantfile créé comme suit.

Vagrantfile


# -*- mode: ruby -*-
# vi: set ft=ruby :

VAGRANTFILE_API_VERSION = "2"

Vagrant.configure(VAGRANTFILE_API_VERSION) do |config|
  config.vm.box = "debian-7.6"
  config.vm.network "private_network", ip: "192.168.20.10"
  config.vm.provider "virtualbox" do |vb|
    vb.customize ["modifyvm", :id, "--memory", "2048"]
  end
end

L'adresse IP privée de la machine virtuelle est désormais 192.168.20.10 L'allocation de mémoire peut être définie sur 2 Go.

Démarrez la machine virtuelle avec la commande suivante et connectez-vous avec SSH.

$ vagrant up
Bringing machine 'default' up with 'virtualbox' provider...
==> default: Importing base box 'debian-7.6'...
...

$ vagrant ssh
Linux packer-virtualbox-iso-1411922062 3.2.0-4-amd64 #1 SMP Debian 3.2.57-3 x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
Last login: Sun Sep 28 16:43:22 2014 from 10.0.2.2
vagrant@packer-virtualbox-iso-1411922062:~$

Vous pouvez maintenant vous connecter à l'environnement virtuel. Vous pouvez revenir à l'environnement local avec $ logout ou Ctrl + D. Lors de l'arrêt de la machine virtuelle

$ vagrant halt

Vous pouvez terminer par.

Présentation des pandas

Cette fois, j'utiliserai la série Python 2.7 du système.

Puisqu'il s'agit d'une machine virtuelle, seul pip est utilisé pour la gestion des packages, Sans aucune gestion de paquet spéciale par virtualenv etc. Installez-le sur le Python de votre système.

Exécutez la commande suivante pour installer tous les modules requis pour l'analyse.

$ sudo apt-get update
$ sudo apt-get upgrade
...
Do you want to continue [Y/n]? Y
...

$ sudo apt-get install -y gcc g++ libpyside-dev python2.7-dev libevent-dev python-all-dev build-essential python-numpy python-scipy python-matplotlib libatlas-dev libatlas3gf-base python-pandas emacs
$ pip install --user --install-option="--prefix=" -U scikit-learn

Introduction du notebook IPython + IPython

Installez IPython avec la commande suivante.

$ sudo pip install "ipython[all]"

Créez un fichier de paramètres et écrivez le contenu suivant au début du fichier de paramètres.

$ ipython profile create nbserver
$ emacs /home/vagrant/.ipython/profile_nbserver/ipython_notebook_config.py

ipython_notebook_config


# Configuration file for ipython-notebook.                                                                                                                       

c = get_config()

c.IPKernelApp.pylab = 'inline'
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 9999

...

Démarrez en tant que serveur avec la commande suivante.

$ ipython notebook --profile=nbserver &

Lorsque vous accédez à http://192.168.20.10:9999/, vous verrez l'écran suivant.

Kobito.vdvZ5F.png

Sélectionnez maintenant Nouveau-> Python2 en haut à droite pour faire apparaître l'interpréteur interactif.

Kobito.KlbmW9.png

Cette fois, il s'agit d'un environnement virtuel, il n'y a donc pas de problème, mais lorsque vous l'utilisez dans un environnement réel, reportez-vous à la page suivante et Vous devez définir un mot de passe.

Démarrez le serveur de notebook IPython - Définissez un mot de passe pour restreindre l'accès

Échantillon d'exécution

sample.py


%matplotlib inline
import matplotlib.pyplot as plt

plt.plot(range(100))

Entrez le code ci-dessus et cliquez sur pour exécuter.

Kobito.JNPLyq.png

en conclusion

Vous disposez maintenant d'un environnement d'analyse Python.

Les références

Recommended Posts

Construction d'un environnement d'analyse de données avec Python (notebook IPython + Pandas)
Analyse de données avec python 2
Analyse de données avec Python
Analyse de données à l'aide de pandas python
Construction d'environnement virtuel avec Docker + Flask (Python) + notebook Jupyter
Construction de l'environnement de contrôle à distance Pepper-kun avec Docker + IPython Notebook
Construction d'un environnement d'analyse de données Python facile avec Windows10 Pro x VS Code x Docker
Commencez avec Python! ~ ① Construction de l'environnement ~
Créer un environnement de notebook IPython avec boot2docker
Analyse pratique avec Pandas + notebook Jupyter
Construction de l'environnement Python3 avec pyenv-virtualenv (CentOS 7.3)
Construction de l'environnement pytorch @ python3.8 avec pipenv
Analyse de données à partir de python (visualisation de données 1)
Analyse de données à partir de python (visualisation de données 2)
Construction de l'environnement Python sur Mac (pyenv, virtualenv, anaconda, notebook ipython)
Construction de pipeline de données avec Python et Luigi
Analyse de données python
Construction d'environnement (python)
[Analyse du cours de l'action] pandas apprenant avec des données fictives (001: préparation de l'environnement à la lecture de fichiers)
construction d'environnement python
Python - Construction de l'environnement
Construction de l'environnement Python
Analyse de données à partir de python (pré-traitement des données-apprentissage automatique)
Entendons-nous bien avec Python # 0 (Construction de l'environnement)
Créer un Ubuntu de démarrage USB avec un environnement Python pour l'analyse des données
Construire un environnement d'analyse avec Docker (jupyter notebook + PostgreSQL)
Analyse des données pour améliorer POG 2 ~ Analyse avec le notebook jupyter ~
Lire les données csv Python avec Pandas ⇒ Graphique avec Matplotlib
Construction d'environnement Poetry-virtualenv avec python de centos-sclo-rh ~ Notes
[Construction de l'environnement] Analyse des dépendances à l'aide de CaboCha avec Python 2.7
Premier python ① Construction de l'environnement avec pythonbrew & Hello World !!
De la construction d'environnement Python à la construction d'environnement virtuel avec anaconda
Présentation de l'analyse de données python
construction d'environnement python homebrew
Construction de l'environnement de développement Python
Analyse vocale par python
Visualisation des données avec les pandas
environnement python avec docker-compose
Manipulation des données avec les Pandas!
Modèle d'analyse de données Python
Construction de l'environnement de développement python2.7
Mélangez les données avec les pandas
Analyse vocale par python
Environnement virtuel avec Python 3.6
Construction de l'environnement Python @ Win7
Création d'un environnement R avec Jupyter (anciennement notebook IPython) (sous OS X El Capitan 10.11.3)
Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~
[Python] Construction de l'environnement OpenCV avec Docker (cv2.imshow () fonctionne également)
Note de lecture: Introduction à l'analyse de données avec Python
Défiez l'analyse des composants principaux des données textuelles avec Python
Application Web réalisée avec Python3.4 + Django (Construction de l'environnement Part.1)
Construction de l'environnement de développement de plug-in QGIS3 Python avec VSCode (macOS)
Traiter les données csv avec python (traitement du comptage à l'aide de pandas)
Rapport de construction d'environnement par python (matplotlib, pandas, sphinx) + wkhtmltopdf
Exemple de données créées avec python
Mon conteneur d'analyse de données python