[PYTHON] Essayez d'utiliser l'image Docker de Jupyter

[Mise à jour] Il existe un autre article sur la version mise à jour de la série Jupyter 5.


IPython a été intégré au Project Jupyter depuis la version 4.0. Jupyter peut être utilisé non seulement à partir de Python mais également à partir de R, Julia et Scala, et peut être considéré comme l'outil principal pour l'analyse des données. Non seulement il est disponible dans plus de 40 langages de programmation, mais il peut également encourager la collaboration et s'intégrer à Apache Spark via le Jupyter Notebook Viewer (http://nbviewer.jupyter.org/). C'est différent de la génération qui utilise IPython Notebook, pensant que je devrais essayer SciPy Stack pendant un moment.

Jusqu'à présent, NumPy et pandas semblaient difficiles à installer, mais Jupyter a plusieurs Ils ont préparé une image Docker afin que vous puissiez l'essayer relativement facilement. Si vous souhaitez le compléter dans votre navigateur, vous pouvez l'essayer immédiatement sur le site Try Jupyter!.

Démarrer le serveur Notebook

Démarrez le serveur Notebook en utilisant l'image Docker officielle. Fondamentalement, jupyter / datascience-notebook est bon, mais si vous utilisez Spark, [jupyter / all-spark-] notebook](https://hub.docker.com/r/jupyter/all-spark-notebook/) ou jupyter / pyspark-notebook Soit /) serait mieux. De nombreux packages sont préinstallés sur l'image, soit environ 4,5 Go. C'est une bonne idée de jeter un œil aux packages installés en attendant le téléchargement.

$ docker pull jupyter/datascience-notebook
$ docker images jupyter/datascience-notebook
REPOSITORY                     TAG                 IMAGE ID            CREATED             VIRTUAL SIZE
jupyter/datascience-notebook   latest              8e21bfc3eeba        11 hours ago        4.592 GB

Démarrez le conteneur en utilisant le port 8888.

$ docker run -d --name notebook -p 8888:8888 jupyter/datascience-notebook

Si vous y accédez avec un navigateur, vous pouvez voir l'interface qui semble plus propre que IPython Notebook. Si vous appuyez sur "Nouveau", vous serez peut-être plus enthousiasmé par l'apparition de plusieurs options.

スクリーンショット 2015-09-24 21.35.10.png

Cahier Python

Bien qu'il puisse être utilisé de différentes manières, Python sera le courant dominant du point de vue du détournement d'actifs existants. Assurez-vous que les différents modules Python 3 sont disponibles. Tout d'abord, dessinons une courbe sin / cos en utilisant Bokeh.

スクリーンショット 2015-09-24 21.48.01.png

Ensuite, obtenons la moyenne Nikkei de l'API Yahoo! En utilisant le module pandas. Assurez-vous également que les caractères ne sont pas déformés même si le japonais est utilisé pour l'axe du graphique.

スクリーンショット 2015-09-24 21.57.36.png

Cahier R

Je pense que RStudio est plus facile à utiliser si vous écrivez R normalement, mais si vous envisagez la possibilité de partager des blocs-notes avec des équipes et de former des clusters côté serveur, il est préférable de se familiariser avec l'utilisation de Jupyter. On peut dire que c'est bien. Il est également utile pour absorber les différences environnementales telles que si un package est installé ou non, ou s'il peut être installé ou non, en fonction de l'environnement.

Si vous changez de noyau, le logo en haut à droite changera également. Je pense que c'est une fonction utile lors des allers-retours entre plusieurs environnements.

スクリーンショット 2015-09-24 22.23.46.png

Télécharger des données

Je ne sais pas s'il s'agissait d'un Jupyter Notebook ou d'un IPython Notebook, mais vous pouvez également télécharger des fichiers de données. Lorsqu'il est lancé via Docker, il peut être difficile de se lier au conteneur de données. Cependant, vous pouvez utiliser le bouton «Télécharger» pour télécharger des données qui se trouvent dans votre système de fichiers local. Bien sûr, c'est également utile si le client et le serveur fonctionnent sur des machines différentes.

スクリーンショット 2015-09-24 22.30.14.png

Les fichiers téléchargés peuvent être visualisés à partir de blocs-notes dans n'importe quelle langue. Essayons d'utiliser Julia comme noyau et vérifions-le. Cela ne fait peut-être pas beaucoup de différence, mais la langue affichée en haut à droite est Julia 0.3.2.

スクリーンショット 2015-09-24 22.48.20.png

Les aperçus d'impression et les téléchargements Markdown sont disponibles quelle que soit la langue du noyau. Il semble être utile comme moyen d'enregistrer les résultats de l'analyse sous forme de rapport simple.

Installation du package

Vous pouvez également lancer un terminal et installer le package. Par exemple, essayez d'installer * xlsxwriter * en utilisant pip.

スクリーンショット 2015-09-24 23.11.53.png

Résumé

J'ai démarré le serveur Jupyter Notebook à l'aide de l'image Docker officielle et vérifié que Python, R, Julia fonctionnait. Le téléchargement de l'image prend du temps, mais je pense qu'il est très facile à installer sans aucun problème causé par la non-concordance de version de plusieurs logiciels.

Cela peut être une tâche ardue d'avoir différents environnements d'exécution et de stockage de données en fonction des compétences de l'organisation et des membres, ou de la méthode d'analyse, mais l'intégration avec Jupyter peut réduire les coûts de gestion. Comme le format de sortie est également à peu près unifié, il semble être utile comme moyen d'enregistrement.

Recommended Posts

Essayez d'utiliser l'image Docker de Jupyter
Générer une image Docker à l'aide de Fabric
Essayez d'utiliser Tkinter
Essayez d'utiliser docker-py
Essayez d'utiliser Cookiecutter
Essayez d'utiliser PDFMiner
Essayez d'utiliser des géopandas
Essayez d'utiliser Selenium
Essayez d'utiliser scipy
Essayez d'utiliser pandas.DataFrame
Essayez d'utiliser django-swiftbrowser
Essayez d'utiliser matplotlib
Essayez d'utiliser tf.metrics
Essayez d'utiliser PyODE
Exposez votre image Docker
Essayez d'utiliser virtualenv (virtualenvwrapper)
[Azure] Essayez d'utiliser Azure Functions
Essayez d'utiliser virtualenv maintenant
Segmentation d'image à l'aide de U-net
Essayez d'utiliser W & B
Essayez d'utiliser Django templates.html
[Kaggle] Essayez d'utiliser LGBM
Essayez d'utiliser l'analyseur de flux de Python.
Essayez d'utiliser Tkinter de Python
Essayez d'utiliser Tweepy [Python2.7]
Résumé de l'image Jupyter Docker
Essayez d'utiliser collate_fn de Pytorch
Essayez d'utiliser PythonTex avec Texpad.
[Python] Essayez d'utiliser le canevas de Tkinter
Essayez d'utiliser scikit-learn (1) - Clustering K par méthode moyenne
Essayez l'optimisation des fonctions à l'aide d'Hyperopt
Essayez d'utiliser matplotlib avec PyCharm
Essayez d'utiliser Azure Logic Apps
Essayez d'utiliser Kubernetes Client -Python-
[Kaggle] Essayez d'utiliser xg boost
Essayez d'utiliser l'API Twitter
Essayez d'utiliser OpenCV sur Windows
Essayez une recherche similaire de recherche d'images à l'aide du SDK Python [Recherche]
Essayez d'utiliser Jupyter Notebook de manière dynamique
Essayez d'utiliser AWS SageMaker Studio
Essayez de tweeter automatiquement en utilisant Selenium.
Prédiction d'images dans le cloud à l'aide de convLSTM
Essayez d'utiliser SQLAlchemy + MySQL (partie 1)
Essayez d'utiliser l'API Twitter
Essayez d'utiliser SQLAlchemy + MySQL (partie 2)
Essayez d'utiliser la fonction de modèle de Django
Essayez d'utiliser l'API PeeringDB 2.0
Essayez d'utiliser la fonction de brouillon de Pelican
Créer une instance GCE à partir d'une image Docker GCR à l'aide de terraform
Essayez d'utiliser pytest-Overview and Samples-
Essayez Selenium Grid avec Docker
Essayez de créer Jupyter Hub avec Docker
Essayez d'utiliser le folium avec anaconda
Essayez de modifier une nouvelle image à l'aide du modèle StyleGAN2 entraîné
Essayez docker: créez votre propre image de conteneur pour une application Web Python
Créez et essayez un environnement OpenCV et Python en quelques minutes à l'aide de Docker
Essayez d'utiliser l'API Admin de la passerelle Janus
[Statistiques] [R] Essayez d'utiliser la régression par points de division.
Essayez d'utiliser Spyder inclus dans Anaconda
Essayez d'utiliser des modèles de conception (édition exportateur)
Essayez d'exécuter tensorflow sur Docker + anaconda