[PYTHON] Démarrez la science des données dans le cloud

Cet article est le premier jour du calendrier de l'Avent Cloud Analytics.

Nous gérons l'analyse, le machine learning, l'IA, etc. avec le thème de l'Analytique sur le Cloud. Cette fois, lors du démarrage du calendrier, préparez d'abord l'environnement d'analyse. Ce qui suit est disponible gratuitement pendant 30 jours, veuillez donc le toucher en fonction du calendrier. Aussi, pourquoi ne pas essayer si vous lancez actuellement une équipe de Data Scientist?

Aujourd'hui, je vais donner un aperçu de l'environnement à utiliser et créer le premier notebook.

Data Science Experience DataScienceExperience est une plateforme de science des données sur le Cloud fournie par IBM. Les outils nécessaires pour effectuer la science des données, y compris le bloc-notes Jupyter Un ensemble complet est disponible et pour promouvoir la Data Science dans l'entreprise Une plateforme avec des fonctions de développement d'équipe.

Environnement d'exécution

Dans DataScienceExperience

interface

Jupyter Notebook et R Studio sont actuellement disponibles.

Vous trouverez ci-dessous le bloc-notes Jupyter. スクリーンショット 2016-12-05 10.08.22.png

Ci-dessous se trouve RStudio. スクリーンショット 2016-12-05 10.10.00.png

L'interface est la même que celle du notebook et de RStudio que vous utilisez habituellement.

DataSrouce La manière dont vous obtenez les données est importante lorsque vous démarrez DataScience. DataScienceExperience est fourni avec 5 Go de stockage d'objets gratuitement. De plus, il peut être connecté à chaque stockage de Bluemix avec GUI, en particulier Cloudant (CouchDB) et Il a une bonne connectivité avec DashDB. Ci-dessous se trouve l'écran de création de connexion. スクリーンショット 2016-12-05 10.20.22.png

D'autres informations de connexion telles que S3 et Impara sont requises, mais elles peuvent être utilisées comme source de données. スクリーンショット 2016-12-05 10.20.38.png

Développement d'équipe

Sur DataScienceExperience, créez un projet et créez un notebook. Partagez facilement votre notebook en ajoutant d'autres utilisateurs à votre projet Vous pouvez aller partager le DataSource.

Ce qui suit est l'écran d'édition de Collaborator. スクリーンショット 2016-12-05 10.23.49.png

Vous pouvez définir Admin, Viewer, Editor, etc.

Les blocs-notes et les sources de données peuvent également être partagés pour l'édition collaborative. スクリーンショット 2016-12-05 10.26.12.png

Créer un projet

Commencez par créer un projet.

Dans l'image ci-dessous, certains projets ont déjà été créés, Ici, nous allons créer un nouveau projet. Cliquez sur le bouton Créer un projet en haut à droite pour passer à l'écran de création de projet. スクリーンショット 2016-12-05 10.32.41.png

L'image ci-dessous est l'écran de création du projet. スクリーンショット 2016-12-05 10.37.49.png

À propos des champs Service Spark et Stockage d'objets Ici, sélectionnez Spark Service et Object Storage auxquels Project peut se connecter, mais vous devez créer Spark Service uniquement pour la première fois. Pour Object Storage, vous pouvez sélectionner celui fourni avec Spark Service lorsque vous le créez, ou Object Storage d sur Bluemix.

Vous venez de créer un tout nouveau projet! スクリーンショット 2016-12-05 10.42.06.png

Créer un notebook et exécuter du code simple

Ensuite, nous allons créer un cahier et exécuter le code. À partir du bouton Ajouter des blocs-notes sur l'écran de projet créé précédemment Passe à l'écran de création du bloc-notes.

スクリーンショット 2016-12-05 10.51.04.png

La version Spark peut être sélectionnée entre 2.0 et 1.6. Ici, Python 2 et Spark 1.6 sont sélectionnés.

À propos du nom du notebook Actuellement, il semble y avoir un bogue selon lequel la prévisualisation ne peut pas être effectuée correctement lorsque l'élément Nom est entré en japonais. Depuis que j'ai soulevé le problème, je pense qu'il sera corrigé, mais entrons ici les caractères alphabétiques.

Vous avez maintenant un tout nouveau notebook! スクリーンショット 2016-12-05 10.54.54.png

Essayons d'exécuter le code Python!

hallo = "Hallo Data Scientist!"
print(hallo)

Collez le code ci-dessus dans la cellule Notebook créée et appuyez sur le bouton Exécuter Le code est exécuté et le résultat est sorti.

スクリーンショット 2016-12-05 10.57.39.png

Vous pouvez exécuter des cellules en appuyant sur Maj + Entrée.

Vous êtes maintenant prêt pour la science des données! !! !! Après cela, nous examinerons le traitement de l'analyse à l'aide de Notebook, Object Storage et d'autres DataSources.

Recommended Posts

Démarrez la science des données dans le cloud
Essayez «100 coups sur la science des données» ①
Comment la Direction des Systèmes d'Information (débutants) peut démarrer la science des données
Effacez complètement les données du disque dur
Livres sur la science des données à lire en 2020
Apprenez la science des données
[Python] 100 coups sur la science des données (traitement de données structurées) 018 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 023 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 030 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 022 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 017 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 026 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 016 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 024 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 027 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 029 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 015 Explication
[Python] 100 coups sur la science des données (traitement de données structurées) 028 Explication
Exécutez l'application flask sur Cloud 9 et Apache Httpd
Nettoyer l'espace de déploiement Cloud Pak for Data
Envoyer les données du journal du serveur vers Splunk Cloud
Défiez 100 coups de science des données
Installez django sur python + anaconda et démarrez le serveur
Concours de science des données OPT
Essayez de traduire le manuel de science des données Python en japonais
Consultez les prévisions météo sur M5Stack + Google Cloud Platform
Essayez d'accéder aux données AWS Redshift à l'aide d'Oracle Cloud Infrastructure Data Science
Dockerfile pour créer un environnement de science des données basé sur pip3
Analyse des données basée sur les résultats des élections du gouverneur de Tokyo (2020)
Jusqu'au début du tutoriel django avec pycharm sous Windows
Commentaire sur la science des données à 100 coups (P021 ~ 040)
Commentaire sur la science des données à 100 coups (P061 ~ 080)
Commentaire de la science des données 100 coups (P041 ~ 060)
Gzip compresser les données en streaming
Commentaire sur la science des données à 100 coups (P081 ~ 100)
Installez JDK sur Linux
Fiche technique de la science des données (Python)
[Python] Notes sur l'analyse des données
Sortie du cours Infra_Data Science
Regardez la vidéo sur Fedora31
Collez le lien sous Linux
Comment démarrer la première projection
[Ancien article] Data Science Experience (DSX) est maintenant disponible sur le plan Lite (très gratuit) sur IBM Cloud, donc je l'ai touché ★ Mise à jour 2017/11
Organiser des blogs utiles dans le domaine de la science des données (outre-mer et Japon)
J'ai étudié avec Kaggle Start Book basé sur kaggle [Partie 1]
J'ai vérifié l'image de l'Université des sciences sur Twitter avec Word2Vec.
Comment mettre à jour la version Python de Cloud Shell dans GCP
[AWS / Tello] Construction d'un système d'exploitation de drones sur le cloud
[Django] Afficher les données d'inscription associées aux utilisateurs sur le formulaire d'inscription / d'édition (formulaire)