[PYTHON] [Ancien article] Data Science Experience (DSX) est maintenant disponible sur le plan Lite (très gratuit) sur IBM Cloud, donc je l'ai touché ★ Mise à jour 2017/11

image

: avertissement: Cet article a été publié pour la première fois en juin 2017, mais il est déjà obsolète pour le moment ([février 2019]). L'article lui-même sera laissé tel quel à des fins d'archivage, mais veuillez ne pas vous référer au contenu de cet article. Les articles alternatifs incluent: </ font>


[Note] Cet article a été téléchargé en 2017/06 avec le titre "La version gratuite de Data Science Experience (DSX) est maintenant disponible sur Bluemix, donc je l'ai essayé." Cependant, comme il y a eu un changement d'interface utilisateur lié au démarrage du compte Lite et DSX / WML en 2017/11, j'ai revu la description et pris une nouvelle capture d'écran. Le contenu de l'article est presque le même qu'avant. La partie modifiée s'écrit: new:. </ font>

introduction

salut! Le 06/01/2017 ** L'icône Data Science Experience est apparue sur IBM Cloud! Même si je suis enthousiasmé par **, je pense que la plupart des gens ont une réaction sympa: "Qu'est-ce que la Data Science Experience?" (Gackli ..) Il y a quelques articles sur Data Science Experience (DSX) sur Qiita, mais je voudrais brièvement présenter "Qu'est-ce que c'est?" Après avoir été enregistré dans le catalogue IBM Cloud. J'ai fait.

Qu'est-ce que l'expérience en science des données (DSX)?

(Je pense que les expressions suivantes sont rapides pour les lecteurs habiles de Qiita.) En bref, nous fournissons un ensemble d'environnements de développement et d'exécution pour l'analyse de science des données ouvertes suivante qui a pris de l'ampleur récemment. C'est un service SaaS. En tant qu'utilisateur, nous supposons une équipe de data scientists capables de coder. (Si vous n'aimez pas le codage: nouveau: SPSS est également disponible sur DSX! :-))

--Scala / Python sur Jupyter Notebook (*) --R sur R Studio

  • Spark Cluster --Brunel (visualisation) / Apache Toree (intégration Spark et Jupyter) etc.

en outre

--Articles à étudier ・ Tutotial et open data --Fonction de collaboration pour l'équipe d'analyse

  • Intégration de Notebook GitHub

Il est également joint.

  • S'agit-il de Jupyter Hub car il peut réellement être développé par une équipe? Je ne sais pas ce que vous utilisez.

image

Qu'est-ce que tu aimes?

Eh bien, la situation actuelle est ** en bref, c'est un service SaaS qui intègre des choses open source **, donc on peut dire que vous pouvez créer un environnement similaire par vous-même, mais je pense qu'il présente les avantages suivants.

  • (Parce que c'est SaaS) Il n'est pas nécessaire d'organiser l'infrastructure ou de définir l'environnement en premier lieu
  • Pas besoin de connaissances sur les paramètres d'infrastructure tels que la coopération entre Jupyter et Spark ――Par conséquent, vous pouvez commencer à développer le code immédiatement (ou vous pouvez essayer d'étudier immédiatement)
  • L'environnement multi-langues (Polyglot) élimine le besoin des équipes d'analyse pour "unifier les outils et les environnements" ――Pas besoin de créer et d'exploiter l'environnement Spark Cluster (c'est assez difficile, ça) --Facile à utiliser avec des services sur IBM Cloud tels que dashDB et Object Storage
  • Vous pouvez facilement déployer votre notebook sur github

DSX semble être particulièrement axé sur ** «l'augmentation de la productivité de l'équipe d'analyse» **. Chaque data scientist a son langage préféré et ses outils dans lesquels il est doué, comme "Je veux le faire en R", "Eh bien, c'est l'IA, donc c'est Python" et ainsi de suite. Si vous souhaitez analyser sur une base individuelle, vous pouvez utiliser ce que vous voulez, mais si vous faites du «travail d'analyse» avec ** «équipe» ** et ** «travail» **, ce n'est pas le cas. Si vous n'unifiez pas l'environnement du langage et de l'outil, il ne sera pas pratique pour l'équipe d'évaluer et de partager les résultats de l'analyse. Cependant, il est assez pénible et moral d'être obligé de décider que "ce travail d'analyse est xxx". .. .. DSX semble viser un environnement dans lequel l'équipe peut ** analyser ce domaine ** avec son langage et ses outils préférés, et ** collaborer ** les livrables. (Cela peut être déduit du fait que le système de prix n'est pas le prix d'un utilisateur, mais le prix pour cinq personnes.)

Transition de DSX sur IBM Cloud

L'expérience de la science des données elle-même a été proposée en tant que service sur SaaS en 2016, indépendamment de Bluemix, mais uniquement avec un essai de 30 jours. (Autrement dit, il ne pourrait pas être utilisé après la date limite d'essai.): Nouveau: Après cela, il a été publié dans le catalogue Bluemix et la version gratuite a été fournie en 2017/06, et il sera gratuit pendant longtemps avec le changement de nom de Bluemix à IBM Cloud en 2017/11. Le plan Lite était proposé, mais DSX et WML sont également disponibles dans le plan Lite. En bref (bien que les ressources soient limitées) ** le plan Lite vous permet de l'essayer gratuitement et gratuitement **, c'est donc un bon endroit pour commencer à "étudier Jupyter / Python / Scala + Spark". Je crois que non. (Tutotial pour l'étude et des cahiers d'échantillons sont également préparés en abondance)

À propos, les ressources qui peuvent être utilisées dans le plan Lite sont les suivantes. Bien qu'il soit petit, je pense que le niveau "étude" est suffisant. (Le plan Lite a les mêmes fonctionnalités que la version Entreprise payante, seules les ressources machine disponibles et le nombre de Spark Clusters sont différents.) Data Science Experience

image

je vais essayer

Ci-dessous, tout en présentant les fonctions de DSX dans l'environnement Free en guise d'introduction, je vais essayer de créer un projet jusqu'à l'exécution d'un notebook existant avec des explications sur Python / Spark. Dans DSX, des ressources telles que divers notebooks et données sont collectées, gérées et partagées à l'aide d'une unité de gestion appelée «projet». image

Créez d'abord une instance de service DSX sur IBM Cloud

Connectez-vous à IBM Cloud et sélectionnez Data Science Experience dans le catalogue. image

Sur l'écran suivant, donnez au nom du service un nom de votre choix, sélectionnez Plan Lite, puis «Créer». Pour le plan: warning: Lite, définissez ** "Deployment area" sur "Southern United States" **. Depuis novembre 2017, le plan Lite n'est disponible que dans le «sud des États-Unis». (Est-ce approprié car le plus grand choix de services se trouve dans le "sud des États-Unis") image

Lorsque l'écran change, "Premiers pas" image

Sélectionnez l'organisation et l'espace IBM Cloud à utiliser avec DSX et "Continuer" (est-ce que ça va par défaut) image

Attendez un moment, et une fois terminé, "Commencez" image

Présentation du menu

Ci-dessous se trouve l'écran initial de DSX. : nouveau: Avec la mise à jour de 2017/11, ça a l'air cool. --Ce panneau s'affiche en cliquant sur "Commencer" en haut à droite.

image

―― ① C'est le centre de l'opération, créant un projet et définissant la source de données. -② Liens vers des documents et divers paramètres ―― ③ Icône de raccourci

Le menu de ① est le suivant. image --Projets --Accès aux projets et cahiers créés --Outils --Accès à Jupyter et RStudio

  • Services de données - Définition de diverses sources de données telles que les bases de données et le stockage

: nouveau: Beta, mais SPSS Modeler et Stream Designer ont également été ajoutés

Le bas de l'écran image

―― ④ Projet récemment utilisé ――⑤ Il existe de nombreux articles de blog et tutoriels dans les ressources de la communauté, vous pouvez donc commencer à étudier immédiatement à partir d'ici. ――Cliquez sur ⑥ pour demander l'assistance DSX. (Je ne l'ai jamais fait)

image

Essayez de faire un projet

"Créer un projet" avec le raccourci de ③ image

Entrez le nom de votre projet préféré dans le champ Nom

image

** Pour utiliser DSX, une instance ①Spark ②Object Storage est requise **. Vous pouvez également les créer gratuitement avec le plan Lite. S'il n'est pas défini, vous pouvez le définir immédiatement en cliquant sur ce qui suit dans ce panneau, veuillez donc spécifier à nouveau l'instance à utiliser par «Recharger» après sa création. (Si déjà défini, sélectionnez simplement)

[Si le compte n'a pas d'instance] image

Après avoir spécifié l'instance, cliquez sur "Créer" image

Le projet est terminé. Il est toujours propre, mais vous pouvez voir que la structure est telle que les blocs-notes et les actifs de données sont stockés dans le projet. À partir de là, vous pouvez créer de nouveaux blocs-notes et modèles d'apprentissage automatique.

image

Essayez de créer un nouveau bloc-notes

Créez un nouveau bloc-notes. "Ajouter des blocs-notes" en haut à droite

image

Définissez votre nom préféré pour Nom, sélectionnez la langue et la version de Spark, puis cliquez sur "Créer un bloc-notes". J'ai choisi le dernier Python 3.5 / Spark 2.1 ici. image

En conséquence, nous avons créé un environnement Jupyter Notebook familier, comme illustré ci-dessous. Le menu et la palette de couleurs en haut sont différents de Jupyter Notebook open source, mais comme la substance est Jupyter lui-même, ceux qui ont déjà de l'expérience avec Jupyter ne se perdront pas en fonctionnement.

image

À propos, les menus suivants en haut à droite sont des fonctions DSX. image

# Explication
Publier le notebook sur github
Partagez votre bloc-notes avec des liens directs, Twitter et LinkedIn
Programmation récurrente du notebook
Jeton de projet(※)Insérer
Informations sur ce notebook, telles que l'environnement, la date de création, etc.
Stockage de la version portable (jusqu'à 10))
Ajouter un commentaire
Connexion à un fichier ou à une source de données
Rechercher des signets et des ressources communautaires
  • Un jeton de projet est une information d'authentification pour accéder aux données. Voir ici pour plus de détails.

Une fois le notebook ouvert, tout ce que vous avez à faire est de commencer à coder. Comme indiqué ci-dessous, Spark Context a déjà été initialisé et numpy, pandas, matplotlib, etc., qui sont des bibliothèques standard pour la science des données en Python, peuvent également être utilisés. Au fait, seaborn n'était pas inclus, mais j'ai pu l'installer avec! Pip install seaborn. De cette manière, il est facile "d'ajouter une bibliothèque qui n'existe pas".

image

Utilisation d'un cahier préparé à l'avance

Il est difficile pour «étudier à partir de maintenant» de partir de rien, mais DSX a beaucoup de cahiers (en anglais) que «vous pouvez étudier en lisant l'explication et en la déplaçant». Essayons d'exécuter le "Notebook pour utiliser Spark avec Python".

Si vous recherchez «Apache Spark Lab» dans les blocs-notes de la communauté, vous trouverez le bloc-notes en trois parties suivant. Double-cliquez sur la partie 1 pour l'ouvrir. image

Un carnet avec des explications s'ouvrira comme indiqué ci-dessous. Sélectionnez "Copier" dans l'icône en haut à droite. image

Sélectionnez le nom du projet et l'environnement Spark à utiliser et sélectionnez "Créer un bloc-notes"

image

Après un certain temps, Notebook sera copié dans votre environnement et fonctionnera comme indiqué ci-dessous. image

En guise de préparation avant l'exécution, effacez la sortie précédente si elle reste. 「Cell」-「All Output」-「Clear」 image

Tout ce que vous avez à faire est d'exécuter la cellule en lisant l'explication. Je pense que c'est bon pour étudier parce que vous pouvez immédiatement essayer ce que vous avez appris dans le commentaire. (À propos, l'exécution des étapes de la cellule se fait avec le bouton suivant ou "Shift + Enter") image

Le contenu de ce cahier sort du cadre de cet article, je vais donc les omettre, mais il existe plusieurs autres cahiers, vous pouvez donc choisir le thème qui vous intéresse et étudier de la même manière.

C'était "j'ai essayé de le toucher".

Collaborer en équipe

Pour que plusieurs membres collaborent sur un même projet, procédez comme suit: D'après ce que j'ai essayé, il semble que les comptes Lite puissent également le faire.

  1. Cliquez sur «Invitation de l'utilisateur» dans le panneau «Administration» - «Comptes» - «Utilisateurs» dans le menu supérieur droit d'IBM Coud.

image

  1. Saisissez l'adresse e-mail de l'utilisateur que vous souhaitez inviter, définissez les droits d'accès appropriés, puis cliquez sur le bouton «Inviter l'utilisateur». image

  2. L'e-mail suivant sera envoyé aux membres invités, acceptez donc l'invitation avec «Rejoindre maintenant» et inscrivez-vous à IBM Cloud. image

image

image

  1. Lorsque le membre invité se connecte à IBM Cloud, les services liés au DSX de l'invité sont disponibles comme indiqué ci-dessous. (Cependant, le projet ne peut pas encore être utilisé)

image

  1. Les membres invités s'inscriront sur les sites DSX (https://datascience.ibm.com/). Cette action associe votre compte IBM Cloud à votre compte DSX.

image

Étant donné que vous disposez déjà d'un identifiant pour vous connecter à IBM Cloud, inscrivez-vous avec "Vous avez déjà un compte IBM Cloud?" En bas à droite. Cependant, à ce stade, l'invité n'a pas encore partagé le projet, vous ne pouvez donc rien voir.

image

  1. L'administrateur invitant ouvre le projet que vous souhaitez partager et "Ajouter" les membres invités avec "Ajouter de nouveaux collaborateurs" avec les autorisations appropriées. Bouton "Inviter" lorsque l'identifiant est ajouté au collaborateur

image

image

  1. Par l'opération ci-dessus, le nouveau membre sera notifié et le projet sera visible. image

image

Il y a à la fois un compte IBM Cloud et un compte DSX ici, et c'est compliqué, veuillez donc vous référer au document Configurer un compte d'entrepriseをご参照ください。

Notez que le bloc-notes est verrouillé pendant que quelqu'un le modifie afin que plusieurs personnes ne mettent pas à jour le même bloc-notes.

En fait, DSX est également une version sur site

Bien que cela ne soit pas présenté dans cet article, DSX a également DSX Local s'exécutant dans un cloud privé et DSX Desktop (version bêta ouverte à partir de juin 2017) qui peut être utilisé sur le bureau. Si vous êtes intéressé, veuillez rechercher Document DSX ou sur Internet. image

La collaboration avec Watson Machine Learning progresse également

DSX et WML sont des services distincts sur IBM Cloud, mais la coopération entre eux progresse régulièrement. Si vous faites de la science des données / de l'analyse prédictive sur IBM Cloud, vous utiliserez probablement les deux. Watson Machine Learning est également disponible gratuitement avec le plan Lite, alors essayez-le.

Recommended Posts