[PYTHON] [Alter Artikel] Data Science Experience (DSX) ist jetzt im Lite-Plan (viel kostenlos) in der IBM Cloud verfügbar, daher habe ich ihn berührt. ★ 2017/11 Update

image

: warning: Dieser Artikel wurde erstmals im Juni 2017 veröffentlicht, ist jedoch zu diesem Zeitpunkt ([Februar 2019]) bereits veraltet. Der Artikel selbst bleibt unverändert zum Zwecke der Archivierung, verweisen jedoch nicht auf den Inhalt dieses Artikels. Alternative Artikel sind: </ font>


[Hinweis] Dieser Artikel wurde 2017/06 mit dem Titel "Die kostenlose Version von Data Science Experience (DSX) ist jetzt auf Bluemix verfügbar, daher habe ich es versucht." Hochgeladen. Da es jedoch eine Änderung der Benutzeroberfläche im Zusammenhang mit dem Start des Lite-Kontos und von DSX / WML in 2017/11 gab, habe ich die Beschreibung überprüft und erneut einen Screenshot erstellt. Der Inhalt des Artikels ist fast der gleiche wie zuvor. Der geänderte Teil ist geschrieben als: neu :. </ font>

Einführung

Hallo! Am 01.06.2017 ** Das Data Science Experience-Symbol wurde in der IBM Cloud angezeigt! Selbst wenn ich mit ** aufgeregt bin, denke ich, dass die meisten Leute eine coole Reaktion haben: "Was ist Data Science Experience?" (Gackli ..) Es gibt einige Artikel zu Data Science Experience (DSX) auf Qiita, aber ich möchte kurz "Was ist das?" Vorstellen, nachdem ich im IBM Cloud-Katalog registriert wurde. Ich tat.

Was ist Data Science Experience (DSX)?

(Ich denke, die folgenden Ausdrücke sind für erfahrene Qiita-Leser schnell.) Kurz gesagt, wir bieten eine Reihe von Entwicklungs- und Ausführungsumgebungen für die folgende Open-Data-Science-Analyse, die in letzter Zeit an Dynamik gewonnen hat. Es ist ein SaaS-Dienst. Als Benutzer nehmen wir ein Team von Datenwissenschaftlern an, die codieren können. (Wenn Sie nicht gerne codieren: neu: SPSS ist auch unter DSX verfügbar! :-))

  • Scala / Python auf Jupyter Notebook (*) --R auf R Studio
  • Spark Cluster --Brunel (Visualisierung) / Apache Toree (Spark- und Jupyter-Integration) usw.

Außerdem

  • Artikel für das Studium ・ Tutotial und offene Daten
  • Kollaborationsfunktion für das Analyseteam --Notebook GitHub Integration

Es ist auch beigefügt.

  • Ist es Jupyter Hub, weil es tatsächlich von einem Team entwickelt werden kann? Ich weiß nicht, was Sie verwenden.

image

Was haben Sie gern?

Nun, die aktuelle Situation ist ** kurz gesagt, es ist ein SaaS-Dienst, der Open Source-Dinge integriert **. Man kann also sagen, dass Sie eine ähnliche Umgebung selbst erstellen können, aber ich denke, dass dies die folgenden Vorteile hat.

  • (Da es sich um SaaS handelt) Es ist zunächst nicht erforderlich, eine Infrastruktur einzurichten oder eine Umgebung festzulegen
  • Keine Kenntnisse über Infrastruktureinstellungen wie die Zusammenarbeit zwischen Jupyter und Spark erforderlich ――Daher können Sie sofort mit der Entwicklung des Codes beginnen (oder Sie können versuchen, sofort zu lernen).
  • Durch die Multiling-Umgebung (Polyglot) müssen Analyseteams keine "Tools und Umgebungen vereinheitlichen". ――Die Spark-Cluster-Umgebung muss nicht erstellt und betrieben werden (dies ist ziemlich schwierig).
  • Einfache Arbeit mit Diensten in der IBM Cloud wie dashDB und Object Storage
  • Sie können Ihr Notebook problemlos auf Github bereitstellen

DSX scheint besonders darauf ausgerichtet zu sein, die Produktivität des Analyseteams zu steigern. Jeder Datenwissenschaftler hat seine Lieblingssprache und Werkzeuge, in denen er gut ist, wie "Ich möchte es in R machen" und "Nun, es ist von nun an KI, also ist es Python." Wenn Sie individuell analysieren möchten, können Sie alles verwenden, was Sie möchten. Wenn Sie jedoch "Analysearbeit" mit ** "Team" ** und ** "Arbeit" ** ausführen, ist dies nicht der Fall. Wenn Sie die Sprach- und Toolumgebung nicht vereinheitlichen, ist es für das Team unpraktisch, die Analyseergebnisse auszuwerten und weiterzugeben. Es ist jedoch ziemlich schmerzhaft und moralisch, gezwungen zu sein, zu entscheiden, "diese Analysearbeit ist xxx". .. .. DSX scheint auf eine Umgebung zu zielen, in der das Team diesen Bereich mit seiner bevorzugten Sprache und seinen bevorzugten Tools analysieren und die Ergebnisse zusammenarbeiten kann. (Es kann aus der Tatsache abgeleitet werden, dass das Preissystem nicht der Preis eines Benutzers ist, sondern wie viel es für fünf Personen ist.)

Übergang von DSX in der IBM Cloud

Die Data Science Experience selbst wurde 2016 als Service für SaaS angeboten, unabhängig von Bluemix, jedoch nur mit einer 30-Tage-Testversion. (Das heißt, es konnte nach Ablauf der Testphase nicht mehr verwendet werden.): Neu: Danach wurde es im Bluemix-Katalog veröffentlicht und die kostenlose Version wurde 2017/06 bereitgestellt. Mit der Namensänderung von Bluemix zu IBM Cloud 2017/11 wird es für lange Zeit kostenlos sein. Der Lite-Plan wurde angeboten, aber DSX und WML sind auch im Lite-Plan verfügbar. Der Punkt ist (obwohl die Ressourcen begrenzt sind) ** Lite Plan ermöglicht es Ihnen, es kostenlos und kostenlos zu testen **, also ist es ein guter Ort, um "Jupyter / Python / Scala + Spark zu studieren". Ich denke nicht. (Tutotial für Studien- und Musterhefte sind ebenfalls reichlich vorbereitet)

Die Ressourcen, die im Lite-Plan verwendet werden können, sind übrigens wie folgt. Obwohl es klein ist, denke ich, dass das "Studien" -Niveau ausreichend ist. (Der Lite-Plan hat dieselbe Funktionalität wie die kostenpflichtige Enterprise-Version, nur die verfügbaren Maschinenressourcen und die Anzahl der Spark-Cluster sind unterschiedlich.) Data Science Experience

image

Ich werde es versuchen

Im Folgenden werde ich versuchen, die Funktionen von DSX in der Free-Umgebung als Einführung einzuführen, von der Erstellung eines Projekts bis zur Ausführung eines vorhandenen Notizbuchs mit Erläuterungen zu Python / Spark. In DSX werden Ressourcen wie verschiedene Notizbücher und Daten mithilfe einer Verwaltungseinheit namens "Projekt" gesammelt, verwaltet und gemeinsam genutzt. image

Erstellen Sie zunächst eine DSX-Service-Instanz in der IBM Cloud

Melden Sie sich bei IBM Cloud an und wählen Sie Data Science Experience aus dem Katalog aus. image

Geben Sie im nächsten Bildschirm dem Dienstnamen einen Namen Ihrer Wahl, wählen Sie Lite Plan und dann "Erstellen". Setzen Sie für den Plan: Warnung: Lite ** "Bereitstellungsbereich" auf "Südliche USA" **. Ab November 2017 ist der Lite-Plan nur in den "südlichen Vereinigten Staaten" verfügbar. (Ist es angemessen, weil die größte Auswahl an Dienstleistungen in den "südlichen Vereinigten Staaten" liegt?) image

Wenn sich der Bildschirm ändert, wird "Erste Schritte" angezeigt. image

Wählen Sie die IBM Cloud-Organisation und den für DSX zu verwendenden Speicherplatz aus und klicken Sie auf "Weiter" (Standardmäßig ist dies in Ordnung). image

Warten Sie eine Weile und wenn es fertig ist, "Erste Schritte" image

Das Menü vorstellen

Unten sehen Sie den Startbildschirm von DSX. : new: Mit dem Update von 2017/11 sieht es cool aus. --Dieses Bedienfeld wird angezeigt, indem Sie oben rechts auf "Erste Schritte" klicken.

image

―― ① Dies ist das Zentrum des Vorgangs, bei dem ein Projekt erstellt und die Datenquelle festgelegt wird. -② Links zu Dokumenten und verschiedenen Einstellungen ―― ③ Verknüpfungssymbol

Das Menü von ① ist wie folgt. image --Projekte - Zugriff auf erstellte Projekte und Notizbücher --Tools - Zugriff auf Jupyter und RStudio --Datendienste --Definieren verschiedener Datenquellen wie Datenbanken und Speicher

: new: Beta, aber auch SPSS Modeler und Stream Designer wurden hinzugefügt

Der untere Bildschirmrand image

―― ④ Kürzlich verwendetes Projekt ――⑤ In den Community-Ressourcen befinden sich viele Blog-Artikel und Tutorials, sodass Sie sofort von hier aus mit dem Lernen beginnen können. ――Klicken Sie auf ⑥, um den DSX-Support zu fragen. (Ich habe es nie getan)

image

Versuchen Sie ein Projekt zu machen

"Projekt erstellen" mit der Verknüpfung ③ image

Geben Sie Ihren bevorzugten Projektnamen in das Feld Name ein

image

** Um DSX verwenden zu können, ist parkSpark ②Object Storage-Instanz erforderlich **. Sie können diese auch kostenlos mit dem Lite-Plan erstellen. Wenn es nicht definiert ist, können Sie es sofort definieren, indem Sie in diesem Bereich auf Folgendes klicken. Geben Sie daher die Instanz an, die von "Neu laden" nach dem Erstellen erneut verwendet werden soll. (Wenn bereits definiert, wählen Sie einfach)

[Wenn das Konto keine Instanz hat] image

Klicken Sie nach Angabe der Instanz auf "Erstellen". image

Das Projekt ist abgeschlossen. Es ist immer noch sauber, aber Sie können sehen, dass die Struktur so ist, dass Notizbücher und Datenbestände im Projekt gespeichert werden. Von hier aus können Sie neue Notizbücher und Modelle für maschinelles Lernen erstellen.

image

Versuchen Sie, ein neues Notizbuch zu erstellen

Erstellen Sie ein neues Notizbuch. "Notizbücher hinzufügen" oben rechts

image

Legen Sie Ihren Lieblingsnamen für Name fest, wählen Sie die Sprache und die Spark-Version aus und klicken Sie auf "Notizbuch erstellen". Ich habe hier das neueste Python 3.5 / Spark 2.1 ausgewählt. image

Aus diesem Grund haben wir eine vertraute Jupyter Notebook-Umgebung erstellt, wie unten gezeigt. Das Menü und das Farbschema oben unterscheiden sich vom Open-Source-Jupyter-Notizbuch. Da es sich jedoch um Jupyter selbst handelt, gehen diejenigen, die bereits Erfahrung mit Jupyter haben, im Betrieb nicht verloren.

image

Die folgenden Menüs oben rechts sind übrigens DSX-Funktionen. image

# Erläuterung
Veröffentlichen Sie das Notizbuch in Github
Teilen Sie Ihr Notizbuch mit direkten Links, Twitter und LinkedIn
Wiederkehrende Planung des Notebooks
Projekt-Token(※)Einfügen
Informationen zu diesem Notizbuch, z. B. Umgebung, Erstellungsdatum usw.
Speicher für Notebook-Versionen (bis zu 10))
Einen Kommentar hinzufügen
Datei- oder Datenquellenverbindung
Suchen Sie nach Lesezeichen und Community-Ressourcen
  • Ein Projekttoken ist eine Authentifizierungsinformation für den Zugriff auf Daten. Weitere Informationen finden Sie unter hier.

Sobald das Notizbuch geöffnet ist, müssen Sie nur noch mit dem Codieren beginnen. Der Spark-Kontext wurde bereits wie unten gezeigt initialisiert, und Numpy, Pandas, Matplotlib usw., Standardbibliotheken für Data Science in Python, können ebenfalls verwendet werden. Seaborn war übrigens nicht im Lieferumfang enthalten, aber ich konnte es mit! Pip install seaborn installieren. Auf diese Weise ist es einfach, "eine nicht vorhandene Bibliothek hinzuzufügen".

image

Verwendung eines im Voraus vorbereiteten Notebooks

Es ist schwer für "von jetzt an lernen", von nichts zu beginnen, aber DSX hat viele Notizbücher (auf Englisch), die "Sie lernen können, während Sie die Erklärung lesen und sie tatsächlich bewegen". Versuchen wir, das vorhandene "Notizbuch zur Verwendung von Spark mit Python" auszuführen.

Wenn Sie in Community-Notizbüchern nach "Apache Spark Lab" suchen, finden Sie das folgende dreiteilige Notizbuch. Doppelklicken Sie auf Teil 1, um ihn zu öffnen. image

Ein Notizbuch mit Erklärungen wird wie unten gezeigt geöffnet. Wählen Sie "Kopieren" aus dem Symbol oben rechts. image

Wählen Sie den Projektnamen und die Spark-Umgebung aus und wählen Sie "Notizbuch erstellen".

image

Nach einer Weile wird das Notebook in Ihre Umgebung kopiert und funktioniert wie unten gezeigt. image

Löschen Sie als Vorbereitung vor der Ausführung die vorherige Ausgabe, falls diese erhalten bleibt. 「Cell」-「All Output」-「Clear」 image

Alles, was Sie tun müssen, ist, die Zelle auszuführen, während Sie die Erklärung lesen. Ich denke, es ist gut zum Lernen, weil Sie sofort versuchen können, was Sie im Kommentar gelernt haben. (Die schrittweise Ausführung der Zelle erfolgt übrigens mit der folgenden Schaltfläche oder "Umschalt + Eingabetaste") image

Der Inhalt dieses Notizbuchs fällt nicht in den Geltungsbereich dieses Artikels, daher werde ich ihn weglassen, aber es gibt verschiedene andere Notizbücher, sodass Sie das Thema, an dem Sie interessiert sind, auswählen und auf die gleiche Weise studieren können.

Das war "Ich habe versucht, es zu berühren".

Als Team zusammenarbeiten

Gehen Sie folgendermaßen vor, damit mehrere Mitglieder an einem einzigen Projekt zusammenarbeiten: Soweit ich es versucht habe, scheint es, dass Lite-Konten dies auch können.

  1. Klicken Sie im oberen rechten Menü von IBM Coud im Bereich "Administration" - "Accounts" - "Users" auf "User Invitation".

image

  1. Geben Sie die E-Mail-Adresse des Benutzers ein, den Sie einladen möchten, legen Sie die entsprechenden Zugriffsrechte fest und klicken Sie dann auf die Schaltfläche "Benutzer einladen". image

  2. Die folgende E-Mail wird an die eingeladenen Mitglieder gesendet. Nehmen Sie die Einladung mit "Jetzt beitreten" an und melden Sie sich bei IBM Cloud an. image

image

image

  1. Wenn sich das eingeladene Mitglied bei IBM Cloud anmeldet, sind die DSX-bezogenen Dienste des eingeladenen Teilnehmers wie unten gezeigt verfügbar. (Das Projekt kann jedoch noch nicht verwendet werden.)

image

  1. Eingeladene Mitglieder melden sich auf den DSX-Sites (https://datascience.ibm.com/) an. Diese Aktion ordnet Ihr IBM Cloud-Konto Ihrem DSX-Konto zu.

image

Da Sie bereits eine ID zum Anmelden bei IBM Cloud haben, melden Sie sich unten rechts mit "Haben Sie bereits ein IBM Cloud-Konto?" An. Zu diesem Zeitpunkt hat der Eingeladene das Projekt jedoch noch nicht freigegeben, sodass Sie nichts sehen können.

image

  1. Der einladende Administrator öffnet das Projekt, das Sie freigeben möchten, und "Hinzufügen" der eingeladenen Mitglieder mit den entsprechenden Berechtigungen unter "Neue Mitarbeiter hinzufügen". Schaltfläche "Einladen", wenn ID zu Collaborator hinzugefügt wird

image

image

  1. Durch die obige Operation wird das neue Mitglied benachrichtigt und das Projekt wird sichtbar. image

image

Hier gibt es sowohl ein IBM Cloud-Konto als auch ein DSX-Konto. Dies ist kompliziert. Weitere Informationen finden Sie im Dokument Einrichten eines Unternehmenskontosをご参照ください。

Beachten Sie, dass das Notizbuch gesperrt ist, während jemand es bearbeitet, sodass nicht mehrere Personen dasselbe Notizbuch aktualisieren.

Tatsächlich ist DSX auch eine On-Premise-Version

Obwohl in diesem Artikel nicht vorgestellt, verfügt DSX auch über DSX Local, das in einer privaten Cloud ausgeführt wird, und DSX Desktop, das auf dem Desktop verwendet werden kann (offene Beta ab Juni 2017). Wenn Sie interessiert sind, suchen Sie bitte im DSX-Dokument oder im Internet. image

Die Zusammenarbeit mit Watson Machine Learning schreitet ebenfalls voran

DSX und WML sind separate Services in der IBM Cloud, aber die Zusammenarbeit zwischen ihnen schreitet stetig voran. Wenn Sie Data Science / Predictive Analysis in der IBM Cloud durchführen, werden Sie wahrscheinlich beide verwenden. Watson Machine Learning ist mit dem Lite-Plan ebenfalls kostenlos verfügbar. Probieren Sie es also aus.

Recommended Posts