: warning: Dieser Artikel wurde erstmals im Juni 2017 veröffentlicht, ist jedoch zu diesem Zeitpunkt ([Februar 2019]) bereits veraltet. Der Artikel selbst bleibt unverändert zum Zwecke der Archivierung, verweisen jedoch nicht auf den Inhalt dieses Artikels. Alternative Artikel sind: </ font>
Hallo! Am 01.06.2017 ** Das Data Science Experience-Symbol wurde in der IBM Cloud angezeigt! Selbst wenn ich mit ** aufgeregt bin, denke ich, dass die meisten Leute eine coole Reaktion haben: "Was ist Data Science Experience?" (Gackli ..) Es gibt einige Artikel zu Data Science Experience (DSX) auf Qiita, aber ich möchte kurz "Was ist das?" Vorstellen, nachdem ich im IBM Cloud-Katalog registriert wurde. Ich tat.
(Ich denke, die folgenden Ausdrücke sind für erfahrene Qiita-Leser schnell.) Kurz gesagt, wir bieten eine Reihe von Entwicklungs- und Ausführungsumgebungen für die folgende Open-Data-Science-Analyse, die in letzter Zeit an Dynamik gewonnen hat. Es ist ein SaaS-Dienst. Als Benutzer nehmen wir ein Team von Datenwissenschaftlern an, die codieren können. (Wenn Sie nicht gerne codieren: neu: SPSS ist auch unter DSX verfügbar! :-))
Außerdem
Es ist auch beigefügt.
Nun, die aktuelle Situation ist ** kurz gesagt, es ist ein SaaS-Dienst, der Open Source-Dinge integriert **. Man kann also sagen, dass Sie eine ähnliche Umgebung selbst erstellen können, aber ich denke, dass dies die folgenden Vorteile hat.
DSX scheint besonders darauf ausgerichtet zu sein, die Produktivität des Analyseteams zu steigern. Jeder Datenwissenschaftler hat seine Lieblingssprache und Werkzeuge, in denen er gut ist, wie "Ich möchte es in R machen" und "Nun, es ist von nun an KI, also ist es Python." Wenn Sie individuell analysieren möchten, können Sie alles verwenden, was Sie möchten. Wenn Sie jedoch "Analysearbeit" mit ** "Team" ** und ** "Arbeit" ** ausführen, ist dies nicht der Fall. Wenn Sie die Sprach- und Toolumgebung nicht vereinheitlichen, ist es für das Team unpraktisch, die Analyseergebnisse auszuwerten und weiterzugeben. Es ist jedoch ziemlich schmerzhaft und moralisch, gezwungen zu sein, zu entscheiden, "diese Analysearbeit ist xxx". .. .. DSX scheint auf eine Umgebung zu zielen, in der das Team diesen Bereich mit seiner bevorzugten Sprache und seinen bevorzugten Tools analysieren und die Ergebnisse zusammenarbeiten kann. (Es kann aus der Tatsache abgeleitet werden, dass das Preissystem nicht der Preis eines Benutzers ist, sondern wie viel es für fünf Personen ist.)
Die Data Science Experience selbst wurde 2016 als Service für SaaS angeboten, unabhängig von Bluemix, jedoch nur mit einer 30-Tage-Testversion. (Das heißt, es konnte nach Ablauf der Testphase nicht mehr verwendet werden.): Neu: Danach wurde es im Bluemix-Katalog veröffentlicht und die kostenlose Version wurde 2017/06 bereitgestellt. Mit der Namensänderung von Bluemix zu IBM Cloud 2017/11 wird es für lange Zeit kostenlos sein. Der Lite-Plan wurde angeboten, aber DSX und WML sind auch im Lite-Plan verfügbar. Der Punkt ist (obwohl die Ressourcen begrenzt sind) ** Lite Plan ermöglicht es Ihnen, es kostenlos und kostenlos zu testen **, also ist es ein guter Ort, um "Jupyter / Python / Scala + Spark zu studieren". Ich denke nicht. (Tutotial für Studien- und Musterhefte sind ebenfalls reichlich vorbereitet)
Die Ressourcen, die im Lite-Plan verwendet werden können, sind übrigens wie folgt. Obwohl es klein ist, denke ich, dass das "Studien" -Niveau ausreichend ist. (Der Lite-Plan hat dieselbe Funktionalität wie die kostenpflichtige Enterprise-Version, nur die verfügbaren Maschinenressourcen und die Anzahl der Spark-Cluster sind unterschiedlich.) Data Science Experience
Im Folgenden werde ich versuchen, die Funktionen von DSX in der Free-Umgebung als Einführung einzuführen, von der Erstellung eines Projekts bis zur Ausführung eines vorhandenen Notizbuchs mit Erläuterungen zu Python / Spark. In DSX werden Ressourcen wie verschiedene Notizbücher und Daten mithilfe einer Verwaltungseinheit namens "Projekt" gesammelt, verwaltet und gemeinsam genutzt.
Melden Sie sich bei IBM Cloud an und wählen Sie Data Science Experience aus dem Katalog aus.
Geben Sie im nächsten Bildschirm dem Dienstnamen einen Namen Ihrer Wahl, wählen Sie Lite Plan und dann "Erstellen". Setzen Sie für den Plan: Warnung: Lite ** "Bereitstellungsbereich" auf "Südliche USA" **. Ab November 2017 ist der Lite-Plan nur in den "südlichen Vereinigten Staaten" verfügbar. (Ist es angemessen, weil die größte Auswahl an Dienstleistungen in den "südlichen Vereinigten Staaten" liegt?)
Wenn sich der Bildschirm ändert, wird "Erste Schritte" angezeigt.
Wählen Sie die IBM Cloud-Organisation und den für DSX zu verwendenden Speicherplatz aus und klicken Sie auf "Weiter" (Standardmäßig ist dies in Ordnung).
Warten Sie eine Weile und wenn es fertig ist, "Erste Schritte"
Unten sehen Sie den Startbildschirm von DSX. : new: Mit dem Update von 2017/11 sieht es cool aus. --Dieses Bedienfeld wird angezeigt, indem Sie oben rechts auf "Erste Schritte" klicken.
―― ① Dies ist das Zentrum des Vorgangs, bei dem ein Projekt erstellt und die Datenquelle festgelegt wird. -② Links zu Dokumenten und verschiedenen Einstellungen ―― ③ Verknüpfungssymbol
Das Menü von ① ist wie folgt. --Projekte - Zugriff auf erstellte Projekte und Notizbücher --Tools - Zugriff auf Jupyter und RStudio --Datendienste --Definieren verschiedener Datenquellen wie Datenbanken und Speicher
: new: Beta, aber auch SPSS Modeler und Stream Designer wurden hinzugefügt
Der untere Bildschirmrand
―― ④ Kürzlich verwendetes Projekt ――⑤ In den Community-Ressourcen befinden sich viele Blog-Artikel und Tutorials, sodass Sie sofort von hier aus mit dem Lernen beginnen können. ――Klicken Sie auf ⑥, um den DSX-Support zu fragen. (Ich habe es nie getan)
"Projekt erstellen" mit der Verknüpfung ③
Geben Sie Ihren bevorzugten Projektnamen in das Feld Name ein
** Um DSX verwenden zu können, ist parkSpark ②Object Storage-Instanz erforderlich **. Sie können diese auch kostenlos mit dem Lite-Plan erstellen. Wenn es nicht definiert ist, können Sie es sofort definieren, indem Sie in diesem Bereich auf Folgendes klicken. Geben Sie daher die Instanz an, die von "Neu laden" nach dem Erstellen erneut verwendet werden soll. (Wenn bereits definiert, wählen Sie einfach)
[Wenn das Konto keine Instanz hat]
Klicken Sie nach Angabe der Instanz auf "Erstellen".
Das Projekt ist abgeschlossen. Es ist immer noch sauber, aber Sie können sehen, dass die Struktur so ist, dass Notizbücher und Datenbestände im Projekt gespeichert werden. Von hier aus können Sie neue Notizbücher und Modelle für maschinelles Lernen erstellen.
Erstellen Sie ein neues Notizbuch. "Notizbücher hinzufügen" oben rechts
Legen Sie Ihren Lieblingsnamen für Name fest, wählen Sie die Sprache und die Spark-Version aus und klicken Sie auf "Notizbuch erstellen". Ich habe hier das neueste Python 3.5 / Spark 2.1 ausgewählt.
Aus diesem Grund haben wir eine vertraute Jupyter Notebook-Umgebung erstellt, wie unten gezeigt. Das Menü und das Farbschema oben unterscheiden sich vom Open-Source-Jupyter-Notizbuch. Da es sich jedoch um Jupyter selbst handelt, gehen diejenigen, die bereits Erfahrung mit Jupyter haben, im Betrieb nicht verloren.
Die folgenden Menüs oben rechts sind übrigens DSX-Funktionen.
# | Erläuterung |
---|---|
① | Veröffentlichen Sie das Notizbuch in Github |
② | Teilen Sie Ihr Notizbuch mit direkten Links, Twitter und LinkedIn |
③ | Wiederkehrende Planung des Notebooks |
④ | Projekt-Token(※)Einfügen |
⑤ | Informationen zu diesem Notizbuch, z. B. Umgebung, Erstellungsdatum usw. |
⑥ | Speicher für Notebook-Versionen (bis zu 10)) |
⑦ | Einen Kommentar hinzufügen |
⑧ | Datei- oder Datenquellenverbindung |
⑨ | Suchen Sie nach Lesezeichen und Community-Ressourcen |
Sobald das Notizbuch geöffnet ist, müssen Sie nur noch mit dem Codieren beginnen. Der Spark-Kontext wurde bereits wie unten gezeigt initialisiert, und Numpy, Pandas, Matplotlib usw., Standardbibliotheken für Data Science in Python, können ebenfalls verwendet werden. Seaborn war übrigens nicht im Lieferumfang enthalten, aber ich konnte es mit! Pip install seaborn installieren. Auf diese Weise ist es einfach, "eine nicht vorhandene Bibliothek hinzuzufügen".
Es ist schwer für "von jetzt an lernen", von nichts zu beginnen, aber DSX hat viele Notizbücher (auf Englisch), die "Sie lernen können, während Sie die Erklärung lesen und sie tatsächlich bewegen". Versuchen wir, das vorhandene "Notizbuch zur Verwendung von Spark mit Python" auszuführen.
Wenn Sie in Community-Notizbüchern nach "Apache Spark Lab" suchen, finden Sie das folgende dreiteilige Notizbuch. Doppelklicken Sie auf Teil 1, um ihn zu öffnen.
Ein Notizbuch mit Erklärungen wird wie unten gezeigt geöffnet. Wählen Sie "Kopieren" aus dem Symbol oben rechts.
Wählen Sie den Projektnamen und die Spark-Umgebung aus und wählen Sie "Notizbuch erstellen".
Nach einer Weile wird das Notebook in Ihre Umgebung kopiert und funktioniert wie unten gezeigt.
Löschen Sie als Vorbereitung vor der Ausführung die vorherige Ausgabe, falls diese erhalten bleibt. 「Cell」-「All Output」-「Clear」
Alles, was Sie tun müssen, ist, die Zelle auszuführen, während Sie die Erklärung lesen. Ich denke, es ist gut zum Lernen, weil Sie sofort versuchen können, was Sie im Kommentar gelernt haben. (Die schrittweise Ausführung der Zelle erfolgt übrigens mit der folgenden Schaltfläche oder "Umschalt + Eingabetaste")
Der Inhalt dieses Notizbuchs fällt nicht in den Geltungsbereich dieses Artikels, daher werde ich ihn weglassen, aber es gibt verschiedene andere Notizbücher, sodass Sie das Thema, an dem Sie interessiert sind, auswählen und auf die gleiche Weise studieren können.
Das war "Ich habe versucht, es zu berühren".
Gehen Sie folgendermaßen vor, damit mehrere Mitglieder an einem einzigen Projekt zusammenarbeiten: Soweit ich es versucht habe, scheint es, dass Lite-Konten dies auch können.
Geben Sie die E-Mail-Adresse des Benutzers ein, den Sie einladen möchten, legen Sie die entsprechenden Zugriffsrechte fest und klicken Sie dann auf die Schaltfläche "Benutzer einladen".
Die folgende E-Mail wird an die eingeladenen Mitglieder gesendet. Nehmen Sie die Einladung mit "Jetzt beitreten" an und melden Sie sich bei IBM Cloud an.
Da Sie bereits eine ID zum Anmelden bei IBM Cloud haben, melden Sie sich unten rechts mit "Haben Sie bereits ein IBM Cloud-Konto?" An. Zu diesem Zeitpunkt hat der Eingeladene das Projekt jedoch noch nicht freigegeben, sodass Sie nichts sehen können.
Hier gibt es sowohl ein IBM Cloud-Konto als auch ein DSX-Konto. Dies ist kompliziert. Weitere Informationen finden Sie im Dokument Einrichten eines Unternehmenskontosをご参照ください。
Beachten Sie, dass das Notizbuch gesperrt ist, während jemand es bearbeitet, sodass nicht mehrere Personen dasselbe Notizbuch aktualisieren.
Obwohl in diesem Artikel nicht vorgestellt, verfügt DSX auch über DSX Local, das in einer privaten Cloud ausgeführt wird, und DSX Desktop, das auf dem Desktop verwendet werden kann (offene Beta ab Juni 2017). Wenn Sie interessiert sind, suchen Sie bitte im DSX-Dokument oder im Internet.
DSX und WML sind separate Services in der IBM Cloud, aber die Zusammenarbeit zwischen ihnen schreitet stetig voran. Wenn Sie Data Science / Predictive Analysis in der IBM Cloud durchführen, werden Sie wahrscheinlich beide verwenden. Watson Machine Learning ist mit dem Lite-Plan ebenfalls kostenlos verfügbar. Probieren Sie es also aus.