Dieser Eintrag ist eine Fortsetzung der folgenden beiden Einträge.
In Bezug auf die Datenanalyseumgebung gibt es verschiedene Denkweisen hinsichtlich der Anzahl der Analysten, des Geschäftstyps des Unternehmens, des Skalensinns usw., und es ist jedes Mal ärgerlich, wenn ich die Geschichte höre. Ich habe ein Gefühl für die Zukunft von Datalab, aber abschließend scheint Datalab allein leider nicht funktionsfähig genug zu sein. Jetzt, da die neue Analysetechnologie namens Deep Learning zu einem gewissen Grad zum De-facto-Standard geworden ist, halte ich es für sinnvoll, die Analyseumgebung neu zu organisieren, und werde sie daher aufschreiben.
Rettys Fall wurde ein heißes Thema und war für mich hilfreich. Deep Learning ist heutzutage populär geworden, daher wird es sich in der Praxis in diese Richtung niederlassen. Unser Unternehmen hat eine Analyseumgebung in eine ähnliche Richtung geschaffen.
Wie ich vor langer Zeit in der Social-Game-Branche gesehen habe, habe ich das Spiel mit Data Mining verbessert und ○ Milliarden Yen verdient, aber es hat nicht so viele Auswirkungen, aber Herr Retty hat oben erwähnt Erholung mehr als die Investition scheint abgeschlossen zu sein, und es scheint definitiv einen Grund zu geben, in die Analyseumgebung zu investieren.
Für die Geschichte von hier wird Folgendes angenommen.
Ich werde es zusammen mit dem Übergang der Analyseumgebung schreiben.
Es wird zu Beginn der Analyse so aussehen.
Ich denke, dass es unvermeidlich ist, wenn die Anzahl der Personen gering ist und die Kosten für die Analyse nicht ausgegeben werden können.
Als nächsten Schritt möchten wir einige Datenquellen haben.
Wie üblich scheint die Analyseumgebung selbst anders zu sein, aber ich denke, dass durch die Vereinheitlichung der Datenquellen viele Verbesserungen erzielt werden. Aufgrund des Fehlens einer Analyseumgebung ist es jedoch teuer, die Analyse als Team durchzuführen, und jede Person bleibt auf der Ebene der unabhängigen Analysearbeit.
Der nächste Schritt ist die Zusammenarbeit bei der Analyse. In dieser Phase ist es schwierig, die Analysearbeit zu unterteilen und Dinge wie OJT auszuführen, wenn die Analyseumgebung nicht vorbereitet ist. Daher muss die Analyseumgebung vorbereitet werden.
――In den meisten Fällen belassen Sie den Installationsvorgang usw. im Dokument. Wenn Sie neu auf der Site sind, müssen Sie eine eigene Analyseumgebung erstellen.
Allmählich wird es eine wichtige Phase sein, die Analyseumgebung aus Sicht des Ingenieurs zu standardisieren und gemeinsam zu nutzen. Vor dem Aufkommen des tiefen Lernens kann gesagt werden, dass zu diesem Zeitpunkt eine etwas zufriedenstellende Analyseumgebung geschaffen wurde.
Es gibt Probleme beim Betrieb als Analyseumgebung mit der Konfiguration bis zu diesem Punkt.
Das heißt, da der Datenverarbeitungsteil (DWH, Hadoop / Hive, Redshift usw.) gemeinsam genutzt wird, werden Abfragen (verdammte Abfragen) erstellt, die andere und den Administrator stören. Der Administrator des DWH-Teils muss die verdammte Abfrage im Auge behalten und sie töten.
Aus Sicht des Analysten besteht jedoch die Tendenz, die Datenverarbeitung so weit wie möglich mit Abfragen fortzusetzen, wenn es keine klaren Regeln gibt, und neu hinzugekommene Personen werden verdammte Abfragen ohne Böswilligkeit ausgeben Ich werde. Das verdammte Abfrageproblem ist im Allgemeinen ein Chaos und die Wahrnehmung, dass es keine grundlegende Lösung gibt.
Dann gibt es als neuer Trend den Trend, GPU einzuführen, wenn Deep Learning richtig angegangen wird. Im Allgemeinen sind GPU-Maschinen etwas teurer zu beschaffen als CPU-Maschinen und noch nicht billig und einfach in der Cloud zu verwenden. Anstatt eine große Menge an GPU-Ressourcen zu benötigen, besteht die Tendenz, bestenfalls Hochleistungs-GPUs und mehrere GPUs für die Analyse auf Testbasis einzuführen, und ein Fall, in dem die Umgebung selbst, in der mehrere GPUs verwendet werden können, vor Ort erstellt wird. Scheint am meisten zu sein.
In diesem Fall wird der GPU-Computer häufig gemeinsam genutzt, und in diesem Fall wird anscheinend häufig das Docker-Image verwendet. Gleiches gilt für Rettys Fall. Da Deep Learning viele Daten erfordert, ist es selbstverständlich, eine große Festplatte an den GPU-Computer anzuschließen und in der Nähe zu platzieren.
Natürlich wird die GPU gemeinsam genutzt, sodass der Austausch wie das Ausleihen und Zurückgeben der GPU in Chats und dergleichen beginnt. Um die Sache noch schlimmer zu machen, braucht tiefes Lernen Zeit zum Lernen. Wenn Sie es also einmal ausgeliehen haben, können Sie es nicht einfach zurückgeben. Wenn sich die Arbeit, die die GPU verwenden möchte, überschneidet, sind die Ressourcen sofort erschöpft, und wenn sie umgekehrt nicht verwendet wird, wird sie überhaupt nicht verwendet. Da die Daten auch vor Ort betrieben werden, können Probleme wie Sicherung und Kapazität auftreten.
Wie passt der datenbankzentrierte Workflow hierher? Ich denke, es wird für das Folgende sein.
――Sie können sich für diejenigen einsetzen, die GCE verwenden
--Datalab kann auf GCS zugreifen, sodass das Kapazitätsproblem praktisch gelöst zu sein scheint
Also, Datalab, lasst es uns alle benutzen! Ich würde gerne sagen, aber es ist zusammengebrochen, weil ich GPU Instant nicht verwenden kann (lacht) Es ist bedauerlich, bedauerlich. Wie bereits erwähnt, weist Datalab auch [Python 2-Systemprobleme] auf (https://github.com/googledatalab/datalab/issues/902).
Es sind noch viele Probleme zu lösen, aber ich möchte persönlich auf die Datenanalyseumgebung auf GCP achten, die sich auf Datalab konzentriert.
Die Geschichte wird mit Cloud NEXT Extended [Abwesenheitsstudie am 1. April](https :: //algyan.connpass.com/event/52494/).
Recommended Posts