Ich möchte eine einfache Verarbeitung natürlicher Sprache (morphologische Analyse + α) mit MeCab in der Vorverarbeitung von Azure Data Factory durchführen. Es wäre praktisch, wenn Sie es als Funktion implementieren und später von verschiedenen Diensten wie LogicApps aufrufen könnten. Also habe ich zwei Implementierungsmethoden in Betracht gezogen.
Derzeit scheinen Azure-Funktionen ausreichend zu sein, aber unter der Annahme, dass in Zukunft umfangreiche Verarbeitungen wie maschinelles Lernen durchgeführt werden, habe ich auch Databricks ausprobiert, weil ich auch den Databricks-Dienst verstehen wollte.
Wenn Sie die Schlussfolgerung zuerst schreiben, ** ・ Anfänger von Azure Databricks können die folgenden Microsoft Learns (kostenlos) leicht verstehen **
Führen Sie Data Engineering mit Azure Databricks aus https://docs.microsoft.com/ja-jp/learn/paths/data-engineering-with-databricks/
** ・ MeCab kann verwendet werden, indem "mecab-python3" mit PyPI auf dem Cluster installiert wird ** ** - Schließen Sie den Zugriff auf das Azure-Portal und die Databricks mit einem Browser ab, ohne dass lokale Umgebungseinstellungen erforderlich sind **
Es gibt viele Punkte, an denen es an Verständnis mangelt. Bitte weisen Sie auf Fehler hin. Korrigieren und entsprechend hinzufügen.
Apache Spark-basierte Analyseplattform. Rechenressourcen können nach Bedarf skaliert und verteilt werden.
Es gibt einige Teile, die etwas schwer zu verstehen sind, aber die Gebühren beziehen sich ungefähr auf die folgenden beiden.
· Im Cluster bereitgestellte virtuelle Maschine (VM) · Databricks-Einheiten (DBU) basierend auf der ausgewählten VM-Instanz
Für verwaltete Festplatten, Blob-Speicher und öffentliche IP-Adressen fallen geringe Gebühren an.
Azure Databricks-Preise https://azure.microsoft.com/ja-jp/pricing/details/databricks/
Wenn Sie die 14-tägige "Testversion" verwenden, sind Sie übrigens von der Erhebung von Gebühren für DBU befreit. Beachten Sie jedoch, dass VMs wie gewohnt aufgeladen werden.
Mit Databricks (nicht Azure) können Sie es 14 Tage lang kostenlos testen, einschließlich Computerressourcen. Die Benutzeroberfläche ist für Azure Databricks und Databricks identisch. Sie können dies also versuchen. https://databricks.com/try-databricks
Sie können beim Erstellen eines Notizbuchs zwischen Python, Scala, SQL und R wählen. Mit dem Befehl Databricks Magic können mehrere Sprachen in einem Notizbuch gemischt werden. (Wenn Sie% python am Anfang einer Zelle schreiben, wird diese Zelle von Python usw. ausgeführt.)
Wenn Sie normal über das Azure-Portal suchen und erstellen, gibt es kein besonderes Zögern.
Ich frage mich, ob ich das Preisniveau auf Standard oder Premium einstellen soll, aber es scheint möglich zu sein, das Preisniveau später zu ändern, während die Notebook-, Benutzer- und Cluster-Konfiguration beibehalten wird, damit ich nicht zu nervös bin. Gut. In Premium werden die Funktionen für Zugriffskontrolle, Authentifizierung und Überwachungsprotokoll erweitert.
Upgrade oder Downgrade des Azure Databricks-Arbeitsbereichs https://docs.microsoft.com/ja-jp/azure/databricks/administration-guide/account-settings/account#upgrade-or-downgrade-an-azure-databricks-workspace
Wie oben erwähnt, wird Ihnen die VM-Gebühr fest in Rechnung gestellt, wenn Sie die Testversion auswählen und sie ständig verwenden. Seien Sie also vorsichtig. (DBU-Abrechnung ist ausgenommen)
Wechseln Sie nach der Bereitstellung von Databricks zur Ressource und starten Sie den Arbeitsbereich. Wählen Sie im Bildschirm "Databricks" die Option "Cluster" und dann "Cluster erstellen".
Erstellen Sie einen Cluster, indem Sie den Typ und die Anzahl der bereitzustellenden VMs festlegen.
Die Bibliothek kann über den Detailbildschirm für den erstellten Cluster installiert werden.
Danach können Sie das Paket mit PyPI usw. installieren.
erledigt.
Erstellen Sie ein Notizbuch in Python über Arbeitsbereich> Erstellen> Notizbuch. Danach können Sie die Morphologie mit import Me Cab analysieren.
Im Vergleich zur Verwendung von Python mit Funktionen war die Einrichtung sehr einfach, da alles im Web abgeschlossen wurde. Selbst bei der Verwaltung mit mehreren Personen ist dies einfach, da keine Anpassung an die lokale Umgebung erforderlich ist.
Die Kosten für die standardmäßig angegebene Instanz "DS3 v2" sind wie folgt. Die Zeit (in Minuten), in der die Instanz aktiv ist, wird Ihnen in Rechnung gestellt.
Wenn sich beispielsweise die Anzahl der Rechenknoten (Worker) verdoppelt, wird der Abrechnungsbetrag ebenfalls verdoppelt. (Sowohl VM als auch DBU kosten doppelt)
Azure Databricks-Preise https://azure.microsoft.com/ja-jp/pricing/details/databricks/
Recommended Posts