Verwenden von Python und MeCab mit Azure Databricks

Zweck dieses Artikels

Ich möchte eine einfache Verarbeitung natürlicher Sprache (morphologische Analyse + α) mit MeCab in der Vorverarbeitung von Azure Data Factory durchführen. Es wäre praktisch, wenn Sie es als Funktion implementieren und später von verschiedenen Diensten wie LogicApps aufrufen könnten. Also habe ich zwei Implementierungsmethoden in Betracht gezogen.

  1. Azure-Funktionen (Verwenden von Python und MeCab mit Azure-Funktionen)
  2. Azure Databricks (dieser Artikel)

Derzeit scheinen Azure-Funktionen ausreichend zu sein, aber unter der Annahme, dass in Zukunft umfangreiche Verarbeitungen wie maschinelles Lernen durchgeführt werden, habe ich auch Databricks ausprobiert, weil ich auch den Databricks-Dienst verstehen wollte.

Wenn Sie die Schlussfolgerung zuerst schreiben, ** ・ Anfänger von Azure Databricks können die folgenden Microsoft Learns (kostenlos) leicht verstehen **

Führen Sie Data Engineering mit Azure Databricks aus https://docs.microsoft.com/ja-jp/learn/paths/data-engineering-with-databricks/

** ・ MeCab kann verwendet werden, indem "mecab-python3" mit PyPI auf dem Cluster installiert wird ** ** - Schließen Sie den Zugriff auf das Azure-Portal und die Databricks mit einem Browser ab, ohne dass lokale Umgebungseinstellungen erforderlich sind **

Es gibt viele Punkte, an denen es an Verständnis mangelt. Bitte weisen Sie auf Fehler hin. Korrigieren und entsprechend hinzufügen.

Databricks Übersicht

Apache Spark-basierte Analyseplattform. Rechenressourcen können nach Bedarf skaliert und verteilt werden.

Rechnungssystem

Es gibt einige Teile, die etwas schwer zu verstehen sind, aber die Gebühren beziehen sich ungefähr auf die folgenden beiden.

· Im Cluster bereitgestellte virtuelle Maschine (VM) · Databricks-Einheiten (DBU) basierend auf der ausgewählten VM-Instanz

Für verwaltete Festplatten, Blob-Speicher und öffentliche IP-Adressen fallen geringe Gebühren an.

Azure Databricks-Preise https://azure.microsoft.com/ja-jp/pricing/details/databricks/

Wenn Sie die 14-tägige "Testversion" verwenden, sind Sie übrigens von der Erhebung von Gebühren für DBU befreit. Beachten Sie jedoch, dass VMs wie gewohnt aufgeladen werden.

Mit Databricks (nicht Azure) können Sie es 14 Tage lang kostenlos testen, einschließlich Computerressourcen. Die Benutzeroberfläche ist für Azure Databricks und Databricks identisch. Sie können dies also versuchen. https://databricks.com/try-databricks

Sprache

Sie können beim Erstellen eines Notizbuchs zwischen Python, Scala, SQL und R wählen. Mit dem Befehl Databricks Magic können mehrere Sprachen in einem Notizbuch gemischt werden. (Wenn Sie% python am Anfang einer Zelle schreiben, wird diese Zelle von Python usw. ausgeführt.)

Erstellen Sie Databricks aus Azure Portal

Wenn Sie normal über das Azure-Portal suchen und erstellen, gibt es kein besonderes Zögern.

image.png

Ich frage mich, ob ich das Preisniveau auf Standard oder Premium einstellen soll, aber es scheint möglich zu sein, das Preisniveau später zu ändern, während die Notebook-, Benutzer- und Cluster-Konfiguration beibehalten wird, damit ich nicht zu nervös bin. Gut. In Premium werden die Funktionen für Zugriffskontrolle, Authentifizierung und Überwachungsprotokoll erweitert.

Upgrade oder Downgrade des Azure Databricks-Arbeitsbereichs https://docs.microsoft.com/ja-jp/azure/databricks/administration-guide/account-settings/account#upgrade-or-downgrade-an-azure-databricks-workspace

Wie oben erwähnt, wird Ihnen die VM-Gebühr fest in Rechnung gestellt, wenn Sie die Testversion auswählen und sie ständig verwenden. Seien Sie also vorsichtig. (DBU-Abrechnung ist ausgenommen)

Erstellen Sie einen Cluster mit Databricks

Wechseln Sie nach der Bereitstellung von Databricks zur Ressource und starten Sie den Arbeitsbereich. Wählen Sie im Bildschirm "Databricks" die Option "Cluster" und dann "Cluster erstellen". image.png

Erstellen Sie einen Cluster, indem Sie den Typ und die Anzahl der bereitzustellenden VMs festlegen. image.png

Installieren Sie MeCab in einem Databricks-Cluster

Die Bibliothek kann über den Detailbildschirm für den erstellten Cluster installiert werden. image.png

Danach können Sie das Paket mit PyPI usw. installieren. image.png

erledigt. image.png

Erstellen und verwenden Sie Notebook aus dem Arbeitsbereich

Erstellen Sie ein Notizbuch in Python über Arbeitsbereich> Erstellen> Notizbuch. Danach können Sie die Morphologie mit import Me Cab analysieren. image.png

Zusammenfassung

Im Vergleich zur Verwendung von Python mit Funktionen war die Einrichtung sehr einfach, da alles im Web abgeschlossen wurde. Selbst bei der Verwaltung mit mehreren Personen ist dies einfach, da keine Anpassung an die lokale Umgebung erforderlich ist.

Kosten

Die Kosten für die standardmäßig angegebene Instanz "DS3 v2" sind wie folgt. Die Zeit (in Minuten), in der die Instanz aktiv ist, wird Ihnen in Rechnung gestellt.

image.png

Wenn sich beispielsweise die Anzahl der Rechenknoten (Worker) verdoppelt, wird der Abrechnungsbetrag ebenfalls verdoppelt. (Sowohl VM als auch DBU kosten doppelt)

Azure Databricks-Preise https://azure.microsoft.com/ja-jp/pricing/details/databricks/

Recommended Posts

Verwenden von Python und MeCab mit Azure Databricks
Verwenden Sie Python und MeCab mit Azure-Funktionen
Verwenden Sie Python und word2vec (gelernt) mit Azure Databricks
Bei Verwendung von MeCab mit virtualenv python
Von Python bis zur Verwendung von MeCab (und CaboCha)
Tweet-Analyse mit Python, Mecab und CaboCha
Ich verwende Tox und Python 3.3 mit Travis-CI
Verwenden Sie Mecab mit Python 3
Ich habe versucht, Mecab mit Python2.7, Ruby2.3, PHP7 zu verwenden
Programmieren mit Python und Tkinter
Ver- und Entschlüsselung mit Python
[Python] Morphologische Analyse mit MeCab
Python und Hardware-Verwenden von RS232C mit Python-
[S3] CRUD mit S3 unter Verwendung von Python [Python]
Verwenden von Quaternion mit Python ~ numpy-quaternion ~
[Python] Verwenden von OpenCV mit Python (Basic)
E-Mail Hipchat mit Postfix, Fluentd und Python auf Azure
Python mit Pyenv und Venv
Verwenden von OpenCV mit Python @Mac
Funktioniert mit Python und R.
Senden Sie mit Python mit Google Mail
IP-Spoof mit tor unter macOS und mit Python prüfen
Die I2C-Kommunikation erfolgt durch Steuerung der seriellen Kommunikation mit Python (über ein USBGPIO8-Gerät).
Verwenden von MLflow mit Databricks ② - Visualisierung experimenteller Parameter und Metriken -
Serielle Kommunikationssteuerung mit Python- und SPI-Kommunikation (mit USBGPIO8-Gerät)
Kommunizieren Sie mit FX-5204PS mit Python und PyUSB
Vervollständigung von Python mit Emacs mit Company-Jedi
Leuchtendes Leben mit Python und OpenCV
Harmonischer Mittelwert von Python (mit SciPy)
Roboter läuft mit Arduino und Python
Installieren Sie Python 2.7.9 und Python 3.4.x mit pip.
[Python] Verwenden von OpenCV mit Python (Bildfilterung)
Neuronales Netzwerk mit OpenCV 3 und Python 3
AM-Modulation und Demodulation mit Python
Scraping mit Node, Ruby und Python
Verwenden von Rstan aus Python mit PypeR
Authentifizierung mit Tweepy-User-Authentifizierung und Anwendungsauthentifizierung (Python)
[Python] Verwenden von OpenCV mit Python (Bildtransformation)
Scraping mit Python, Selen und Chromedriver
Hinweise zur Verwendung von MeCab aus Python
[Python] Verwenden von OpenCV mit Python (Kantenerkennung)
Kratzen mit Python und schöner Suppe
JSON-Codierung und -Decodierung mit Python
Hadoop-Einführung und MapReduce mit Python
[GUI in Python] PyQt5-Drag & Drop-
Verwenden von Sitzungen und Reflexionen mit SQL Alchemy
Lesen und Schreiben von NetCDF mit Python
Clustering und Visualisierung mit Python und CytoScape
Ich habe mit PyQt5 und Python3 gespielt
Hinweise zur Verwendung von rstrip mit Python.
Lesen und Schreiben von CSV mit Python
Mehrfachintegration mit Python und Sympy
Koexistenz von Python2 und 3 mit CircleCI (1.0)
Vorsichtsmaßnahmen bei Verwendung von sechs mit Python 2.5
Sugoroku-Spiel und Zusatzspiel mit Python
FM-Modulation und Demodulation mit Python
Test der Spracherkennung mit Azure mit Python (Eingabe vom Mikrofon)