Ich habe das in Google Cloud Dataflow vorinstallierte Python-Paket überprüft

Google Cloud Dataflow erhält nicht viel Aufmerksamkeit, ist jedoch sehr praktisch, da Sie die Ausführungsumgebung problemlos zwischen lokal und remote wechseln können. Wenn Sie der Meinung sind, dass Sie nur die Standardbibliothek verwenden können, können Sie sie über Liste der Pips oder [Originalinstallation](http: // qiita) installieren. com / orfeon / items / 78ff952052c4bde4bcd3) ist ebenfalls möglich. Dann habe ich versucht herauszufinden, welche Bibliothek vorinstalliert war, da sie nicht herauskam, selbst wenn ich das Dokument kurz durchsucht habe.

Vorbereitung

Zuallererst ist dieser Bereich, der Optionen einstellt, @ orfeons runder pakuri ...

Optionseinstellungen


import apache_beam as beam
import apache_beam.transforms.window as window

options = beam.utils.pipeline_options.PipelineOptions()

google_cloud_options = options.view_as(beam.utils.pipeline_options.GoogleCloudOptions)
google_cloud_options.project = '{PROJECTID}'
google_cloud_options.job_name = 'test'
google_cloud_options.staging_location = 'gs://{BUCKET_NAME}/binaries'
google_cloud_options.temp_location = 'gs://{BUCKET_NAME}/temp'

worker_options = options.view_as(beam.utils.pipeline_options.WorkerOptions)
worker_options.max_num_workers = 1

# options.view_as(beam.utils.pipeline_options.StandardOptions).runner = 'DirectRunner'
options.view_as(beam.utils.pipeline_options.StandardOptions).runner = 'DataflowRunner'

p = beam.Pipeline(options=options)

Führen Sie "pip freeze" aus, um die Python-Paketliste zu protokollieren.

Ausgabeteil der Paketliste


def inspect_df(dat):
    import subprocess
    import logging
    process = subprocess.Popen('pip freeze', shell=True,
                               stdout=subprocess.PIPE, 
                               stderr=subprocess.PIPE)
    for line in process.stdout:
        logging.info(line)

Im Datenfluss ausführen. Du brauchst vielleicht keine Hallo Welt ...

Pipeline-Ausführung


(p | 'init' >> beam.Create(['hello', 'world'])
   | 'inspect' >> beam.Map(inspect_df))

p.run()

Wenn die Pipeline-Ausführung abgeschlossen ist, wird die Paketliste in das Protokoll ausgegeben. Überprüfen Sie sie daher mit der Cloud-Konsole.

Protokollprüfung

In Datenflussdokument können Sie das Protokoll im Bildschirm "Auftragsdetails" von Dataflow überprüfen, ab dem 4. März 2017 jedoch als Stackdriver -> Zur Protokollierung übergehen.

Logs_Viewer_-_Test_fx_lab.png Das Protokoll wird so ausgegeben.

Paketliste

Es ist eine Liste von Paketen, die im obigen Protokoll ausgespuckt wurden. ** Stand 4. März 2017 **

Package Version
avro 1.8.1
beautifulsoup4 4.5.1
bs4 0.0.1
crcmod 1.7
Cython 0.25.2
dataflow-worker 0.5.5
dill 0.2.5
enum34 1.1.6
funcsigs 1.0.2
futures 3.0.5
google-api-python-client 1.6.2
google-apitools 0.5.7
google-cloud-dataflow 0.5.5
google-python-cloud-debugger 1.9
googledatastore 6.4.1
grpcio 1.1.0
guppy 0.1.10
httplib2 0.9.2
mock 2.0.0
nltk 3.2.1
nose 1.3.7
numpy 1.12.0
oauth2client 2.2.0
pandas 0.18.1
pbr 1.10.0
Pillow 3.4.1
proto-google-datastore-v1 1.3.1
protobuf 3.0.0
protorpc 0.11.1
pyasn1 0.2.2
pyasn1-modules 0.0.8
python-dateutil 2.6.0
python-gflags 3.0.6
python-snappy 0.5
pytz 2016.10
PyYAML 3.11
requests 2.10.0
rsa 3.4.2
scikit-learn 0.17.1
scipy 0.17.1
six 1.10.0
tensorflow 1.0.0
tensorflow-transform 0.1.4
uritemplate 3.0.0

Liegt es daran, dass tf.transform angekommen ist? In Cloud ML ist ~~ TensorFlow ver 0.12 ~~ ** (BEARBEITEN: Die neueste Ver ist hier Sie können es mit Liste überprüfen)) ** Es ist 1.0.0 in Dataflow. scikit-learn scheint ein bisschen alt zu sein.

Obwohl das Staging etwas langsam ist, scheint Dataflow, das problemlos von Jupyter Notebook zwischen lokal und remote wechseln und vom Start bis zum Start einer Instanz ohne Erlaubnis vollständig verwaltet werden kann, ein leistungsstarkes Tool für Anwendungen wie Datenanalyse und maschinelles Lernen zu sein. ist.

Recommended Posts

Ich habe das in Google Cloud Dataflow vorinstallierte Python-Paket überprüft
Ich habe die Warteschlange in Python geschrieben
Ich habe den Stack in Python geschrieben
In Dataflow implementiert, um die hierarchische Struktur von Google Drive in Google Cloud Storage zu kopieren
Ich habe versucht, "Birthday Paradox" mit Python zu simulieren
Ich habe die Methode der kleinsten Quadrate in Python ausprobiert
Ich habe versucht, die Google Cloud Vision-API zu verwenden
Installieren Sie das Python-Paket in einer Offline-Umgebung
Ich habe versucht, die inverse Gammafunktion in Python zu implementieren
Ich habe den im Qiita Adventskalender 2016 gelöschten Kalender überprüft
Ich möchte den Fortschritt in Python anzeigen!
Ich habe versucht, die in Python installierten Pakete grafisch darzustellen
Ich habe mir die Versionen von Blender und Python angesehen
Ich möchte in Python schreiben! (3) Verwenden Sie Mock
Ich möchte R-Datensatz mit Python verwenden
Ich kann den Darknet-Befehl in Google Colaboratory nicht verwenden!
Ich habe die Referenzgeschwindigkeit überprüft, wenn ich Python-Liste, Wörterbuch und Set-Typ verwendet habe.
Ich habe Python auf Japanisch geschrieben
Python-Paketverwaltung mit IntelliJ
Finde Fehler in Python
Ich habe versucht, den Chi-Quadrat-Test in Python und Java zu programmieren.
Was ist Google Cloud Dataflow?
Ich habe versucht, die Mail-Sendefunktion in Python zu implementieren
Ich habe die Google Cloud Vision-API zum ersten Mal ausprobiert
Ich verstehe Python auf Japanisch!
Was ich in Python gelernt habe
Google sucht mit Python nach der Zeichenfolge in der letzten Zeile der Datei
Ich habe die Python-Quelle heruntergeladen
Ich habe versucht, den Inhalt jedes von Python pip gespeicherten Pakets in einer Zeile zusammenzufassen
Ich habe die Berechnungszeit des in Python geschriebenen gleitenden Durchschnitts verglichen
Ich habe versucht, das Python Package Repository (Warehouse) auszuführen, das PyPI unterstützt
Ich habe die Bewegung Python3 ausprobiert, die die Richtung im Koordinatensystem ändert
Ich habe einen AttributeError erhalten, als ich die offene Methode in Python verspottet habe
Ich habe den Code geschrieben, um den Brainf * ck-Code in Python zu schreiben
Visualisieren Sie die Häufigkeit von Wortvorkommen in Sätzen mit Word Cloud. [Python]
Versuchen Sie vorerst, FireBase Cloud Firestore mit Python zu verwenden
[Paketwolke] Verwalten Sie Python-Pakete mit der Paketwolke
Abrufen der arXiv-API in Python
Ich habe mich im Labyrinth verlaufen
Python im Browser: Brythons Empfehlung
Speichern Sie die Binärdatei in Python
Klicken Sie in Python auf die Sesami-API
[Python] Klicken Sie auf die Google Übersetzungs-API
Holen Sie sich den Desktop-Pfad in Python
Ich habe die Konstruktion der Mac Python-Umgebung überprüft
GPyOpt, ein Paket zur Bayes'schen Optimierung in Python
Ich habe an der ISUCON10-Qualifikationsrunde teilgenommen!
Laden Sie Google Drive-Dateien in Python herunter
Holen Sie sich den Skriptpfad in Python
Im Python-Befehl zeigt Python auf Python3.8
Implementieren Sie das Singleton-Muster in Python
Führen Sie XGBoost mit Cloud Dataflow (Python) aus.
Ich habe Fizz Buzz in Python geschrieben
Klicken Sie auf die Web-API in Python
Ich mochte den Tweet mit Python. ..
Ich habe versucht, den Prozess mit Python zu studieren
Scikit-learn kann nicht in Python installiert werden