Apache Beam 2.0.x mit Google Cloud Dataflow beginnend mit IntelliJ und Gradle

Apache Beam 2.0.x mit Google Cloud Dataflow beginnend mit IntelliJ und Gradle

Grundsätzlich wurde in der Dokumentation nur ein Schnellstart in Maven geschrieben. Notieren Sie sich daher, wie Sie Apache Beam mit Gradle und IntelliJ starten.

Dieses Mal habe ich nicht darüber nachgedacht, die Option für die Pipeline anzugeben, aber vorerst ist dies eine Einstellung, damit sie in der lokalen Umgebung betrieben werden kann. Es besteht die Möglichkeit, dass in Zukunft zusätzliche Beschreibungen vorgenommen werden, z. B. die Angabe einer Option für die Pipeline.

Methode

1 Erstellen Sie ein neues Projekt mit IntelliJ IDEA

1.png

2 Wählen Sie Gradle und Java

2.png

3 Geben Sie die Gruppen-ID und die Artefakt-ID an

3.png

groupId: Name des Projektstammpakets Artefakt-ID: Projektname

4 Verschiedene Einstellungen

Stellen Sie wie folgt ein

4.png

5 Legen Sie den Projektnamen und den Projektstandort fest

Wenn es Ihnen nichts ausmacht, angezeigt zu bleiben, fahren Sie fort

6 Wechseln Sie zum folgenden build.gradle

group 'hoge'
version '1.0-SNAPSHOT'

apply plugin: 'java'

sourceCompatibility = 1.8

repositories {
    mavenCentral()
}

dependencies {
    compile group: 'com.google.cloud.dataflow', name: 'google-cloud-dataflow-java-sdk-all', version: '2.0.0'
    testCompile group: 'junit', name: 'junit', version: '4.11'
}

7 Warten Sie auf den Build

Wenn Sie build.gradle wie oben beschrieben ändern und eine Weile warten, erstellt IntelliJ es für Sie, sodass Sie Apache Beam verwenden können.

Maven-Repository

Es kann aus dem Maven-Repository unten abgerufen werden, wie das von mir gepostete build.gradle. Maven Repository: com.google.cloud.dataflow

Die Seite, die ich als Referenz verwendet habe

Gradle-Anfänger starten Gradle-Qiita

Maven Repository: com.google.cloud.dataflow

Recommended Posts

Apache Beam 2.0.x mit Google Cloud Dataflow beginnend mit IntelliJ und Gradle
Einführung in Apache Beam mit Google Cloud Dataflow (über 2.0.x-Serie) ~ Combine Edition ~
Einführung in Apache Beam mit Google Cloud Dataflow (über 2.0.x-Serie) ~ Basic Group By Key ~
Einführung in Apache Beam mit Cloud-Datenfluss (über 2.0.0-Serie) ~ Grundlegender Teil ~ ParDo ~
Word Count mit Apache Spark und Python (Mac OS X)
Laden Sie Dateien mit Django-Speicher in Google Cloud Storages hoch und löschen Sie sie
Was ist Google Cloud Dataflow?
Installieren Sie Python 2.7.9 und Python 3.4.x mit pip.
Apache Beam (Datenfluss) Praktische Einführung [Python]
Führen Sie XGBoost mit Cloud Dataflow (Python) aus.
Erhalten Sie Tweets mit der Google Cloud-Funktion und speichern Sie Bilder automatisch in Google Fotos