[PYTHON] Japanische Übersetzung des Apache Spark-Dokuments - Einreichen von Anträgen

Zunaechst

Japanische Übersetzung der Apache Spark-Dokumentation. Bitte überprüfen Sie andere Seiten, während sie übersetzt werden.

Wenn Sie etwas falsch mit Ihrer Übersetzung finden, teilen Sie uns dies bitte in den Kommentaren oder auf Facebook mit.

Submitting Applications

The spark-submit script in Spark’s bin directory is used to launch applications on a cluster. It can use all of Spark’s supported cluster managers through a uniform interface so you don’t have to configure your application specially for each one.

Das Spark-Submit-Skript im bin-Verzeichnis von Spark wird verwendet, um die Anwendung im Cluster zu starten. Dies sind alle Spark-unterstützten Thruster-Manager, die ohne spezielle Einstellungen in Ihrer Anwendung verfügbar sind.

Bündeln der Abhängigkeiten Ihrer Anwendung - Erstellen Sie Abhängigkeiten

If your code depends on other projects, you will need to package them alongside your application in order to distribute the code to a Spark cluster. To do this, to create an assembly jar (or “uber” jar) containing your code and its dependencies. Both sbt and Maven have assembly plugins. When creating assembly jars, list Spark and Hadoop as provided dependencies; these need not be bundled since they are provided by the cluster manager at runtime. Once you have an assembled jar you can call the bin/spark-submit script as shown here while passing your jar.

Wenn Ihr Code von anderen Projekten abhängt, müssen Sie diese für die Bereitstellung in Spark zusammenfassen. Aus diesem Grund wird ein einzelnes ausführbares JAR (oder "Uber" -JAR) Ihres Codes einschließlich Abhängigkeiten generiert. Sowohl sbt als auch Maven haben Plugins für die Aggregation. Spark und Hadoop werden auch als Abhängigkeiten beim Generieren des Assembly-Jars aufgeführt. Diese werden vom Laufzeitcluster-Manager bereitgestellt und müssen nicht gebündelt werden. Nachdem Sie die Gläser zusammengefasst haben, können Sie das Skript bin / spark-submit wie hier beschrieben aufrufen.

For Python, you can use the --py-files argument of spark-submit to add .py, .zip or .egg files to be distributed with your application. If you depend on multiple Python files we recommend packaging them into a .zip or .egg.

Das Spark-Submit-Skript enthält ein Argument --py-files, um .py-, .zip- und .egg-Dateien mit Ihrer Anwendung in Python bereitzustellen. Wenn Sie sich auf mehrere Python-Dateien verlassen, ist es eine gute Idee, diese zu einer einzigen Zip- oder Egg-Datei zu kombinieren.

Starten von Anwendungen mit Spark-Submit - Starten mit Spark-Submit

Once a user application is bundled, it can be launched using the bin/spark-submit script. This script takes care of setting up the classpath with Spark and its dependencies, and can support different cluster managers and deploy modes that Spark supports:

Sobald die Benutzeranwendung gebündelt ist, kann sie mit dem Skript bin / spark-submit gestartet werden. Dieses Skript kümmert sich um Spark und seine Abhängigkeitsklassenpfade. Und es unterstützt den Pro-Modus mit verschiedenen Cluster-Managern und Spark-Unterstützung.

./bin/spark-submit \
  --class <main-class>
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  ... # other options
  <application-jar> \
  [application-arguments]

Some of the commonly used options are:

Einige generische Optionen

--class: The entry point for your application (e.g. org.apache.spark.examples.SparkPi)

--class: Anwendungseinstiegspunkt (Klassenname: z. B.org.apache.spark.examples.SparkPi)

--master: The master URL for the cluster (e.g. spark://23.195.26.187:7077)

--master: URL des Masterknotens für den Cluster

--deploy-mode: Whether to deploy your driver program within the cluster or run it locally as an external client (either cluster or client)

--deploy-mode: Gibt an, ob das Treiberprogramm im Cluster bereitgestellt oder lokal als externer Client ausgeführt wird. (Cluster / Client)

application-jar: Path to a bundled jar including your application and all dependencies. The URL must be globally visible inside of your cluster, for instance, an hdfs:// path or a file:// path that is present on all nodes.

application-jar: Der Pfad zur JAR-Datei, die Ihre gebündelte Anwendung und alle Abhängigkeiten enthält. Die URL muss von Ihrem Cluster für die Instanz global sichtbar sein. Muss auf allen Knoten vorhanden sein, z. B. hdfs: // path oder file: // path.

application-arguments: Arguments passed to the main method of your main class, if any

Anwendungsargumente: Sie können die Argumente schreiben, die an Ihre Hauptklasse übergeben werden.

For Python applications, simply pass a .py file in the place of instead of a JAR, and add Python .zip, .egg or .py files to the search path with --py-files.

Geben Sie für Python-Anwendungen einfach die .py-Datei anstelle von JAR an und geben Sie die Python-ZIP-, .egg- oder .py-Datei mit --py-files an.

To enumerate all options available to spark-submit run it with --help. Here are a few examples of common options:

Wenn Sie alle Optionen anzeigen möchten, führen Sie --help aus. Hier sind nur einige Beispiele.

Run application locally on 8 cores

./bin/spark-submit
--class org.apache.spark.examples.SparkPi
--master local[8]
/path/to/examples.jar
100

Run on a Spark standalone cluster

./bin/spark-submit
--class org.apache.spark.examples.SparkPi
--master spark://207.184.161.138:7077
--executor-memory 20G
--total-executor-cores 100
/path/to/examples.jar
1000

Run on a YARN cluster

export HADOOP_CONF_DIR=XXX ./bin/spark-submit
--class org.apache.spark.examples.SparkPi
--master yarn-cluster \ # can also be yarn-client for client mode --executor-memory 20G
--num-executors 50
/path/to/examples.jar
1000

Run a Python application on a cluster

./bin/spark-submit
--master spark://207.184.161.138:7077
examples/src/main/python/pi.py
1000

Master-URLs - Master-URLs

The master URL passed to Spark can be in one of the following formats:

Bitte verwenden Sie die Master-URL in einem der folgenden Formate.

Laden der Konfiguration aus einer Datei - Laden Sie die Konfiguration aus einer Datei

The spark-submit script can load default Spark configuration values from a properties file and pass them on to your application. By default it will read options from conf/spark-defaults.conf in the Spark directory. For more detail, see the section on loading default configurations.

Das Spark-Submit-Skript kann die Einstellungen aus der Eigenschaftendatei Ihrer Anwendung lesen. Standardmäßig werden die Optionen aus der Datei conf / spark-defaults.conf im Spark-Verzeichnis gelesen. Weitere Informationen finden Sie im Abschnitt Standardeinstellungen laden.

http://spark.apache.org/docs/latest/configuration.html#loading-default-configurations

Loading default Spark configurations this way can obviate the need for certain flags to spark-submit. For instance, if the spark.master property is set, you can safely omit the --master flag from spark-submit. In general, configuration values explicitly set on a SparkConf take the highest precedence, then flags passed to spark-submit, then values in the defaults file.

Durch das Laden der Standardeinstellungen von Spark müssen nicht mehrere Flags mit spark-submit verwendet werden. Für die Instanz können Sie das Flag --master sicher im Befehl weglassen, sobald spark.masterproperty gesetzt ist. Im Allgemeinen hat der in SparkConf explizit festgelegte Einstellungswert die höchste Priorität, dann das Spark-Submit-Flag und dann die Standarddatei.

If you are ever unclear where configuration options are coming from, you can print out fine-grained debugging information by running spark-submit with the --verbose option.

Wenn Sie nicht wissen, woher Ihre Einstellungen stammen, können Sie Spark-Submit mit der Option --verbose ausführen, um eine detaillierte Debugging-Ausgabe zu erhalten.

Erweitertes Abhängigkeitsmanagement - Erweitertes Abhängigkeitsmanagement

When using spark-submit, the application jar along with any jars included with the --jars option will be automatically transferred to the cluster. Spark uses the following URL scheme to allow different strategies for disseminating jars:

Bei Verwendung von spark-submit wird alles, was in der Option --jars der Anwendungs-JAR enthalten ist, automatisch in den Cluster übertragen. Spark verwendet das folgende URL-Schema, um verschiedene Möglichkeiten für nicht auflösbare Gläser zuzulassen.

file: - Absolute paths and file:/ URIs are served by the driver’s HTTP file server, and every executor pulls the file from the driver HTTP server.

Datei: URI des vollständigen Pfads, der vom HTTP-Dateiserver des Treibers bereitgestellt wird. Jeder Executer erhält die Datei vom HTTP-Server des Treibers.

hdfs:, http:, https:, ftp: - these pull down files and JARs from the URI as expected

hdf :, http :, https :, ftp Rufen Sie die Datei oder JAR von dem vom URI erwarteten Speicherort ab.

local: - a URI starting with local:/ is expected to exist as a local file on each worker node. This means that no network IO will be incurred, and works well for large files/JARs that are pushed to each worker, or shared via NFS, GlusterFS, etc.

Lokal: Der URI, der mit local: / beginnt, wird voraussichtlich als lokale Datei für jeden Arbeitsknoten vorhanden sein. Dies bedeutet, dass keine Netzwerk-E / A erforderlich ist und Sie ein besseres Verhalten für große Dateien und JARs erwarten können, die bereits von jedem Worker gepusht oder mit NFS, GlusterFS usw. gemeinsam genutzt wurden.

Note that JARs and files are copied to the working directory for each SparkContext on the executor nodes. This can use up a significant amount of space over time and will need to be cleaned up. With YARN, cleanup is handled automatically, and with Spark standalone, automatic cleanup can be configured with the spark.worker.cleanup.appDataTtl property.

Die JAR und die Dateien werden in das SparkContext-Arbeitsverzeichnis jedes ausführbaren Knotens kopiert. Dies muss gereinigt werden, um eine große Menge an Fläche für eine lange Zeit zu reservieren. Bei YARN werden Bereinigungen automatisch durchgeführt. Für Spark Standalone Sie können die automatische Bereinigung mit der Eigenschaft spark.worker.cleanup.appDataTtl festlegen.

For python, the equivalent --py-files option can be used to distribute .egg, .zip and .py libraries to executors.

Gleichwertige Funktionalität für Python Die Option --py-files liefert dem Executer die Bibliotheken .egg, .zip und .py.

More Information

Once you have deployed your application, the cluster mode overview describes the components involved in distributed execution, and how to monitor and debug applications.

Sobald Sie Ihre Anwendung bereitgestellt haben, werden die esoterischen Komponenten beschrieben, die in der Übersicht über den Clustermodus ausgeführt werden, wie Sie sie überwachen und wie Sie Ihre Anwendung debuggen.

Original) Cluster-Modus-Übersicht http://spark.apache.org/docs/latest/cluster-overview.html Übersetzung) http://qiita.com/mychaelstyle/items/610b432a1ef1a7e3d2a0

My Facebook https://www.facebook.com/masanori.nakashima

Recommended Posts

Japanische Übersetzung des Apache Spark-Dokuments - Einreichen von Anträgen
Japanische Übersetzung des Apache Spark-Dokuments - Schnellstart
Japanische Übersetzung des Apache Spark-Dokuments - Übersicht über den Cluster-Modus
sosreport Japanische Übersetzung
Mann systemd japanische Übersetzung
stromlinienförmige Erklärung japanische Übersetzung
Streamlit Tutorial Japanische Übersetzung
Apache Spark Starter Kits
man systemd.service Japanische Übersetzung
man nftables Japanische Übersetzung
Dockerfile Reference Japanische Übersetzung
docker-compose --help japanische Übersetzung
Docker helfen japanische Übersetzung
Pandas Benutzerhandbuch "Multi-Index / Advanced Index" (offizielles Dokument Japanische Übersetzung)
Pandas Benutzerhandbuch "Manipulieren fehlender Daten" (offizielles Dokument Japanische Übersetzung)