Fügen Sie Jupyter in den von Amazon EMR gestarteten Spark-Cluster ein Wenn Sie PySpark verwenden, erhalten Sie außerdem eine Zusammenfassung des Umgangs mit den gestauten Punkten.
Diesmal zur Überprüfung
Anwendungen: Alle Anwendungen: Hadoop 2.6.0, Hive 1.0.0, Hue 3.7.1, Mahout 0.11.0, Pig 0.14.0 und Spark 1.5.0 Instanztyp: m3.xlarge Anzahl der Instanzen: 1 Zugriff: Standard
Bereiten.
Wenn Sie Hue einschließen, verwendet Hue Port 8888 Jupyter kann Port 8888 nicht mehr verwenden (Standard). Machen Sie es in diesem Fall vom PC aus zugänglich Machen Sie ein Loch in die Sicherheitsgruppe.
EC2, das von EMR gestartet wurde, hat Python Version 2.6.9. Ändern Sie es daher in 2.7. Da 2.7 ursprünglich installiert ist, ändern Sie einfach das Verbindungsziel.
sudo unlink /usr/bin/python
sudo ln -s /usr/bin/python2.7 /usr/bin/python
pip hat ein Upgrade durchgeführt und das Verbindungsziel geändert.
sudo pip install -U pip
sudo ln -s /usr/bin/pip-2.7 /usr/bin/pip
Derzeit (Oktober 2015) ist Jupyter 4.0.6 installiert.
sudo pip install jupyter
jupyter-notebook
Erstellen Sie eine Vorlageneinstellungsdatei (Ausgabeziel ist ~ / .jupyter / jupyter_notebook_config.py)
jupyter notebook --generate-config
py:~/.jupyter/jupyter_notebook_config.py
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8888
Wenn Sie Hue einschließen, gehen Sie zu c.NotebookApp.port Legen Sie einen anderen Port als 8888 fest, der in der Sicherheitsgruppe geöffnet ist.
Scheint das Profil aus Jupyter 4.X zu verschwinden? Sie können eine Konfigurationsdatei mit der Konfigurationsoption angeben. Beispiel)
jupyter-notebook --config='~/.ipython/profile_nbservers/ipython_config.py'
Wenn Sie den Verzeichnispfad in der Umgebungsvariablen JUPYTER_CONFIG_DIR angeben In diesem Verzeichnis wird jupyter_notebook_config.py gelesen.
Spark.master von Garn auf Lokal geändert. (Wenn Sie dies nicht tun, wird SparkContext gestoppt.)
/usr/lib/spark/conf/spark-defaults.conf
# spark.master yarn
spark.master local
Zuvor in ~ / .ipython / profile_ \ <Profilname > / startup / 00- \ <Profilname > - setup.py Ich habe mich auf Spark vorbereitet, aber das konnte ich auch nicht Ich führe den folgenden Befehl auf meinem Jupyter-Notizbuch aus.
export SPARK_HOME='/usr/lib/spark'
import os
import sys
spark_home = os.environ.get('SPARK_HOME', None)
if not spark_home:
raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.8.2.1-src.zip'))
execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))
Es kann als Datei gelesen werden.
Recommended Posts