non résolu
Dans le Dockerfile
From jupyter/jupyter/pyspark-notebook:~~~~~~~~~
Chargement de Pyspark en tant que.
Python 3.7.6
pyspark 2.4.5
from pyspark.sql import SparkSession
/usr/local/spark/python/pyspark/__init__.py in <module>
49
50 from pyspark.conf import SparkConf
---> 51 from pyspark.context import SparkContext
52 from pyspark.rdd import RDD, RDDBarrier
53 from pyspark.files import SparkFiles
/usr/local/spark/python/pyspark/context.py in <module>
27 from tempfile import NamedTemporaryFile
28
---> 29 from py4j.protocol import Py4JError
30
31 from pyspark import accumulators
ModuleNotFoundError: No module named 'py4j'
Cette fois sur le notebook Jupyter car cela posera des problèmes
!pip install py4j
Correspondait avec L'erreur suivante apparaîtra, je voudrais donc l'ajouter dès que je comprendrai comment la gérer sans erreur.
ERROR: pyspark 2.4.5 has requirement py4j==0.10.7, but you'll have py4j 0.10.9.1 which is incompatible.
Recommended Posts