Construí Spark 1.4 a partir del maestro de desarrollo de GH y la compilación salió bien. Pero cuando lo hago bin/pyspark
, obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?
Construí Spark 1.4 a partir del maestro de desarrollo de GH y la compilación salió bien. Pero cuando lo hago bin/pyspark
, obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?
Respuestas:
Simplemente configure la variable de entorno:
export PYSPARK_PYTHON=python3
en caso de que desee que esto sea un cambio permanente, agregue esta línea al script pyspark.
export PYSPARK_PYTHON=python3.5
para Python 3.5
$SPARK_HOME/conf/spark-env.sh
lo que spark-submit
usa el mismo intérprete también.
PYSPARK_PYTHON=python3
./bin/pyspark
Si desea ejecutar en IPython Notebook, escriba:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
Si python3
no es accesible, debe pasarle la ruta en su lugar.
Tenga en cuenta que la documentación actual (a partir de 1.4.1) tiene instrucciones desactualizadas. Afortunadamente, ha sido parcheado .
Eche un vistazo al archivo. La línea shebang probablemente apunta al binario 'env' que busca en la ruta el primer ejecutable compatible.
Puede cambiar python a python3. Cambie el env para usar directamente el binario python3 codificado. O ejecute el binario directamente con python3 y omita la línea shebang.
PYSPARK_PYTHON
variable de entorno.
Para Jupyter Notebook, edite el spark-env.sh
archivo como se muestra a continuación desde la línea de comando
$ vi $SPARK_HOME/conf/spark-env.sh
Vaya al final del archivo y copie y pegue estas líneas
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
Luego, simplemente ejecute el siguiente comando para iniciar pyspark en el cuaderno
$ pyspark
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
en cuyo caso ejecuta el portátil IPython 3.