Construí Spark 1.4 a partir del maestro de desarrollo de GH y la compilación salió bien. Pero cuando lo hago bin/pyspark, obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?
Construí Spark 1.4 a partir del maestro de desarrollo de GH y la compilación salió bien. Pero cuando lo hago bin/pyspark, obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?
Respuestas:
Simplemente configure la variable de entorno:
export PYSPARK_PYTHON=python3
en caso de que desee que esto sea un cambio permanente, agregue esta línea al script pyspark.
export PYSPARK_PYTHON=python3.5para Python 3.5
$SPARK_HOME/conf/spark-env.shlo que spark-submitusa el mismo intérprete también.
PYSPARK_PYTHON=python3
./bin/pyspark
Si desea ejecutar en IPython Notebook, escriba:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
Si python3no es accesible, debe pasarle la ruta en su lugar.
Tenga en cuenta que la documentación actual (a partir de 1.4.1) tiene instrucciones desactualizadas. Afortunadamente, ha sido parcheado .
Eche un vistazo al archivo. La línea shebang probablemente apunta al binario 'env' que busca en la ruta el primer ejecutable compatible.
Puede cambiar python a python3. Cambie el env para usar directamente el binario python3 codificado. O ejecute el binario directamente con python3 y omita la línea shebang.
PYSPARK_PYTHONvariable de entorno.
Para Jupyter Notebook, edite el spark-env.sharchivo como se muestra a continuación desde la línea de comando
$ vi $SPARK_HOME/conf/spark-env.sh
Vaya al final del archivo y copie y pegue estas líneas
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
Luego, simplemente ejecute el siguiente comando para iniciar pyspark en el cuaderno
$ pyspark
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pysparken cuyo caso ejecuta el portátil IPython 3.