Cómo ejecutar una aplicación pyspark en el símbolo del sistema de Windows 8


8

Tengo un script de Python escrito con Spark Context y quiero ejecutarlo. Intenté integrar IPython con Spark, pero no pude hacerlo. Entonces, traté de configurar la ruta de chispa [Carpeta de instalación / bin] como una variable de entorno y llamé al comando spark-submit en el indicador de cmd. Creo que está encontrando el contexto de chispa, pero produce un gran error. ¿Puede alguien ayudarme con este problema?

Ruta de variable de entorno: C: /Users/Name/Spark-1.4; C: /Users/Name/Spark-1.4/bin

Después de eso, en cmd prompt: spark-submit script.py

ingrese la descripción de la imagen aquí


Respuestas:


3

Soy bastante nuevo en Spark y he descubierto cómo integrarme con IPython en Windows 10 y 7. Primero, verifique las variables de entorno para Python y Spark. Aquí están los míos: SPARK_HOME: C: \ spark-1.6.0-bin-hadoop2.6 \ Yo uso Enthought Canopy, por lo que Python ya está integrado en la ruta de mi sistema. A continuación, inicie Python o IPython y use el siguiente código. Si obtiene un error, verifique qué obtiene para 'spark_home'. De lo contrario, debería funcionar bien.

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

pySpark en IPython



1

La respuesta de Johnnyboycurtis funciona para mí. Si está utilizando Python 3, use el siguiente código. Su código no funciona en Python 3. Estoy editando solo la última línea de su código.

import os
import sys


spark_home = os.environ.get('SPARK_HOME', None)
print(spark_home)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.1-bin-hadoop2.6/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.


filename=os.path.join(spark_home, 'python/pyspark/shell.py')
exec(compile(open(filename, "rb").read(), filename, 'exec'))

He estado usando los códigos proporcionados por "user2543622" con éxito, y recientemente encontré un problema con el siguiente mensaje de error. ¿Sabes qué salió mal? Gracias. Excepción: el proceso de puerta de enlace Java salió antes de enviar al controlador su número de puerto
user27155

0

Finalmente resolví el problema. Tuve que establecer la ubicación de pyspark en la variable PATH y la ubicación py4j-0.8.2.1-src.zip en la variable PYTHONPATH.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.