Aquí hay siete pasos para instalar Spark en Windows 10 y ejecutarlo desde Python:
Paso 1: descargue el archivo Spark 2.2.0 tar (Tape Archive) gz en cualquier carpeta F desde este enlace: https://spark.apache.org/downloads.html . Descomprímalo y copie la carpeta descomprimida en la carpeta deseada A. Cambie el nombre de la carpeta spark-2.2.0-bin-hadoop2.7 a spark.
Deje que la ruta a la carpeta Spark sea C: \ Users \ Desktop \ A \ spark
Paso 2: descargue el archivo hardoop 2.7.3 tar gz en la misma carpeta F desde este enlace: https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Descomprímalo y copie la carpeta descomprimida en la misma carpeta A. Cambie el nombre de la carpeta de Hadoop-2.7.3.tar a hadoop. Deje que la ruta a la carpeta hadoop sea C: \ Users \ Desktop \ A \ hadoop
Paso 3: crea un nuevo archivo de texto de bloc de notas. Guarde este archivo de bloc de notas vacío como winutils.exe (con Guardar como tipo: Todos los archivos). Copie este archivo winutils.exe de O KB a su carpeta bin en Spark - C: \ Users \ Desktop \ A \ spark \ bin
Paso 4: Ahora, tenemos que agregar estas carpetas al entorno del sistema.
4a: Cree una variable de sistema (no una variable de usuario, ya que la variable de usuario heredará todas las propiedades de la variable de sistema) Nombre de la variable: SPARK_HOME Valor de la variable: C: \ Users \ Desktop \ A \ spark
Busque la variable de sistema Path y haga clic en editar. Verá múltiples caminos. No elimine ninguna de las rutas. Agregue este valor de variable -; C: \ Users \ Desktop \ A \ spark \ bin
4b: cree una variable de sistema
Nombre de la variable: HADOOP_HOME Valor de la variable: C: \ Users \ Desktop \ A \ hadoop
Busque la variable de sistema Path y haga clic en editar. Agregue este valor de variable -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Crea una variable de sistema Nombre de variable: JAVA_HOME Busca Java en Windows. Haga clic derecho y haga clic en abrir la ubicación del archivo. Tendrá que volver a hacer clic derecho en cualquiera de los archivos java y hacer clic en abrir la ubicación del archivo. Utilizará la ruta de esta carpeta. O puede buscar C: \ Archivos de programa \ Java. Mi versión de Java instalada en el sistema es jre1.8.0_131. Valor de la variable: C: \ Archivos de programa \ Java \ jre1.8.0_131 \ bin
Busque la variable de sistema Path y haga clic en editar. Agregue este valor de variable -; C: \ Archivos de programa \ Java \ jre1.8.0_131 \ bin
Paso 5: Abra el símbolo del sistema y vaya a la carpeta Spark bin (escriba cd C: \ Users \ Desktop \ A \ spark \ bin). Escriba spark-shell.
C:\Users\Desktop\A\spark\bin>spark-shell
Puede llevar tiempo y dar algunas advertencias. Finalmente, mostrará la bienvenida a la versión 2.2.0 de Spark.
Paso 6: Escriba exit () o reinicie el símbolo del sistema y vuelva a la carpeta Spark Bin. Escriba pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Mostrará algunas advertencias y errores, pero ignórelos. Funciona.
Paso 7: la descarga está completa. Si desea ejecutar Spark directamente desde el shell de Python, vaya a Scripts en su carpeta de Python y escriba
pip install findspark
en el símbolo del sistema.
En cáscara de python
import findspark
findspark.init()
importar los módulos necesarios
from pyspark import SparkContext
from pyspark import SparkConf
Si desea omitir los pasos para importar findpark e inicializarlo, siga el procedimiento que se indica en la
importación de pyspark en el shell de python