Preguntas etiquetadas con apache-spark

Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.

12
java.io.IOException: no se pudo localizar el ejecutable null \ bin \ winutils.exe en los archivos binarios de Hadoop. Spark Eclipse en Windows 7
No puedo ejecutar un sparktrabajo simple en Scala IDE(proyecto Maven Spark) instalado enWindows 7 Se ha agregado la dependencia del núcleo de Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Error: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 …





8
¿Por qué fallan los trabajos de Spark con org.apache.spark.shuffle.MetadataFetchFailedException: falta una ubicación de salida para shuffle 0 en modo de especulación?
Estoy ejecutando un trabajo de Spark en modo de especulación. Tengo alrededor de 500 tareas y alrededor de 500 archivos de 1 GB gz comprimidos. Sigo recibiendo en cada trabajo, para 1-2 tareas, el error adjunto donde se repite luego decenas de veces (evitando que el trabajo se complete). org.apache.spark.shuffle.MetadataFetchFailedException: …



3
¿Cómo funciona HashPartitioner?
Leí la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho excepto las llamadas a la API. Supongo que HashPartitionerparticiona el conjunto distribuido en función del hash de las claves. Por ejemplo, si mis datos son como (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Entonces, el particionador colocaría esto en diferentes particiones …

11
Error de Spark: versión principal del archivo de clase no compatible
Estoy intentando instalar Spark en mi Mac. He usado home-brew para instalar Spark 2.4.0 y Scala. He instalado PySpark en mi entorno anaconda y estoy usando PyCharm para el desarrollo. He exportado a mi perfil de bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export …


8
Cómo eliminar columnas en pyspark dataframe
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Hay dos id: biginty quiero eliminar uno. ¿Como lo puedo hacer?




Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.