Programación apache-spark

12

java.io.IOException: no se pudo localizar el ejecutable null \ bin \ winutils.exe en los archivos binarios de Hadoop. Spark Eclipse en Windows 7

No puedo ejecutar un sparktrabajo simple en Scala IDE(proyecto Maven Spark) instalado enWindows 7 Se ha agregado la dependencia del núcleo de Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Error: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 …

92 eclipse scala apache-spark

5

Apache Spark: Cómo usar pyspark con Python 3

Construí Spark 1.4 a partir del maestro de desarrollo de GH y la compilación salió bien. Pero cuando lo hago bin/pyspark, obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?

91 python python-3.x apache-spark

10

¿Puede apache spark funcionar sin hadoop?

¿Existe alguna dependencia entre Spark y Hadoop ? Si no es así, ¿hay alguna función que me pierda cuando ejecuto Spark sin Hadoop ?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame groupBy y ordenar en orden descendente (pyspark)

Estoy usando pyspark (Python 2.7.9 / Spark 1.3.1) y tengo un GroupObject de marco de datos que necesito filtrar y ordenar en orden descendente. Tratando de lograrlo a través de este código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Pero arroja el siguiente error. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

9

Extraiga los valores de columna de Dataframe como lista en Apache Spark

Quiero convertir una columna de cadena de un marco de datos en una lista. Lo que puedo encontrar en la DataframeAPI es RDD, así que primero intenté convertirlo a RDD y luego apliqué la toArrayfunción al RDD. En este caso, la longitud y SQL funcionan bien. Sin embargo, el resultado …

86 scala apache-spark apache-spark-sql

8

¿Por qué fallan los trabajos de Spark con org.apache.spark.shuffle.MetadataFetchFailedException: falta una ubicación de salida para shuffle 0 en modo de especulación?

Estoy ejecutando un trabajo de Spark en modo de especulación. Tengo alrededor de 500 tareas y alrededor de 500 archivos de 1 GB gz comprimidos. Sigo recibiendo en cada trabajo, para 1-2 tareas, el error adjunto donde se repite luego decenas de veces (evitando que el trabajo se complete). org.apache.spark.shuffle.MetadataFetchFailedException: …

85 apache-spark

11

¿Cómo guardar DataFrame directamente en Hive?

¿Es posible guardar DataFrameen Spark directamente en Hive? He tratado con la conversión DataFramede Rdda continuación, guardar como archivo de texto y luego cargar en la colmena. Pero me pregunto si puedo guardar directamente dataframeen colmena.

85 scala apache-spark hive apache-spark-sql

2

¿Cómo ajustar el número de ejecutor de chispa, los núcleos y la memoria de ejecutor?

¿Por dónde empezar a ajustar los parámetros mencionados anteriormente? ¿Comenzamos con la memoria del ejecutor y obtenemos el número de ejecutores, o comenzamos con núcleos y obtenemos el número de ejecutor? Seguí el enlace . Sin embargo, tengo una idea de alto nivel, pero todavía no estoy seguro de cómo …

84 apache-spark

3

¿Cómo funciona HashPartitioner?

Leí la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho excepto las llamadas a la API. Supongo que HashPartitionerparticiona el conjunto distribuido en función del hash de las claves. Por ejemplo, si mis datos son como (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Entonces, el particionador colocaría esto en diferentes particiones …

82 scala apache-spark rdd partitioning

11

Error de Spark: versión principal del archivo de clase no compatible

Estoy intentando instalar Spark en mi Mac. He usado home-brew para instalar Spark 2.4.0 y Scala. He instalado PySpark en mi entorno anaconda y estoy usando PyCharm para el desarrollo. He exportado a mi perfil de bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export …

82 java python macos apache-spark pyspark

10

Spark Dataframe distingue columnas con nombre duplicado

Entonces, como sé en Spark Dataframe, que para múltiples columnas puede tener el mismo nombre que se muestra en la siguiente instantánea del marco de datos: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: …

82 python apache-spark dataframe pyspark apache-spark-sql

8

Cómo eliminar columnas en pyspark dataframe

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Hay dos id: biginty quiero eliminar uno. ¿Como lo puedo hacer?

81 apache-spark apache-spark-sql pyspark

1

¿Cuáles son los beneficios de Apache Beam sobre Spark / Flink para el procesamiento por lotes?

Apache Beam admite múltiples backends de ejecución, incluidos Apache Spark y Flink. Estoy familiarizado con Spark / Flink y estoy tratando de ver los pros / contras de Beam para el procesamiento por lotes. Mirando el ejemplo del recuento de palabras de Beam , parece que es muy similar a …

81 apache-spark apache-flink apache-beam

1

¿En qué situación puedo usar Dask en lugar de Apache Spark? [cerrado]

Cerrado . Esta pregunta se basa en opiniones . Actualmente no acepta respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda responderse con hechos y citas editando esta publicación . Cerrado hace 4 años . Mejora esta pregunta Actualmente estoy usando Pandas y Spark para el análisis de …

81 python pandas apache-spark dask

6

Convertir cadena pyspark a formato de fecha

Tengo un marco de datos pyspark de fecha con una columna de cadena en el formato de MM-dd-yyyyy estoy intentando convertir esto en una columna de fecha. Lo intenté: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() y obtengo una cadena de nulos. ¿Alguien puede ayudar?

80 apache-spark pyspark apache-spark-sql pyspark-sql

Preguntas etiquetadas con apache-spark