Programación apache-spark

15

Diferencia entre DataFrame, Dataset y RDD en Spark

Me pregunto cuál es la diferencia entre an RDDy DataFrame (Spark 2.0.0 DataFrame es un simple alias de tipo para Dataset[Row]) en Apache Spark. ¿Puedes convertir uno a otro?

258 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - repartition () vs coalesce ()

De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition()llamadas coalesce()que permite evitar el movimiento de datos, pero solo si está disminuyendo el número de particiones RDD. Una diferencia que obtengo es que con repartition()el …

254 apache-spark distributed-computing rdd

16

¿Cuál es la diferencia entre map y flatMap y un buen caso de uso para cada uno?

¿Alguien puede explicarme la diferencia entre map y flatMap y cuál es un buen caso de uso para cada uno? ¿Qué significa "aplanar los resultados"? ¿Para que sirve?

249 apache-spark

12

Spark java.lang.OutOfMemoryError: espacio de almacenamiento dinámico de Java

Mi clúster: 1 maestro, 11 esclavos, cada nodo tiene 6 GB de memoria. Mi configuración: spark.executor.memory=4g, Dspark.akka.frameSize=512 Aquí está el problema: Primero , leí algunos datos (2,19 GB) de HDFS a RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) En segundo lugar , haga algo en este RDD: val res = imageBundleRDD.map(data => …

228 out-of-memory apache-spark

7

Tarea no serializable: java.io.NotSerializableException cuando se llama a la función fuera del cierre solo en clases, no en objetos

Obtención de un comportamiento extraño al llamar a la función fuera de un cierre: cuando la función está en un objeto todo funciona cuando la función está en una clase obtener: Tarea no serializable: java.io.NotSerializableException: prueba El problema es que necesito mi código en una clase y no en un …

224 scala serialization apache-spark typesafe

2

¿Qué son los trabajadores, ejecutores, núcleos en el clúster independiente de Spark?

Leí la Descripción general del modo de clúster y todavía no puedo entender los diferentes procesos en el clúster autónomo de Spark y el paralelismo. ¿Es el trabajador un proceso JVM o no? Ejecuté el bin\start-slave.shy descubrí que engendró al trabajador, que en realidad es una JVM. Según el enlace …

219 apache-spark distributed-computing

5

¿Cuál es la diferencia entre cache y persistir?

En términos de RDDpersistencia, ¿cuáles son las diferencias entre cache()y persist()en la chispa?

202 apache-spark distributed-computing rdd

13

¿Cómo mostrar el contenido de la columna completa en un Spark Dataframe?

Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una consulta simple y mostrar el contenido: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() La columna parece truncada: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

201 apache-spark dataframe spark-csv output-formatting

13

¿Cómo cambiar los nombres de columna del marco de datos en pyspark?

Vengo de antecedentes de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de columna a algo útil usando el comando simple: df.columns = new_column_name_list Sin embargo, lo mismo no funciona en los marcos de datos pyspark creados …

201 python apache-spark pyspark pyspark-sql

8

Apache Spark: la cantidad de núcleos frente a la cantidad de ejecutores

Estoy tratando de entender la relación entre la cantidad de núcleos y la cantidad de ejecutores cuando se ejecuta un trabajo de Spark en YARN. El entorno de prueba es el siguiente: Número de nodos de datos: 3 Especificaciones de la máquina del nodo de datos: CPU: Core i7-4790 (# …

193 hadoop apache-spark yarn

20

¿Cómo detener los mensajes INFO que se muestran en la consola spark?

Me gustaría detener varios mensajes que llegan en spark shell. Traté de editar el log4j.propertiesarchivo para detener este mensaje. Aquí están los contenidos de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs …

181 apache-spark log4j spark-submit

10

¿Cómo leer múltiples archivos de texto en un solo RDD?

Quiero leer un montón de archivos de texto desde una ubicación hdfs y realizar un mapeo en él en una iteración usando spark. JavaRDD<String> records = ctx.textFile(args[1], 1); es capaz de leer solo un archivo a la vez. Quiero leer más de un archivo y procesarlos como un único RDD. …

179 apache-spark

2

Rendimiento de chispa para Scala vs Python

Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy …

178 scala performance apache-spark pyspark rdd

5

(¿Por qué) necesitamos llamar a la caché o persistir en un RDD

Cuando se crea un conjunto de datos distribuido elástico (RDD) a partir de un archivo de texto o colección (o de otro RDD), ¿necesitamos llamar "caché" o "persistir" explícitamente para almacenar los datos RDD en la memoria? ¿O los datos RDD se almacenan de forma distribuida en la memoria de …

171 scala apache-spark rdd

6

Agregar frascos a un trabajo Spark - spark-submit

Es cierto ... se ha discutido bastante. Sin embargo, hay mucha ambigüedad y algunas de las respuestas proporcionadas ... incluyendo duplicar referencias de jarras en la configuración u opciones de jarras / ejecutor / controlador. Los detalles ambiguos y / u omitidos Después de la ambigüedad, se deben aclarar los …

158 java scala apache-spark jar spark-submit

Preguntas etiquetadas con apache-spark