Programación rdd

15

Diferencia entre DataFrame, Dataset y RDD en Spark

Me pregunto cuál es la diferencia entre an RDDy DataFrame (Spark 2.0.0 DataFrame es un simple alias de tipo para Dataset[Row]) en Apache Spark. ¿Puedes convertir uno a otro?

258 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - repartition () vs coalesce ()

De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition()llamadas coalesce()que permite evitar el movimiento de datos, pero solo si está disminuyendo el número de particiones RDD. Una diferencia que obtengo es que con repartition()el …

254 apache-spark distributed-computing rdd

5

¿Cuál es la diferencia entre cache y persistir?

En términos de RDDpersistencia, ¿cuáles son las diferencias entre cache()y persist()en la chispa?

202 apache-spark distributed-computing rdd

2

Rendimiento de chispa para Scala vs Python

Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy …

178 scala performance apache-spark pyspark rdd

5

(¿Por qué) necesitamos llamar a la caché o persistir en un RDD

Cuando se crea un conjunto de datos distribuido elástico (RDD) a partir de un archivo de texto o colección (o de otro RDD), ¿necesitamos llamar "caché" o "persistir" explícitamente para almacenar los datos RDD en la memoria? ¿O los datos RDD se almacenan de forma distribuida en la memoria de …

171 scala apache-spark rdd

11

Cómo convertir un objeto rdd a un marco de datos en spark

¿Cómo puedo convertir un RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datos org.apache.spark.sql.DataFrame? Convertí un marco de datos a rdd usando .rdd. Después de procesarlo, lo quiero de vuelta en el marco de datos. Cómo puedo hacer esto ?

139 scala apache-spark apache-spark-sql rdd

3

Apache Spark: mapa vs mapa ¿Particiones?

¿Cuál es la diferencia entre un RDD map y un mapPartitionsmétodo? ¿Y se flatMapcomporta como mapo como mapPartitions? Gracias. (editar) es decir, ¿cuál es la diferencia (semánticamente o en términos de ejecución) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ …

133 performance scala apache-spark rdd

3

¿Cómo funciona HashPartitioner?

Leí la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho excepto las llamadas a la API. Supongo que HashPartitionerparticiona el conjunto distribuido en función del hash de las claves. Por ejemplo, si mis datos son como (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Entonces, el particionador colocaría esto en diferentes particiones …

82 scala apache-spark rdd partitioning

Preguntas etiquetadas con rdd