Preguntas etiquetadas con rdd


13
Spark - repartition () vs coalesce ()
De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition()llamadas coalesce()que permite evitar el movimiento de datos, pero solo si está disminuyendo el número de particiones RDD. Una diferencia que obtengo es que con repartition()el …


2
Rendimiento de chispa para Scala vs Python
Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy …



3
Apache Spark: mapa vs mapa ¿Particiones?
¿Cuál es la diferencia entre un RDD map y un mapPartitionsmétodo? ¿Y se flatMapcomporta como mapo como mapPartitions? Gracias. (editar) es decir, ¿cuál es la diferencia (semánticamente o en términos de ejecución) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ …

3
¿Cómo funciona HashPartitioner?
Leí la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho excepto las llamadas a la API. Supongo que HashPartitionerparticiona el conjunto distribuido en función del hash de las claves. Por ejemplo, si mis datos son como (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Entonces, el particionador colocaría esto en diferentes particiones …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.