Preguntas etiquetadas con apache-spark

Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.


8
¿Cómo almacenar objetos personalizados en el conjunto de datos?
De acuerdo con la introducción de conjuntos de datos de Spark : Mientras esperamos Spark 2.0, planeamos algunas mejoras interesantes para los conjuntos de datos, específicamente: ... Codificadores personalizados: si bien actualmente generamos codificadores automáticamente para una amplia variedad de tipos, nos gustaría abrir una API para objetos personalizados. e …


8
¿Cómo seleccionar la primera fila de cada grupo?
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

3
¿Cómo se dividen las etapas en tareas en Spark?
Supongamos por lo siguiente que solo se está ejecutando un trabajo de Spark en cada momento. Lo que llego hasta ahora Esto es lo que entiendo que sucede en Spark: Cuando SparkContextse crea un, cada nodo de trabajo inicia un ejecutor. Los ejecutores son procesos separados (JVM), que se conectan …
143 apache-spark 

14
Spark: ¿cargar el archivo CSV como DataFrame?
Me gustaría leer un CSV en chispa y convertirlo como DataFrame y almacenarlo en HDFS con df.registerTempTable("table_name") Yo he tratado: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Error que obtuve: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] …


2
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en un DataFramevalor arbitrario (que es lo mismo para cada fila). Me sale un error cuando uso de la withColumnsiguiente manera: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …


3
Apache Spark: mapa vs mapa ¿Particiones?
¿Cuál es la diferencia entre un RDD map y un mapPartitionsmétodo? ¿Y se flatMapcomporta como mapo como mapPartitions? Gracias. (editar) es decir, ¿cuál es la diferencia (semánticamente o en términos de ejecución) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ …


9
¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) También recibí un error al usar esto: my_df_spark.withColumn("hours", …

12
Cómo configurar la memoria de Apache Spark Executor
¿Cómo puedo aumentar la memoria disponible para los nodos del ejecutor de chispa Apache? Tengo un archivo de 2 GB que es adecuado para cargar en Apache Spark. Estoy ejecutando apache spark por el momento en 1 máquina, por lo que el controlador y el ejecutor están en la misma …

10
¿Cómo imprimir el contenido de RDD?
Estoy intentando imprimir el contenido de una colección en la consola Spark. Tengo un tipo: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Y uso el comando: scala> linesWithSessionId.map(line => println(line)) Pero esto está impreso: res1: org.apache.spark.rdd.RDD [Unidad] = MappedRDD [4] en el mapa en: 19 ¿Cómo puedo escribir el RDD en la consola …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.