Preguntas etiquetadas con apache-spark-sql

Apache Spark SQL es una herramienta para "SQL y procesamiento de datos estructurados" en Spark, un sistema informático de clúster rápido y de uso general. Se puede utilizar para recuperar datos de Hive, Parquet, etc. y ejecutar consultas SQL sobre RDD y conjuntos de datos existentes.



8
¿Cómo seleccionar la primera fila de cada grupo?
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

14
Spark: ¿cargar el archivo CSV como DataFrame?
Me gustaría leer un CSV en chispa y convertirlo como DataFrame y almacenarlo en HDFS con df.registerTempTable("table_name") Yo he tratado: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Error que obtuve: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] …


2
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en un DataFramevalor arbitrario (que es lo mismo para cada fila). Me sale un error cuando uso de la withColumnsiguiente manera: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …



9
¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) También recibí un error al usar esto: my_df_spark.withColumn("hours", …



10
Filtrar la columna de marco de datos de Pyspark con valor Ninguno
Estoy tratando de filtrar un marco de datos PySpark que tiene Nonecomo valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] y puedo filtrar correctamente con un valor de cadena: df[df.dt_mvmt == '2016-03-31'] # some results here pero esto falla: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Pero …

5
cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark
Tengo un marco de datos con una columna como Cadena. Quería cambiar el tipo de columna a tipo doble en PySpark. A continuación se muestra la forma que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Solo quería saber si esta es la manera correcta de hacerlo, ya que …



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.