Preguntas etiquetadas con apache-spark-sql

Apache Spark SQL es una herramienta para "SQL y procesamiento de datos estructurados" en Spark, un sistema informático de clúster rápido y de uso general. Se puede utilizar para recuperar datos de Hive, Parquet, etc. y ejecutar consultas SQL sobre RDD y conjuntos de datos existentes.





8
Cómo eliminar columnas en pyspark dataframe
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Hay dos id: biginty quiero eliminar uno. ¿Como lo puedo hacer?



1
Spark: UDF ejecutado muchas veces
Tengo un marco de datos con el siguiente código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Ahora comprobando los registros, descubrí que para cada fila el UDF …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.