Preguntas etiquetadas con pyspark

La API Spark Python (PySpark) expone el modelo de programación apache-spark a Python.


2
Rendimiento de chispa para Scala vs Python
Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy …


2
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en un DataFramevalor arbitrario (que es lo mismo para cada fila). Me sale un error cuando uso de la withColumnsiguiente manera: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

9
¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) También recibí un error al usar esto: my_df_spark.withColumn("hours", …

19
importando pyspark en python shell
Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a hacerla aquí, ya que tengo el mismo problema. (Ver http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tengo Spark instalado correctamente en mi máquina y puedo ejecutar programas de Python con los módulos …

12
Cargar archivo CSV con Spark
Soy nuevo en Spark y estoy tratando de leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Esperaría que esta llamada me diera una lista de las dos primeras columnas de mi archivo, pero recibo este error: File "<ipython-input-60-73ea98550983>", …


4
Aplicación en ejecución Spark Kill
Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para eliminar el comando. Sin embargo, estoy usando la versión CDH y / bin / …

10
Filtrar la columna de marco de datos de Pyspark con valor Ninguno
Estoy tratando de filtrar un marco de datos PySpark que tiene Nonecomo valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] y puedo filtrar correctamente con un valor de cadena: df[df.dt_mvmt == '2016-03-31'] # some results here pero esto falla: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Pero …

5
cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark
Tengo un marco de datos con una columna como Cadena. Quería cambiar el tipo de columna a tipo doble en PySpark. A continuación se muestra la forma que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Solo quería saber si esta es la manera correcta de hacerlo, ya que …



11
Error de Spark: versión principal del archivo de clase no compatible
Estoy intentando instalar Spark en mi Mac. He usado home-brew para instalar Spark 2.4.0 y Scala. He instalado PySpark en mi entorno anaconda y estoy usando PyCharm para el desarrollo. He exportado a mi perfil de bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.