Programación apache-spark

19

Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a hacerla aquí, ya que tengo el mismo problema. (Ver http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tengo Spark instalado correctamente en mi máquina y puedo ejecutar programas de Python con los módulos …

111 python apache-spark pyspark

12

Cargar archivo CSV con Spark

Soy nuevo en Spark y estoy tratando de leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Esperaría que esta llamada me diera una lista de las dos primeras columnas de mi archivo, pero recibo este error: File "<ipython-input-60-73ea98550983>", …

110 python csv apache-spark pyspark

13

Escriba un solo archivo CSV usando spark-csv

Estoy usando https://github.com/databricks/spark-csv , estoy tratando de escribir un solo CSV, pero no puedo, está creando una carpeta. Necesita una función Scala que tomará parámetros como la ruta y el nombre del archivo y escribirá ese archivo CSV.

108 scala csv apache-spark spark-csv

8

Cómo sobrescribir el directorio de salida en Spark

Tengo una aplicación de transmisión de chispas que produce un conjunto de datos por cada minuto. Necesito guardar / sobrescribir los resultados de los datos procesados. Cuando intenté sobrescribir el conjunto de datos org.apache.hadoop.mapred.FileAlreadyExistsException detiene la ejecución. Configuré la propiedad Spark set("spark.files.overwrite","true"), pero no hubo suerte. ¿Cómo sobrescribir o eliminar …

107 apache-spark

8

Convierta la columna Spark DataFrame a la lista de Python

Trabajo en un marco de datos con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | Me gustaría obtener dos listas que contengan valores mvv y valor de recuento. Algo como …

104 python apache-spark pyspark spark-dataframe

4

Aplicación en ejecución Spark Kill

Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para eliminar el comando. Sin embargo, estoy usando la versión CDH y / bin / …

101 apache-spark yarn pyspark

14

¿Cómo comprobar si el marco de datos de Spark está vacío?

En este momento, tengo que usar df.count > 0para verificar si DataFrameestá vacío o no. Pero es algo ineficiente. ¿Hay alguna forma mejor de hacerlo? Gracias. PD: quiero verificar si está vacío para que solo guarde el DataFramesi no está vacío

101 apache-spark apache-spark-sql

14

Cómo cargar un archivo local en sc.textFile, en lugar de HDFS

Estoy siguiendo el tutorial de Great Spark así que estoy tratando a las 46m: 00s de cargar el README.mdpero no lo que estoy haciendo es esto: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = …

100 scala apache-spark

10

Filtrar la columna de marco de datos de Pyspark con valor Ninguno

Estoy tratando de filtrar un marco de datos PySpark que tiene Nonecomo valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] y puedo filtrar correctamente con un valor de cadena: df[df.dt_mvmt == '2016-03-31'] # some results here pero esto falla: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Pero …

100 python apache-spark dataframe pyspark apache-spark-sql

5

cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark

Tengo un marco de datos con una columna como Cadena. Quería cambiar el tipo de columna a tipo doble en PySpark. A continuación se muestra la forma que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Solo quería saber si esta es la manera correcta de hacerlo, ya que …

99 python apache-spark dataframe pyspark apache-spark-sql

8

¿Cómo crear un DataFrame vacío con un esquema específico?

Quiero crear DataFramecon un esquema específico en Scala. He intentado usar JSON read (me refiero a leer un archivo vacío) pero no creo que esa sea la mejor práctica.

94 scala apache-spark dataframe apache-spark-sql

10

¿Cómo configurar Spark en Windows?

Estoy intentando configurar Apache Spark en Windows. Después de buscar un poco, entiendo que lo que quiero es el modo independiente. ¿Qué binarios descargo para ejecutar Apache Spark en Windows? Veo distribuciones con hadoop y cdh en la página de descarga de Spark. No tengo referencias en la web a …

93 windows apache-spark

14

Spark: error "Se debe establecer una URL maestra en su configuración" al enviar una aplicación

Tengo una aplicación Spark que se ejecuta sin problemas en modo local, pero tengo algunos problemas al enviarme al clúster Spark. Los mensajes de error son los siguientes: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) …

93 scala apache-spark

6

Cambiar el nombre de las columnas de un DataFrame en Spark Scala

Estoy tratando de convertir todos los nombres de encabezados / columnas de un DataFrameen Spark-Scala. a partir de ahora, se me ocurre el siguiente código que solo reemplaza el nombre de una sola columna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

2

¿Qué significan los números en la barra de progreso en spark-shell?

En mi chispa-shell, ¿qué significan entradas como las siguientes cuando ejecuto una función? [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

Preguntas etiquetadas con apache-spark