Preguntas etiquetadas con apache-spark

Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.

19
importando pyspark en python shell
Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a hacerla aquí, ya que tengo el mismo problema. (Ver http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tengo Spark instalado correctamente en mi máquina y puedo ejecutar programas de Python con los módulos …

12
Cargar archivo CSV con Spark
Soy nuevo en Spark y estoy tratando de leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Esperaría que esta llamada me diera una lista de las dos primeras columnas de mi archivo, pero recibo este error: File "<ipython-input-60-73ea98550983>", …


8
Cómo sobrescribir el directorio de salida en Spark
Tengo una aplicación de transmisión de chispas que produce un conjunto de datos por cada minuto. Necesito guardar / sobrescribir los resultados de los datos procesados. Cuando intenté sobrescribir el conjunto de datos org.apache.hadoop.mapred.FileAlreadyExistsException detiene la ejecución. Configuré la propiedad Spark set("spark.files.overwrite","true"), pero no hubo suerte. ¿Cómo sobrescribir o eliminar …
107 apache-spark 


4
Aplicación en ejecución Spark Kill
Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para eliminar el comando. Sin embargo, estoy usando la versión CDH y / bin / …


14
Cómo cargar un archivo local en sc.textFile, en lugar de HDFS
Estoy siguiendo el tutorial de Great Spark así que estoy tratando a las 46m: 00s de cargar el README.mdpero no lo que estoy haciendo es esto: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = …

10
Filtrar la columna de marco de datos de Pyspark con valor Ninguno
Estoy tratando de filtrar un marco de datos PySpark que tiene Nonecomo valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] y puedo filtrar correctamente con un valor de cadena: df[df.dt_mvmt == '2016-03-31'] # some results here pero esto falla: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Pero …

5
cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark
Tengo un marco de datos con una columna como Cadena. Quería cambiar el tipo de columna a tipo doble en PySpark. A continuación se muestra la forma que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Solo quería saber si esta es la manera correcta de hacerlo, ya que …


10
¿Cómo configurar Spark en Windows?
Estoy intentando configurar Apache Spark en Windows. Después de buscar un poco, entiendo que lo que quiero es el modo independiente. ¿Qué binarios descargo para ejecutar Apache Spark en Windows? Veo distribuciones con hadoop y cdh en la página de descarga de Spark. No tengo referencias en la web a …

14
Spark: error "Se debe establecer una URL maestra en su configuración" al enviar una aplicación
Tengo una aplicación Spark que se ejecuta sin problemas en modo local, pero tengo algunos problemas al enviarme al clúster Spark. Los mensajes de error son los siguientes: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) …



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.