Preguntas etiquetadas con apache-spark

Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.


13
Spark - repartition () vs coalesce ()
De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition()llamadas coalesce()que permite evitar el movimiento de datos, pero solo si está disminuyendo el número de particiones RDD. Una diferencia que obtengo es que con repartition()el …



7
Tarea no serializable: java.io.NotSerializableException cuando se llama a la función fuera del cierre solo en clases, no en objetos
Obtención de un comportamiento extraño al llamar a la función fuera de un cierre: cuando la función está en un objeto todo funciona cuando la función está en una clase obtener: Tarea no serializable: java.io.NotSerializableException: prueba El problema es que necesito mi código en una clase y no en un …



13
¿Cómo mostrar el contenido de la columna completa en un Spark Dataframe?
Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una consulta simple y mostrar el contenido: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() La columna parece truncada: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …



20
¿Cómo detener los mensajes INFO que se muestran en la consola spark?
Me gustaría detener varios mensajes que llegan en spark shell. Traté de editar el log4j.propertiesarchivo para detener este mensaje. Aquí están los contenidos de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs …

10
¿Cómo leer múltiples archivos de texto en un solo RDD?
Quiero leer un montón de archivos de texto desde una ubicación hdfs y realizar un mapeo en él en una iteración usando spark. JavaRDD<String> records = ctx.textFile(args[1], 1); es capaz de leer solo un archivo a la vez. Quiero leer más de un archivo y procesarlos como un único RDD. …
179 apache-spark 

2
Rendimiento de chispa para Scala vs Python
Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy …


6
Agregar frascos a un trabajo Spark - spark-submit
Es cierto ... se ha discutido bastante. Sin embargo, hay mucha ambigüedad y algunas de las respuestas proporcionadas ... incluyendo duplicar referencias de jarras en la configuración u opciones de jarras / ejecutor / controlador. Los detalles ambiguos y / u omitidos Después de la ambigüedad, se deben aclarar los …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.