Preguntas etiquetadas con apache-spark

Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.

¿Cómo vincular PyCharm con PySpark?
Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. Using …

¿Cómo evitar java.lang.OutOfMemoryError: espacio de PermGen en la compilación de Scala?
He notado un comportamiento extraño de mi compilador scala. Ocasionalmente arroja un OutOfMemoryError al compilar una clase. Aquí está el mensaje de error: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Solo ocurre de vez en cuando y el error no …

pandasUDF y pyarrow 0.15.0
Recientemente comencé a recibir un montón de errores en varios pysparktrabajos que se ejecutan en clústeres EMR. Los erros son java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate( at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage( at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext( at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema( at org.apache.arrow.vector.ipc.ArrowReader.initialize( at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized( at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot( at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$ at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$ at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Todos …

Spark: UDF ejecutado muchas veces
Tengo un marco de datos con el siguiente código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("")) .withColumn("test2", col("test.two")) Ahora comprobando los registros, descubrí que para cada fila el UDF …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.