Programación apache-spark

15

Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. Using …

80 python apache-spark pyspark pycharm homebrew

8

¿Cómo evitar java.lang.OutOfMemoryError: espacio de PermGen en la compilación de Scala?

He notado un comportamiento extraño de mi compilador scala. Ocasionalmente arroja un OutOfMemoryError al compilar una clase. Aquí está el mensaje de error: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Solo ocurre de vez en cuando y el error no …

79 scala apache-spark memory-management sbt scalatra-sbt

5

Calcule la velocidad promedio de las carreteras [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 días . Fui a una entrevista de trabajo de ingeniero de datos. El entrevistador …

20 apache-spark apache-kafka stream-processing

2

Punto muerto cuando se programan simultáneamente muchos trabajos de chispa

Uso de spark 2.4.4 que se ejecuta en modo de clúster YARN con el programador FIFO de spark. Estoy enviando múltiples operaciones de trama de datos de chispa (es decir, escribiendo datos en S3) usando un ejecutor de grupo de subprocesos con un número variable de subprocesos. Esto funciona bien …

17 apache-spark

2

Spark: ¿Por qué Python supera significativamente a Scala en mi caso de uso?

Para comparar el rendimiento de Spark al usar Python y Scala, creé el mismo trabajo en ambos idiomas y comparé el tiempo de ejecución. Esperaba que ambos trabajos tomaran aproximadamente la misma cantidad de tiempo, pero el trabajo de Python solo tomó 27min, mientras que el trabajo de Scala tomó …

16 python scala apache-spark pyspark

1

Escribiendo más de 50 millones de Pyspark df a PostgresSQL, el mejor enfoque eficiente

¿Cuál sería la forma más eficiente de insertar millones de registros? Por ejemplo, 50 millones de un marco de datos de Spark a tablas de Postgres. He hecho esto desde la chispa a MSSQL en el pasado haciendo uso de la opción de copia masiva y tamaño de lote que …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

3

Cómo corregir el error 'TypeError: se requiere un entero (tiene bytes de tipo)' al intentar ejecutar pyspark después de instalar spark 2.4.4

He instalado OpenJDK 13.0.1 y python 3.8 y spark 2.4.4. Las instrucciones para probar la instalación son ejecutar. \ Bin \ pyspark desde la raíz de la instalación de spark. No estoy seguro si me perdí un paso en la instalación de la chispa, como configurar alguna variable de entorno, …

16 apache-spark pyspark

1

pandasUDF y pyarrow 0.15.0

Recientemente comencé a recibir un montón de errores en varios pysparktrabajos que se ejecutan en clústeres EMR. Los erros son java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Todos …

12 pandas apache-spark pyspark pyarrow

1

Apache Spark: impacto de volver a particionar, ordenar y almacenar en caché en una unión

Estoy explorando el comportamiento de Spark al unir una tabla consigo misma. Estoy usando Databricks. Mi escenario ficticio es: Leer una tabla externa como marco de datos A (los archivos subyacentes están en formato delta) Defina el marco de datos B como el marco de datos A con solo ciertas …

10 apache-spark pyspark bigdata azure-databricks delta-lake

3

Aplicando la función Python a Pandas DataFrame agrupado: ¿cuál es el enfoque más eficiente para acelerar los cálculos?

Estoy tratando con un marco de datos Pandas bastante grande: mi conjunto de datos se asemeja a una dfconfiguración siguiente : import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 …

9 python pandas apache-spark parallel-processing dask

1

Spark: UDF ejecutado muchas veces

Tengo un marco de datos con el siguiente código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Ahora comprobando los registros, descubrí que para cada fila el UDF …

9 scala apache-spark apache-spark-sql

Preguntas etiquetadas con apache-spark