¿Busca opciones para ETL espacial (Extracto, Transformación, Carga)?


33

Estoy interesado en los pros y los contras de varias herramientas ETL (extracto, transformación, carga) espaciales. Si ha utilizado los elementos enumerados aquí (o agrega los suyos), busco sus opiniones y experiencias. En particular, me gustaría ver comparaciones de usabilidad de:

No es necesario hacer una revisión de TODO el software mencionado. Si tiene experiencia incluso con uno, será muy beneficioso para tomar una decisión sobre qué dirección tomar.

Ejemplo: estoy buscando crear una función de conversión de esquema que me permita seleccionar la capa de entrada, crear una traducción y generar un nuevo esquema predefinido. De manera óptima, después de crear el script de traducción, me gustaría tener un formulario interactivo donde pueda "asignar" campos en mi capa de entrada a la capa de salida (es decir, la capa de salida tendrá un campo llamado "Dirección", ¿cómo se llama? en la capa de entrada?)

Algunos se mencionaron en las preguntas y respuestas en ¿Qué herramientas están disponibles para cargar datos GIS a una base de datos?

Y aquí hay un par de artículos relacionados que encontré.

Respuestas:


17

Esta pregunta se ha convertido a Community Wiki y wiki bloqueado porque es un ejemplo de una pregunta que busca una lista de respuestas y parece ser lo suficientemente popular como para protegerla del cierre. Debe tratarse como un caso especial y no debe verse como el tipo de pregunta que se recomienda en este, o en cualquier sitio de Stack Exchange, pero si desea contribuir con más contenido, no dude en hacerlo editando esta respuesta .


Solo hablaré de lo que he visto en un contexto profesional. Un estudiante mío trabajó con una empresa encargada de recibir, validar e integrar grandes cantidades de datos espaciales, de una fuente conocida (TeleAtlas) en sus SIG. Utilizó varios flujos de trabajo usando FME, haciendo verificaciones y transformaciones muy complicadas sobre la marcha, de un formato a otro, como selección de características, verificación de topología, eliminación de duplicados, etc. El flujo de trabajo luego pudo procesar automáticamente los conjuntos de datos entrantes.

Estuve en un jurado para un informe de libertad condicional viva (lo siento, traducción de google de "souvenir de rapport de stage"), donde el estudiante describió otro flujo de trabajo de FME como este, pero esta vez para validar los conjuntos de datos regionales enviados al nivel nacional para la integración a la base de datos nacional de riesgos. La principal diferencia es que en este último ejemplo, el conjunto de datos estaba en formatos de archivo muy diversos, ráster y vector, escalas y estilos.

Por último, probé Spatial Data Integrator, el ETL de código abierto basado en Talend Open Studio. Las características eran numerosas, aunque menos que las de FME, pero creo que las principales diferencias estaban en la documentación y la facilidad de uso de la creación del flujo de trabajo. A menudo me vi obligado a modificar la fuente del código Java de los componentes del flujo de trabajo. Pero era una versión anterior de SDI, y las deficiencias que describo aquí son algo habituales con los proyectos de código abierto al principio, y no podemos comparar en el mismo nivel el software patentado y perfeccionado y los competidores jóvenes de código abierto.


24

Para un proyecto reciente que trabaja con varios GB de datos espaciales, comencé la carga de datos / reproyecciones con FME. Funcionó bien, pero hay una curva de aprendizaje.

Al final del proyecto, estaba usando scripts de Python para automatizar los procesos de reamining. FME puede ser programado, pero si tiene los conceptos básicos de Python, ¿por qué complicar más las cosas? Python le brinda total flexibilidad y con cada script de importación escrito, sus habilidades en Python están mejorando.

Los siguientes paquetes de Python me resultaron invaluables al trabajar con transformaciones de datos:

Si tiene antecedentes de desarrollador / programación, recomendaría usar Python, si prefiere trabajar con una GUI (que también puede generar buenas imágenes para la documentación), recomendaría FME.


11

Me encanta el código abierto, pero FME gana fácilmente contra los ETL de código abierto lo mejor que puedo decir. En realidad, es bastante barato para el mantenimiento y el soporte también (al menos en comparación con la mayoría de las otras soluciones corporativas que tenemos para cosas).

Si está buscando traducciones entre formatos, entonces OGR puede hacerlo (con algunas tuberías en GDAL para transformaciones). Por supuesto, esa es la línea de comando .

Para el modelado visual más allá de los enumerados en el comentario "posible duplicado", están trabajando en un generador de modelos QGIS / SEXTANTE; video de prueba de concepto: https://www.youtube.com/watch?v=LTUu-I2ouqU

(No, no trabajo para Safe, solo soy un cliente relativamente feliz).


El enlace de video está roto. ¿Puedes arreglarlo?
GeoStoneMarten


6

Hice una comparación de varias herramientas hace aproximadamente un año que también contiene la mayoría de las opciones mencionadas en este hilo.

Como respuesta más directa, uso mucho FME debido a su versatilidad. Sin embargo, cuando trabajo con estructuras de datos complejas como CityGML, INSPIRE GML o modelos de bases de datos más grandes, uso HALE , una aplicación de código abierto desarrollada para ETL y particularmente la armonización.

ingrese la descripción de la imagen aquí

Actualmente (a partir de la versión 2.9.0) se compara con FME (2014 SP1) de la siguiente manera:

  • HALE tiene una menor cantidad de formatos (HALE: 20, FME 200) y transformadores (HALE: 30+, FME: más de 400), pero muy buen soporte para todos los dialectos XML / GML
  • HALE previsualiza resultados de transformación de forma interactiva en un mapa y en vistas de tabla, y valida la salida directamente
  • HALE es generalmente mucho más rápido, ya que se mantiene el contexto local para cada atributo, lo que le ahorra muchos FeatureMergers, por ejemplo
  • HALE es de código abierto y está en uso en producción desde 2010
  • HALE utiliza una interfaz de usuario de mapeo declarativa, que conduce a un menor número de entradas de usuario requeridas en comparación con los enfoques de procedimiento

Tenga en cuenta que he estado en el equipo de HALE durante bastantes años.


¿Cómo crees que se acumula hoy vs FME? ¿Especialmente para las fuentes de datos web y geoRSS?
Dr.YSG

@ Dr.YSG el mantenimiento de hale fue asumido por wetransform GmbH en 2015, por lo que ahora hay un equipo dedicado detrás de su desarrollo. Ha habido un desarrollo sustancial en los últimos cuatro años. Los cambios están documentados en las notas de la versión de GitHub. Admite el procesamiento de datos JSON / GeoJSON. GeoRSS es un formato XML simple que reutiliza algunas partes de GML, por lo que también es totalmente compatible. Para procesar automáticamente las fuentes de GeoRSS, querrá buscar en hale-cli (la interfaz de línea de comandos y otras API).
tr_xsdi

5

Si observa el enlace duplicado de blah238s, encontrará más información. Diría que Talend Open Studio y Pentaho GeoKettle son las soluciones de código abierto más destacadas que uno puede elegir. Por lo que he leído, de estos dos objetivos Talend, más que solo ETL y GeoKettle, son un poco más fáciles de usar.

Mi municipio está a punto de darle una oportunidad a GeoKettle para escribir un dialecto GML elaborado por la asociación sueca de autoridades y regiones locales (SALAR) y necesitamos este formato para entregar geodatos a diferentes intereses comerciales.

Creo que GeoKettle tiene soporte para OGR / GDAL desde la versión 2.0.


5

FME es probablemente el mejor producto para usar en este espacio. Después de eso es GDAL / OGR. Otro producto de código abierto en este espacio es el geokettle: http://www.spatialytics.org/projects/geokettle/, aunque nunca lo he usado con ira (tuve la suerte de tener los otros dos productos mencionados).

Si ninguna de esas opciones genéricas funciona, probablemente desee utilizar una herramienta de conversión específica.


3

Usó Geokettle religiosamente para una curva de alto aprendizaje de un proyecto pequeño a menos que haya usado una interfaz de usuario Eclipse ... Realmente potente ya que está compilado contra GDAL1.10 admite todos los tipos de geografía ... Lo que me gustó fue su soporte para datos almacenados y datos a través de servicios ... Lo usé para recrear y sincronizar conjuntos de datos del servidor ArcGIS en una instancia de postgis local a través de ESRI json a GeoJSON ... El flujo de trabajo puede generar condiciones y la configuración de validación para consultar el # de objectid y en función de esa compilación un csv predefinido para iterar una solicitud de publicación de 500 funciones a la vez, dependiendo de la primera consulta, fue capaz de consolidar todas las solicitudes en un archivo geojson, ejecutar ogr2ogr para cargar en postgis incluso postgis con script para ejecutar vacío e indexar con él ... No afiliado solo un ventilador

Puede ejecutarlo y asignar un flujo de trabajo en la interfaz gráfica de usuario del escritorio y usar herramientas de servidor pentahos para configurarlo en Hadoop y hacer que se ejecute como un script o trabajo cron.


3

QGIS (al menos desde la versión actual 2.6) ahora también tiene un generador de modelos integrado. A través de esta caja de herramientas puede acceder a cientos de algoritmos (GDAL, GRASS, SAGA, vectortools, etc.). También puede agregar su propio script.

Debo admitir que no lo he usado extensamente, pero si estuviera buscando un constructor de modelos lo consideraría digno de investigación.


0

[ADVERTENCIA: una promoción gratuita de un producto con el que estoy involucrado]

Hemos estado trabajando en una herramienta para hacer ETL. Es similar en sabor a FME pero está diseñado para tareas más simples y requiere menos experiencia para su uso. Algunos detalles se pueden encontrar en https://www.geoactive.it solo busque información sobre Data Dragon. Esta aplicación usa GDAL / OGR en el back-end y estamos empujando cualquier adición que hagamos a GDAL / OGR.

El uso comercial requiere que se compre, pero tenemos licencias académicas disponibles de forma gratuita, por lo que si desea usarlo para estudiar, envíeme un mensaje y le proporcionaré más detalles.

Esto está en su etapa de lanzamiento temprano, por lo que todavía hay algunos errores menores, así que por favor, sea amable con nosotros.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.