He estado investigando la base de datos Redshift de Amazon como un posible reemplazo futuro para nuestro almacén de datos. Mi experiencia siempre ha sido en el uso del modelado dimensional y los métodos de Ralph Kimball, por lo que fue un poco extraño ver que Redshift no admite características como el tipo de datos en serie para columnas de incremento automático.
Sin embargo, hay una publicación reciente del blog de AWS Big Data sobre cómo optimizar Redshift para un esquema en estrella: https://blogs.aws.amazon.com/bigdata/post/Tx1WZP38ERPGK5K/Optimizing-for-Star-Schemas -y-Interleaved-Sorting-on-Amazon-Redshift
La pregunta que tengo es acerca de cuál es la mejor práctica para cargar un esquema de estrella en Redshift. No puedo encontrar esta respuesta en ninguna de la documentación de Redshift.
Me estoy inclinando hacia la importación de mis archivos de S3 en tablas de preparación y luego uso SQL para hacer las transformaciones, como búsquedas y generar claves sustitutas antes de insertarlas en las tablas de destino.
¿Es esto lo que otros están haciendo actualmente? ¿Existe una herramienta ETL que valga la pena para hacer esto más fácil?