Recién estamos comenzando a diseñar un nuevo almacén de datos y estamos tratando de diseñar cómo funcionarán nuestras dimensiones de fecha y hora. Necesitamos ser capaces de soportar múltiples zonas horarias (probablemente al menos GMT, IST, PST y EST). Inicialmente pensamos que tendríamos una dimensión de fecha y hora combinada amplia de hasta una granularidad de 15 minutos, de esa manera tenemos una clave en nuestras tablas de hechos y todos los datos de fecha y hora diferentes para todas las zonas horarias admitidas están en una tabla de dimensión. (es decir, clave de fecha, fecha GMT, hora GMT, fecha IST, hora IST, etc.)
Kimball sugiere tener una dimensión de día separada de la dimensión de hora del día para evitar que la tabla crezca demasiado (The data warehouse toolkit p. 240), lo que suena bien, sin embargo, eso significaría que tenemos dos claves en nuestras tablas de hechos para cada zona horaria necesitamos soporte (uno para la fecha y otro para la hora del día).
Como soy muy inexperto en esta área, espero que alguien conozca las compensaciones entre los dos enfoques, es decir, el rendimiento frente a la gestión de todas las diferentes claves de zona horaria. Tal vez también hay otros enfoques, he visto a algunas personas hablar de tener una fila separada en la tabla de hechos por zona horaria, pero eso parece un problema si las tablas de hechos son millones de filas, entonces debe cuadruplicarlo para agregar zonas horarias .
Si hacemos el grano de 15 minutos, tendremos 131,400 (24 * 15 * 365) filas por año en nuestra tabla de dimensiones de fecha y hora que no suena demasiado horrible para el rendimiento, pero no lo sabremos con seguridad hasta que probemos algunos consultas prototipo. La otra preocupación por tener claves de zona horaria separadas en la tabla de hechos es que la consulta debe unir la tabla de dimensiones a una columna diferente en función de la zona horaria deseada, quizás esto es algo que SSAS se encarga de usted, no estoy seguro .
gracias por cualquier pensamiento, -Matt