Soy un novato tratando de entender OLAP, y tengo algunas preguntas.
- Pregunta 1: ¿Puede un cubo OLAP almacenar medianas, modos, percentiles?
- Pregunta 2: ¿Puede una consulta MDX escrita por el usuario devolver un resumen de datos a nivel de fila? (Ej:% de transacciones> $ 100). ¿O el diseñador del cubo debe agregar esto al cubo?
- Pregunta 3: ¿Hay algún producto OLAP que ahora proporcione mecanismos para acceder a los datos a nivel de fila? ¿Cuales?
Nuestro departamento de TI está buscando comentarios sobre qué tipo de problemas tenemos con un cubo ROLAP de MS Analsis Services en particular. No tenemos acceso a la base de datos relacional detrás de ella y necesitamos realizar cálculos que actualmente no están disponibles como medidas en el cubo.
Déjame ver si tengo este derecho.
- Un cubo puede proporcionar estadísticas para recuentos, medias, proporciones, desviaciones estándar.
- Si una estadística particular no ha sido atendida en una medida proporcionada por el diseñador de cubos, ¿podemos escribir una consulta MDX para obtenerla? ¿O necesitan cambiar el cubo para calcularlo previamente a partir de los datos de nivel de fila?
- Un cubo no puede proporcionar estadísticas como medianas, modos o percentiles, porque estas estadísticas no se agregan correctamente.
Estoy leyendo La gramática de gráficos de Leland Wilkinson y en su capítulo sobre Minería de datos y OLAP, dice
Estas [operaciones de cubo] funcionan bien con estadísticas como conteos, medias, proporciones y desviaciones estándar. Las agregaciones simples sobre subclases se pueden calcular operando sumas, sumas de cuadrados y otros términos que se combinan en funciones lineales para producir estadísticas de resumen básicas.
No funcionan correctamente con estadísticas como la mediana, la moda y los percentiles porque el agregado de estas estadísticas no es la estadística de sus agregados. La mediana de las medianas no es la mediana del agregado, por ejemplo.
Él continúa agregando:
Sin embargo, recientemente ha surgido un modelo ROLAP más sofisticado. Es posible, a través de varias tecnologías, dar acceso a algoritmos estadísticos a datos sin procesar a través del modelo relacional en tiempo real. Este enfoque es más prometedor que las agregaciones rígidas que ofrecen estructuras como los cubos de datos.
En la forma más elegante de esta arquitectura, las aplicaciones pueden solicitar conexiones remotas para proporcionar información sobre sus métodos de manejo de datos y tomar las medidas adecuadas en función de la información devuelta. De esta forma, la arquitectura de componentes puede lograr la promesa real de la computación distribuida: diseño y ejecución que son independientes del sitio, sistema operativo o lenguaje.
Eso fue escrito alrededor de 2005. ¿Alguien sabe de los productos que emplean esta metodología para permitir el acceso a datos a nivel de fila?