Medianas, Modos, Percentiles y OLAP


9

Soy un novato tratando de entender OLAP, y tengo algunas preguntas.

  • Pregunta 1: ¿Puede un cubo OLAP almacenar medianas, modos, percentiles?
  • Pregunta 2: ¿Puede una consulta MDX escrita por el usuario devolver un resumen de datos a nivel de fila? (Ej:% de transacciones> $ 100). ¿O el diseñador del cubo debe agregar esto al cubo?
  • Pregunta 3: ¿Hay algún producto OLAP que ahora proporcione mecanismos para acceder a los datos a nivel de fila? ¿Cuales?

Nuestro departamento de TI está buscando comentarios sobre qué tipo de problemas tenemos con un cubo ROLAP de MS Analsis Services en particular. No tenemos acceso a la base de datos relacional detrás de ella y necesitamos realizar cálculos que actualmente no están disponibles como medidas en el cubo.

Déjame ver si tengo este derecho.

  1. Un cubo puede proporcionar estadísticas para recuentos, medias, proporciones, desviaciones estándar.
  2. Si una estadística particular no ha sido atendida en una medida proporcionada por el diseñador de cubos, ¿podemos escribir una consulta MDX para obtenerla? ¿O necesitan cambiar el cubo para calcularlo previamente a partir de los datos de nivel de fila?
  3. Un cubo no puede proporcionar estadísticas como medianas, modos o percentiles, porque estas estadísticas no se agregan correctamente.

Estoy leyendo La gramática de gráficos de Leland Wilkinson y en su capítulo sobre Minería de datos y OLAP, dice

Estas [operaciones de cubo] funcionan bien con estadísticas como conteos, medias, proporciones y desviaciones estándar. Las agregaciones simples sobre subclases se pueden calcular operando sumas, sumas de cuadrados y otros términos que se combinan en funciones lineales para producir estadísticas de resumen básicas.

No funcionan correctamente con estadísticas como la mediana, la moda y los percentiles porque el agregado de estas estadísticas no es la estadística de sus agregados. La mediana de las medianas no es la mediana del agregado, por ejemplo.

Él continúa agregando:

Sin embargo, recientemente ha surgido un modelo ROLAP más sofisticado. Es posible, a través de varias tecnologías, dar acceso a algoritmos estadísticos a datos sin procesar a través del modelo relacional en tiempo real. Este enfoque es más prometedor que las agregaciones rígidas que ofrecen estructuras como los cubos de datos.

En la forma más elegante de esta arquitectura, las aplicaciones pueden solicitar conexiones remotas para proporcionar información sobre sus métodos de manejo de datos y tomar las medidas adecuadas en función de la información devuelta. De esta forma, la arquitectura de componentes puede lograr la promesa real de la computación distribuida: diseño y ejecución que son independientes del sitio, sistema operativo o lenguaje.

Eso fue escrito alrededor de 2005. ¿Alguien sabe de los productos que emplean esta metodología para permitir el acceso a datos a nivel de fila?


1
No hay tomadores? ¿Alguna sugerencia sobre cómo mejorar la pregunta para obtener una respuesta?
Tommy O'Dell

Respuestas:


5

Para responder a sus preguntas en orden:

  1. El cubo no almacena medianas, modos (o incluso promedios), pero puede escribir consultas que los calculen e incrustar como medidas calculadas en el cubo. La capacidad de incorporar este tipo de cálculo es uno de los principales puntos de venta únicos de la tecnología OLAP.
  2. Si tiene una dimensión que puede identificar filas individuales (que podría ser una dimensión degenerada o 'de hecho' derivada de un identificador en la tabla de hechos), puede hacer una consulta basada en filas individuales. Sin embargo, OLAP funciona en términos de dimensiones y agregados, por lo que necesitaría tener una dimensión capaz de identificar filas individuales (con un agregado compuesto de un valor).
  3. Cualquier herramienta OLAP puede hacer lo que se describe en (2), además de que generalmente admiten un mecanismo conocido como 'obtención de detalles' en el que el cubo devolverá un bordereaux de los datos transaccionales subyacentes a un segmento determinado en el que se profundiza.

Si desea realizar cálculos que no están directamente disponibles en el script de cubo, muchas herramientas OLAP como ProClarity tardía y lamentada le permitirán formular consultas que involucren cálculos personalizados basados ​​en MDX. A menos que el cubo no tenga la información que necesita para hacer los cálculos reales, los cálculos personalizados de MDX deberían ser compatibles con cualquier cálculo que necesite.

Aunque las consultas OLAP se asocian tradicionalmente con consultas estadísticas en conjunto, si tiene una dimensión que permite profundizar en los detalles que necesita, ciertamente es posible formular consultas que calcularán medianas, percentiles o consultas de histograma a partir de las cuales se pueden inferir o calcular los modos.

Por ejemplo, esto tiene un ejemplo de una consulta de análisis pareto , que se basa en clasificaciones.

Muchos productos de cubo pueden operar en un modo OLAP híbrido o relacional donde no persisten los datos ellos mismos sino que los consultan desde una base de datos subyacente. Además, las herramientas ROLAP puras como Business Objects, Report Builder o Discoverer pueden realizar consultas desde una base de datos subyacente y trabajar fila por fila. Sin embargo, tienden a carecer de la sofisticación de los productos OLAP dedicados, y no tienen mucha capacidad de análisis estadístico fuera de la caja.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.