Estoy tratando de encontrar una métrica para medir la falta de uniformidad de una distribución para un experimento que estoy ejecutando. Tengo una variable aleatoria que debería distribuirse uniformemente en la mayoría de los casos, y me gustaría poder identificar (y posiblemente medir el grado de) ejemplos de conjuntos de datos donde la variable no se distribuye uniformemente dentro de cierto margen.
Un ejemplo de tres series de datos, cada una con 10 mediciones que representan la frecuencia de la ocurrencia de algo que estoy midiendo, podría ser algo como esto:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Me gustaría poder distinguir distribuciones como c de aquellas como a y b, y medir la desviación de c de una distribución uniforme. De manera equivalente, si hay una métrica de cuán uniforme es una distribución (¿desviación estándar cercana a cero?), Tal vez pueda usarla para distinguir aquellas con alta varianza. Sin embargo, mis datos pueden tener uno o dos valores atípicos, como el ejemplo c anterior, y no estoy seguro de si eso será fácilmente detectable de esa manera.
Puedo hackear algo para hacer esto en software, pero estoy buscando métodos / enfoques estadísticos para justificar esto formalmente. Tomé una clase hace años, pero las estadísticas no son mi área. Esto parece algo que debería tener un enfoque bien conocido. Lo siento si algo de esto es completamente descabellado. ¡Gracias por adelantado!