¿Cómo se mide la no uniformidad de una distribución?

28

Estoy tratando de encontrar una métrica para medir la falta de uniformidad de una distribución para un experimento que estoy ejecutando. Tengo una variable aleatoria que debería distribuirse uniformemente en la mayoría de los casos, y me gustaría poder identificar (y posiblemente medir el grado de) ejemplos de conjuntos de datos donde la variable no se distribuye uniformemente dentro de cierto margen.

Un ejemplo de tres series de datos, cada una con 10 mediciones que representan la frecuencia de la ocurrencia de algo que estoy midiendo, podría ser algo como esto:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Me gustaría poder distinguir distribuciones como c de aquellas como a y b, y medir la desviación de c de una distribución uniforme. De manera equivalente, si hay una métrica de cuán uniforme es una distribución (¿desviación estándar cercana a cero?), Tal vez pueda usarla para distinguir aquellas con alta varianza. Sin embargo, mis datos pueden tener uno o dos valores atípicos, como el ejemplo c anterior, y no estoy seguro de si eso será fácilmente detectable de esa manera.

Puedo hackear algo para hacer esto en software, pero estoy buscando métodos / enfoques estadísticos para justificar esto formalmente. Tomé una clase hace años, pero las estadísticas no son mi área. Esto parece algo que debería tener un enfoque bien conocido. Lo siento si algo de esto es completamente descabellado. ¡Gracias por adelantado!

— JJC
fuente

Relacionado: stats.stackexchange.com/questions/66186/…

— kjetil b halvorsen

18

Si no solo tiene las frecuencias sino los recuentos reales, puede usar una bondad de ajuste para cada serie de datos. En particular, desea utilizar la prueba para una distribución uniforme discreta . Esto le ofrece una buena prueba , que le permite descubrir qué series de datos probablemente no se hayan generado mediante una distribución uniforme, pero no proporciona una medida de uniformidad. $\chi^2$

Hay otros enfoques posibles, como calcular la entropía de cada serie: la distribución uniforme maximiza la entropía, por lo que si la entropía es sospechosamente baja, concluiría que probablemente no tenga una distribución uniforme. Eso funciona como una medida de uniformidad en algún sentido.

Otra sugerencia sería utilizar una medida como la divergencia Kullback-Leibler , que mide la similitud de dos distribuciones.

— MånsT
fuente

Tengo un par de preguntas con respecto a su respuesta: 1. ¿Por qué declara que el chi-cuadrado no da una medida de uniformidad? ¿No es una prueba de ajuste con una distribución uniforme una medida de uniformidad? 2. ¿Cómo podemos saber cuándo debemos usar chi-cuadrado o entropía?

— kanzen_master

@kanzen_master: Supongo que la estadística de chi-cuadrado se puede ver como una medida de uniformidad, pero tiene algunos inconvenientes, como la falta de convergencia, la dependencia de los contenedores colocados arbitrariamente, que el número de recuentos esperados en las celdas necesita ser lo suficientemente grande, etc. Sin embargo, qué medida / prueba usar es una cuestión de gusto, y la entropía tampoco está exenta de problemas (en particular, hay muchos estimadores diferentes de la entropía de una distribución). Para mí, la entropía parece una medida menos arbitraria y es más fácil de interpretar.

— MånsT

8

Además de las buenas ideas de @MansT, usted puede proponer otras medidas, pero depende de lo que quiera decir con "falta de uniformidad". Para simplificarlo, veamos 4 niveles. La uniformidad perfecta es fácil de definir:

25 25 25 25

pero, ¿cuál de los siguientes es más no uniforme?

20 20 30 30 o 20 20 25 35

o son igualmente no uniformes?

Si cree que son igualmente no uniformes, podría utilizar una medida basada en la suma de los valores absolutos de las desviaciones de la normalidad, escalada por el máximo posible. Entonces el primero es 5 + 5 + 5 + 5 = 20 y el segundo es 5 + 5 + 0 + 10 = 20. Pero si crees que el segundo es más no uniforme, podrías usar algo basado en las desviaciones al cuadrado, en cuyo caso el el primero obtiene 25 + 25 + 25 + 25 = 100 y el segundo obtiene 25 + 25 + 0 + 100 = 150.

— Peter Flom - Restablece a Monica
fuente

1

Parece que estás interpretando "distribuido uniformemente" como "igual", Peter. Si esa es la intención del OP es un punto válido para plantear, pero realmente debería aparecer como un comentario a la pregunta.

— whuber

Hola @whuber Eso parecía ser lo que quería decir, de la pregunta. ¿Qué más podría significar?

— Peter Flom - Restablece a Monica

2

"Igual" significa que el CDF es

para

,

para

mientras que "uniforme" significa

para

. Usted define "uniformidad perfecta" en el primer sentido, mientras que el sentido estadístico estándar es el segundo.

F (x) = 1

$F(x) = 1$

x \geq μ

$x\ge \mu$

F (x) = 0

$F(x) = 0$

x < μ

$x\lt \mu$

F (x) = (x - α) / θ

$F(x) = (x-\alpha)/\theta$

x \in [α, α + θ]

$x \in [\alpha, \alpha+\theta]$

— whuber

@whuber, me parece que lo primero está más cerca de lo que el cartel original quería decir con "uniforme". Mirándolo de nuevo, parece que él / ella estaba usando "uniforme" para significar "baja varianza".

— Macro

Eso es todo, Macro: realmente no podemos decirlo. La pregunta necesita aclaración antes de que merezca una respuesta, en mi humilde opinión. La respuesta aceptada sugiere que el OP usó "uniforme" en el sentido estadístico estándar.

— whuber

6

$1$ $\frac{1}{\sqrt d}$ $1$ $d$

$\frac{1}{\sqrt d}$ $1$

$0$ $1$ $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

$1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

$0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

— usuario495285
fuente

1

L_{p}

$L_p$

@whuber que no sé y no sé de ninguna investigación sobre esto. Básicamente es algo que he usado como heurístico que podría ajustarse a lo que está buscando OP, y realmente no afirmo que sea un enfoque preferido.

— user495285

@whuber - ¿Podrías entender teóricamente por qué esto funciona tan bien? Necesito citar esto.

— Ketan

@ user495285 - Esto parece funcionar directamente con valores, y no solo con frecuencias. En su experiencia, ¿es mejor usarlo solo con frecuencias o está bien usarlo directamente en un vector?

— Ketan

L_{2}

$L_2$

χ^{2}

$\chi^2$

0

Encontré esto recientemente, y para agregar a la respuesta de @ user495285, hasta donde yo entiendo:

$\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

$L_2$ $p$

\frac{norte \sqrt{re} - 1}{\sqrt{re} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

Creo que la utilidad de las medidas geométricas se aplica cuando se supone que cada posición (dimensión) del espacio descrito se mide en escalas equivalentes, por ejemplo, todos los recuentos de distribución potencialmente igual. Los mismos supuestos que subyacen al cambio de bases como PCA / SVD probablemente son similares aquí. Pero, de nuevo, no soy matemático, así que lo dejaré abierto a los más informados.

— lakinsm
fuente

Suena útil ¿Podría indicarme alguna referencia para que pueda entenderlo mejor? De hecho, necesito citar esto.

— Ketan

Podría citar cualquier texto de álgebra lineal que cubra la norma Lp; Este es un tema muy común en geometría: cómo calcular una distancia entre dos puntos en un espacio N-dimensional. Es posible que ni siquiera tenga que citarlo dependiendo de su campo.

— lakinsm