Kolmogorov-Smirnov de dos muestras


9

Estoy usando la prueba de dos muestras de Kolmogorov-Smirnov para comparar distribuciones, y noté que un valor se informa con frecuencia como estadística de prueba. ¿Cómo se determina este valor ? Sé que es la probabilidad de obtener un resultado al menos tan grande como el obtenido, pero ¿cómo se determina este valor dado que esta es una prueba no paramétrica? Es decir, no podemos suponer fluctuaciones gaussianas en la distribución y calcular el valor usando una prueba .ppppt

¡Gracias!


55
La estadística de Kolmogorov-Smirnov (sobre la clase de distribuciones de variables aleatorias continuas) no tiene distribución . Entonces, la distribución del estadístico de prueba no depende de la distribución subyacente de los datos (bajo la hipótesis nula).
cardenal

2
El punto de @ Cardinal se hace en un comentario en la entrada de Wikipedia . Tenga en cuenta que la distribución del estadístico de prueba es asintótica (es decir, válida cuando el tamaño de muestra más pequeño es grande); es probable que no depende de la distribución subyacente común para muestras pequeñas.
whuber

@whuber: Me temo que no entiendo bien tu comentario y no quiero malinterpretarlo. Ciertamente, la distribución en muestras finitas no será exactamente la misma que la distribución asintótica, pero eso no impide que la estadística esté libre de distribución para cada tamaño de muestra fijo (realmente ya que los tamaños pueden diferir). [cont]n(n1,n2)
cardenal

55
@whuber: ... Deje que y sean secuencias iid independientes. Entoncesy. Entonces, con el supuesto antes mencionado de que y son distribuciones continuas, bajo la hipótesis nula , vemos quees igual en distribución a la misma estadística obtenida de dos muestras independientes del mismo tamaño. XiFYiGnF^n(x)=|{i:Xix}|=|{i:F(Xi)F(x)}|nG^n(x)=|{i:Yix}|=|{i:G(Yi)G(x)}|FGF=Gsup|F^n(x)G^n(x)|U(0,1)
cardenal

1
@whuber: Creo que estos son dos efectos separados, pero sutilmente diferentes. En cierto sentido, nos gustan los asintóticos precisamente porque (a menudo) nos dan una estadística libre de distribución "en el límite" (en virtud del CLT). Por lo tanto, el hecho de que el valor informado sea ​​independiente del supuesto de distribución no es tan notable. Entonces, uno podría preguntarse, ¿cuál es el punto de una estadística libre de distribución si no puedo (fácilmente) calcular su distribución para un tamaño de muestra dado y, en cambio, debo confiar en una aproximación asintótica? Lo que parece ganar es una versión de convergencia uniforme. p
cardenal

Respuestas:


10

Bajo la hipótesis nula, la distribución asintótica del estadístico de Kolmogorov-Smirnov de dos muestras es la distribución de Kolmogorov, que tiene CDF

Pr(Kx)=2πxi=1e(2i1)2π2/(8x2).

Los valores se pueden calcular a partir de este CDF; consulte la Sección 4 y la Sección 2 de la página de Wikipedia sobre la prueba de Kolmogorov-Smirnov.p

Parece que está diciendo que una estadística de prueba no paramétrica no debería tener una distribución, ese no es el caso, lo que hace que esta prueba no sea paramétrica es que la distribución de la estadística de prueba no depende de la distribución de probabilidad continua de los datos originales. viene de. Tenga en cuenta que la prueba KS tiene esta propiedad incluso para muestras finitas como se muestra en @cardinal en los comentarios.


3
(+1) Podría sugerir un pequeño ajuste a tu última oración. El estadístico de prueba no tiene distribución incluso en muestras finitas (aunque no será lo mismo que la distribución asintótica). Entonces, esta propiedad libre de distribución es lo que hace que la estadística de prueba no sea paramétrica. Tenga en cuenta que hay muchos ejemplos en los que la distribución asintótica no depende de la distribución continua subyacente (solo piense en el CLT), por lo que, a menos que me equivoque, no creo que esa sea la característica principal aquí. :)
cardenal

Hice la corrección, pero cuanto más lo pienso, más me pregunto cómo sabe que la estadística realmente no depende de la distribución original de los datos en muestras finitas. ¿Puede decir algo más sobre este @cardinal?
Macro

Por supuesto. Vea el cuarto comentario (el tercero) a la pregunta anterior.
cardenal

¡Veo! muy genial y simple - gracias cardenal
Macro

Nadie ha abordado la distribución en pequeñas muestras, donde podemos calcular directamente la distribución de permutación de la estadística. Si tenemos etiquetas etiquetas , podemos anotar todos los órdenes posibles de ellas (correspondientes a los valores todos ordenados de menor a mayor) y es posible calcular el estadístico KS de dos muestras directamente a partir de eso. En la práctica, el algoritmo para encontrar un valor p se puede hacer más sofisticado que simplemente escribir todas las posibilidades (de cualquier manera, la cantidad de cálculo crece rápidamente, pero la distribución asintótica llega bastante rápido)m Xn Y
Glen_b -Reinstate Monica

0

El valor p de, digamos 0.80, implica que el 80% de las muestras de tamaño n de muestras de la población tendrán una estadística D menor que la obtenida de la prueba. Esto se calcula con base en la estadística D de la prueba KS, que mide la distancia máxima entre los CDF de distribución teórica y empírica, para la distribución dada contra la cual se evalúa la muestra.

Tenga en cuenta que solo el valor D * SQRT (tamaño de muestra) tiene una distribución kolmogrov y no D en sí. Si desea calcular manualmente el valor p dado el valor D, puede consultar las tablas publicadas disponibles en Internet para la distribución de kolomogrov. Este es también el valor dado en paquetes como R


Esta no es una respuesta claramente explicada.
Michael R. Chernick

Es una continuación de la respuesta anterior publicada por Macro arriba. A diferencia de lo que muchos creen, el valor p calculado por el paquete R es perfecto. Significa que si toma cada muestra posible de un tamaño dado de la población y la compara con la distribución teórica, el valor de [distancia máxima D * SQRT (tamaño de muestra)] calculado contra cada muestra, tendrá una distribución de kolomogrov. Para un estadístico D dado, el paquete R da el valor de probabilidad de que la muestra de la diferencia dada pertenezca a la población teórica, 0.8 significa que solo el 20% tendrá mayor D
Murugesan Narayanaswamy
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.