¿Por qué funciona la prueba de Kolmogorov-Smirnov?

25

Al leer sobre la prueba KS de 2 muestras, entiendo exactamente lo que está haciendo, pero no entiendo por qué funciona .

En otras palabras, puedo seguir todos los pasos para calcular las funciones de distribución empírica, encontrar la diferencia máxima entre los dos para encontrar el estadístico D, calcular los valores críticos, convertir el estadístico D en un valor p, etc.

Pero, no tengo idea de por qué nada de esto realmente me dice algo sobre las dos distribuciones.

Alguien podría haberme dicho con la misma facilidad que necesito saltar sobre un burro y contar qué tan rápido se escapa y si la velocidad es inferior a 2 km / h, rechazo la hipótesis nula. Claro que puedo hacer lo que me dijiste que hiciera, pero ¿qué tiene eso que ver con la hipótesis nula?

¿Por qué funciona la prueba KS de 2 muestras? ¿Qué tiene que ver la computación de la diferencia máxima entre los ECDF con lo diferentes que son las dos distribuciones?

Cualquier ayuda es apreciada. No soy un estadístico, así que suponga que soy un idiota si es posible.

— Darcy
fuente

44

¡Bienvenido a CV, Darcy! Gran pregunta!

— Alexis

1

Salta sobre un burro ... :)

— Richard Hardy

9

Básicamente, la prueba es consistente como resultado directo del teorema de Glivenko Cantelli, uno de los resultados más importantes de los procesos empíricos y quizás de las estadísticas.

$n \rightarrow \infty$

¿Cuánto tiempo? Mmyyeeaa no lo sé. El poder de la prueba es algo dudoso. Nunca lo usaría en realidad.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf

— AdamO
fuente

2

+1 Hola AdamO! ¿Tiene una o dos oraciones para que el poder sea "dudoso"? Me encantaría esa perspectiva (he deducido que la prueba se considera fácilmente "superada").

— Alexis

1

F_{1}

$F_1$

F_{2}

$F_2$

p > 0.05

$p > 0.05$

p < 0.05

$p < 0.05$

F_{1} = F_{2}

$F_1 = F_2$

1

F_{1}

$F_{1}$

\neq F_{2}

$\ne F_{2}$

2

@Alexis no, no me preocupan las matemáticas de la prueba. De hecho, creo que es bastante elegante y el resultado del teorema del límite es muy impresionante.

— AdamO

2

F_{1}

$F_1$

F_{2}

$F_2$

9

Tenemos dos muestras independientes, univariadas:

\begin{aligned} X_{1}, X_{2}, . . ., X_{N} & \overset{i i d}{\sim} F \\ Y_{1}, Y_{2}, . . ., Y_{M} & \overset{i i d}{\sim} G, \end{aligned}

$\begin{align} X_1,\,X_2,\,...,\,X_N&\overset{iid}{\sim}F\\ Y_1,\,Y_2,\,...,\,Y_M&\overset{iid}{\sim}G, \end{align}$

G

$G$

F

$F$

\begin{aligned} H_{0} & : F (x) = G (x) for all x \in R \\ H_{1} & : F (x) \neq G (x) for some x \in R . \end{aligned}

$\begin{align} H_0&:F(x) = G(x)\quad\text{for all } x\in\mathbb{R}\\ H_1&:F(x) \neq G(x)\quad\text{for some } x\in\mathbb{R}. \end{align}$

{X_{i}}_{i = 1}^{N}

$\{X_i\}_{i=1}^N$

{Y_{j}}_{j = 1}^{M}

$\{Y_j\}_{j=1}^M$

X_{i}

$X_i$

Y_{j}

$Y_j$

F

$F$

G

$G$

x

$x$

F

$F$

G

$G$

F (x) \neq G (x)

$F(x)\neq G(x)$

x \in R

$x\in\mathbb{R}$

— jcz
fuente

8

Una toma intuitiva:

La prueba de Kolmogorov-Smirnov se basa fundamentalmente en el orden de las observaciones por distribución. La lógica es que si las dos distribuciones subyacentes son iguales, entonces, dependiendo del tamaño de la muestra, el orden debería ser bastante bien entre las dos.

$Y$ $X$ $D$

$D$ $X$ $Y$

— Alexis
fuente