¿Por qué no se puede generalizar la prueba de Kolmogorov-Smirnov a 2 o más dimensiones?

La pregunta lo dice todo. He leído que no se puede generalizar KS a una dimensión igual o mayor que dos , y que las implementaciones famosas como esa en Numerical Recipes son simplemente incorrectas. ¿Podría explicar por qué es así?

kolmogorov-smirnov bivariate ecdf

— pedrofigueira
fuente

Agregué algunas etiquetas (bivariadas, empíricas y cdf), sobre la base de la sección citada (en mi respuesta) del documento.

— Glen_b: reinstala a Monica

pedrofigueira: he realizado cambios sustanciales en mi respuesta (mi original estaba equivocado; lo siento). Probablemente haré más ediciones porque tengo la intención de volver con referencias a varias pruebas KS multivariadas.

— Glen_b -Reinstale a Monica

@Glen_b muchas gracias por todo tu tiempo y esfuerzo!

— pedrofigueira

Creo que es legítimo citar la parte relevante del párrafo en cuestión:

3. La prueba KS no se puede aplicar en dos o más dimensiones. Los astrónomos a menudo tienen conjuntos de datos con puntos distribuidos en un plano o dimensiones superiores, en lugar de a lo largo de una línea. Varios artículos en la literatura astronómica pretenden presentar una prueba de KS bidimensional, y uno se reproduce en el famoso volumen Numerical Recipes. Sin embargo, ninguna prueba basada en EDF (esto incluye KS, AD y pruebas relacionadas) se puede aplicar en dos o más dimensiones, porque no hay una forma única de ordenar los puntos para que se puedan calcular las distancias entre EDF bien definidos. Se puede construir una estadística basada en algún procedimiento de pedido y luego calcular las distancias supremos entre dos conjuntos de datos (o un conjunto de datos y una curva). Pero los valores críticos de la estadística resultante no están libres de distribución.

Como se dijo, esto parece demasiado fuerte.

1) La función de distribución bivariada, que es es un mapa de a . Es decir, la función toma valores reales univariantes entre 0 y 1. Esos valores, que son probabilidades, ciertamente ya están "ordenados", y esto (el valor de la función) es lo que necesitamos para hacer comparaciones para pruebas basadas en ECDF . Del mismo modo, el ecdf, está perfectamente bien definido en el caso bivariado. $F(x_1,x_2) = P(X_1\leq x_1,X_2\leq x_2)$ $\mathbb{R}^2$ $[0,1]$ $\hat F$

No creo que sea necesariamente necesario tratar de convertirlo en alguna función de una variable combinada univariante como sugiere el texto. Simplemente calcule y en cada combinación requerida y calcule la diferencia. $F$ $\hat F$

2) Sin embargo, sobre la cuestión de si está libre de distribución, tienen un punto:

a) claramente, tal estadística de prueba no se vería alterada por cambios en las transformaciones de los márgenes, es decir, si se construye como una prueba de uniformes independientes bivariados, , entonces funciona igualmente así como una prueba de independiente donde . En ese sentido, no tiene distribución (podríamos decir 'sin margen'). $\mathbf{U}=(U_1,U_2)$ $(X_1,X_2)$ $U_i=F_i(X_i)$

b) sin embargo, hay un punto subyacente más general en el sentido más amplio de que una versión ingenua de la estadística KS (como acabo de describir) no está generalmente más libre de distribución; no podemos simplemente transformar arbitrariamente . $U$ $X^* = \mathbf{g}(\mathbf{U})$

En una versión anterior de mi respuesta dije:

No hay dificultad, no hay problema

Eso está mal. De hecho, hay problemas si hay un cambio no solo en los márgenes de los uniformes independientes bivariados, como se mencionó anteriormente. Sin embargo, esas dificultades se han considerado de varias maneras en varios documentos que producen versiones bivariadas / multivariadas de las estadísticas de Kolmogorov-Smirnov que no sufren ese problema.

Puedo volver y agregar algunas de esas referencias y una discusión sobre cómo funcionan tan pronto como el tiempo lo permita.

— Glen_b -Reinstate a Monica
fuente

Esta respuesta es claramente correcta, pero tenga cuidado: que la prueba KS se puede usar, no significa que se deba usar. Por lo general, hay pruebas mucho mejores (más potentes).

— kjetil b halvorsen

Ciertamente, aunque depende de qué alternativas sean de interés.

— Glen_b -Reinstale a Monica

No entiendo completamente esta respuesta. Me imagino que muchos conjuntos de datos astronómicos (así como muchos otros conjuntos de datos de dimensiones pequeñas) no vienen con sistemas de coordenadas intrínsecamente significativos. Por lo tanto, su reclamo de que los puntos están "ordenados" no sería válido en tales circunstancias. Podría rescatarse si pudieras demostrar que la estadística KS es independiente de las coordenadas utilizadas para identificar las ubicaciones . No creo que sea cierto en dos o más dimensiones, pero podría estar equivocado.

— whuber

@whuber He realizado cambios sustanciales a la luz de su amable respuesta a mi error. Probablemente haré más cambios a medida que agregue referencias y más detalles con la esperanza de hacer una respuesta que sea más útil a largo plazo.

— Glen_b -Reinstale a Monica

(+1) Muchas gracias, Glen, por ampliar esta respuesta y hacerla más matizada. Aunque encuentro la referencia de calidad dudosa del OP (al principio, malinterpreta lo que significan las pruebas de hipótesis), finalmente admite que "el arranque puede venir al rescate, y los niveles de significancia para la estadística multidimensional particular y el conjunto de datos particular en estudio pueden ser calculado numéricamente ". Esto parece alineado, al menos en espíritu, con cómo se está formando su respuesta.

— whuber