La pregunta lo dice todo. He leído que no se puede generalizar KS a una dimensión igual o mayor que dos , y que las implementaciones famosas como esa en Numerical Recipes son simplemente incorrectas. ¿Podría explicar por qué es así?
La pregunta lo dice todo. He leído que no se puede generalizar KS a una dimensión igual o mayor que dos , y que las implementaciones famosas como esa en Numerical Recipes son simplemente incorrectas. ¿Podría explicar por qué es así?
Respuestas:
Creo que es legítimo citar la parte relevante del párrafo en cuestión:
3. La prueba KS no se puede aplicar en dos o más dimensiones. Los astrónomos a menudo tienen conjuntos de datos con puntos distribuidos en un plano o dimensiones superiores, en lugar de a lo largo de una línea. Varios artículos en la literatura astronómica pretenden presentar una prueba de KS bidimensional, y uno se reproduce en el famoso volumen Numerical Recipes. Sin embargo, ninguna prueba basada en EDF (esto incluye KS, AD y pruebas relacionadas) se puede aplicar en dos o más dimensiones, porque no hay una forma única de ordenar los puntos para que se puedan calcular las distancias entre EDF bien definidos. Se puede construir una estadística basada en algún procedimiento de pedido y luego calcular las distancias supremos entre dos conjuntos de datos (o un conjunto de datos y una curva). Pero los valores críticos de la estadística resultante no están libres de distribución.
Como se dijo, esto parece demasiado fuerte.
1) La función de distribución bivariada, que es es un mapa de a . Es decir, la función toma valores reales univariantes entre 0 y 1. Esos valores, que son probabilidades, ciertamente ya están "ordenados", y esto (el valor de la función) es lo que necesitamos para hacer comparaciones para pruebas basadas en ECDF . Del mismo modo, el ecdf, está perfectamente bien definido en el caso bivariado.
No creo que sea necesariamente necesario tratar de convertirlo en alguna función de una variable combinada univariante como sugiere el texto. Simplemente calcule y en cada combinación requerida y calcule la diferencia.
2) Sin embargo, sobre la cuestión de si está libre de distribución, tienen un punto:
a) claramente, tal estadística de prueba no se vería alterada por cambios en las transformaciones de los márgenes, es decir, si se construye como una prueba de uniformes independientes bivariados, , entonces funciona igualmente así como una prueba de independiente donde . En ese sentido, no tiene distribución (podríamos decir 'sin margen').
b) sin embargo, hay un punto subyacente más general en el sentido más amplio de que una versión ingenua de la estadística KS (como acabo de describir) no está generalmente más libre de distribución; no podemos simplemente transformar arbitrariamente .
En una versión anterior de mi respuesta dije:
No hay dificultad, no hay problema
Eso está mal. De hecho, hay problemas si hay un cambio no solo en los márgenes de los uniformes independientes bivariados, como se mencionó anteriormente. Sin embargo, esas dificultades se han considerado de varias maneras en varios documentos que producen versiones bivariadas / multivariadas de las estadísticas de Kolmogorov-Smirnov que no sufren ese problema.
Puedo volver y agregar algunas de esas referencias y una discusión sobre cómo funcionan tan pronto como el tiempo lo permita.