Prueba de bondad de ajuste: pregunta sobre la prueba de Anderson-Darling y el criterio de Cramér-von Mises


10

Estoy leyendo páginas web para pruebas de bondad de ajuste, cuando llegué a la prueba Anderson-Darling y al criterio de Cramér-von Mises .

Hasta ahora entendí el punto; parece que la prueba de Anderson-Darling y el criterio de Cramér-von Mises son similares, simplemente basados ​​en una función de ponderación diferente . También hay una variante del criterio de Cramér-von Mises llamada prueba de Watson .w

Básicamente tengo dos preguntas aquí

  1. No hay muchos resultados de Google sobre estos dos métodos; ¿Siguen siendo lo último? o reemplazado por algunos mejores enfoques ya?

    Es un poco sorprendente, ya que de acuerdo con este documento sobre comparaciones de poder de las pruebas de Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors y Anderson-Darling , AD está funcionando bastante bien; siempre mejor que Lilliefors y KS, y muy cerca de la prueba SW, que está específicamente diseñada para la distribución normal.

  2. ¿Cuál es el intervalo de confianza para tales pruebas?

    Para las pruebas AD, CM y Watson, vi la variable estadística de prueba definida en las páginas wiki, pero no encontré el intervalo de confianza.

    KαK

Respuestas:


4

No puede haber un solo estado de la técnica para la bondad de ajuste (por ejemplo, no existirá una prueba UMP en todas las alternativas generales, y realmente nada se acerca, incluso las pruebas omnibus altamente respetadas tienen un poder terrible en algunas situaciones).

En general, al seleccionar un estadístico de prueba, elige los tipos de desviación que es más importante detectar y utilizar un estadístico de prueba que sea bueno en ese trabajo. Algunas pruebas funcionan muy bien en una amplia variedad de alternativas interesantes, lo que las convierte en opciones decentes por defecto, pero eso no las convierte en "estado del arte".

Anderson Darling sigue siendo muy popular y con buenas razones. La prueba de Cramer-von Mises se usa mucho menos en estos días (para mi sorpresa, porque generalmente es mejor que el Kolmogorov-Smirnov, pero más simple que el Anderson-Darling, y a menudo tiene un mejor poder que él en las diferencias "en el medio" de la distribución)

Todas estas pruebas adolecen de sesgo en contra de algunos tipos de alternativas, y es fácil encontrar casos en los que Anderson-Darling tenga mucho peor (terriblemente, en realidad) que las otras pruebas. (Como sugiero, son más 'caballos para cursos' que una prueba para gobernarlos a todos). Desafortunadamente, a menudo se presta poca atención a este problema (¿qué es lo mejor para detectar las desviaciones que más me importan?)

Puede encontrar algún valor en algunas de estas publicaciones:

¿Es Shapiro-Wilk la mejor prueba de normalidad? ¿Por qué podría ser mejor que otras pruebas como Anderson-Darling?

2 Muestra de Kolmogorov-Smirnov vs. Anderson-Darling vs Cramer-von-Mises (sobre pruebas de dos muestras pero muchas de las declaraciones se transfieren

Motivación para la distancia de Kolmogorov entre distribuciones (más discusión teórica pero hay varios puntos importantes sobre implicaciones prácticas)


No creo que pueda formar un intervalo de confianza para el cdf en las estadísticas de Cramer-von Mises y Anderson Darline, porque los criterios se basan en todas las desviaciones y no solo en las más grandes.


Tomé "estado de la técnica" como algo que encuentra un uso que no es obsoleto. La existencia de múltiples definiciones de bondad de ajuste debería indicarnos que la bondad de ajuste no es un concepto único. Considere que "bueno" depende de "por qué" estamos realizando una regresión. Supongamos que estamos ajustando el Modelo A a los datos B para obtener un mejor predictor del efecto C. Entonces "bueno" es el mejor predictor de C no B. Sin embargo, la mayoría de las veces se ignora la cuestión de cómo difieren B y C.
Carl

1
@Carl, es posible que desee consultar un diccionario (o wikipedia) sobre el estado del arte que generalmente se entiende: su interpretación de la frase no es cómo la mayoría de la gente la lee. Los diccionarios dicen cosas como esta: " la etapa más reciente del desarrollo, incorporando las ideas más nuevas " y " el nivel más alto de desarrollo en un momento dado " y " vanguardia, utilizando la última tecnología ". En este contexto, probando la bondad del ajuste, la frase implica "lo mejor que podemos hacer en este momento". Insisto, eso no es algo que realmente puedas decir sobre cualquier prueba individual. ...
ctd

2
... por ejemplo, podemos decir que las pruebas populares como Shapiro-Wilk (aunque son muy populares en las pruebas de normalidad) tienen competidores con un poder ampliamente mejor (por ejemplo, ver Shapiro y Chen 1995), pero no en todas las situaciones. No hay una sola mejor opción de prueba (y, por lo tanto, no hay un "estado del arte" real). Ciertamente, estoy de acuerdo en que lo mejor (estado del arte) depende de las circunstancias, ese es el punto de mi respuesta; Las posibles respuestas son innumerables: algo bueno en una situación puede ser muy pobre en otra. Vale la pena saber cuándo las pruebas funcionan bien en lugar de preguntar "qué es lo mejor" como si fuera una sola cosa.
Glen_b -Reinstale a Monica el

Es cierto, su definición es más correcta. Sin embargo, hay muchos más métodos que pruebas de métodos, y el "estado del arte" es en gran parte ficción, es decir, el "arte" no tiene "estado", todo lo que tiene son protagonistas. Cualquier respuesta a un post tan nebuloso es equívoca. Dije 'sí' y tú dijiste 'no' y ambos dijimos lo mismo.
Carl

Por cierto, la pregunta era "estado del arte" o "reemplazado", lo que entendí que significaba "obsoleto o no obsoleto". Así que hubo un contexto para mi respuesta cuyo contexto fue "Por favor, suponga que 'estado del arte' y 'reemplazar' son antónimos, y elija uno de esos". Tienes razón en que esos no son antónimos, estaba respondiendo en contexto y elegiste rogar la pregunta. Entonces, la mía fue la respuesta cortés. Y voy a votar su respuesta, porque creo que es informativa, si no excesivamente cortés.
Carl

2

n=400 es una prueba de bondad de ajuste de función de densidad acumulativa más potente que la prueba de Kolmogorov-Smirnov y puede tener una potencia mayor o menor que la prueba de t. Chi-cuadrado tiene dificultad con recuentos bajos de células, por lo que se utilizan restricciones de rango para ajustar las colas.

** Pregunta 1: ... ¿son ... estos dos métodos ... todavía de vanguardia? o reemplazado por algunos mejores enfoques ya? Pregunta 2 ¿Cuál es el intervalo de confianza para tales pruebas? ** **

Respuesta: son de última generación. Sin embargo, a veces queremos intervalos de confianza, no probabilidades. Al comparar estos métodos entre sí, hablamos de poder en lugar de intervalos de confianza. A veces, la bondad de ajuste se analiza utilizando AIC, BIC y otros criterios en contraste con las probabilidades de un buen ajuste, y a veces el criterio de bondad de ajuste es irrelevante, por ejemplo, cuando la bondad de ajuste no es el criterio para el ajuste . En el último caso, nuestro objetivo de regresión puede ser una cantidad física no relacionada con el ajuste, por ejemplo, ver Tk-GV .


NB La prueba de Anderson-Darling es una versión ponderada de la prueba de Cramer-von Mises; Y, al igual que, adecuado para cualquier distribución continua.
Scortchi - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.