Prueba de hipótesis de distribución: ¿de qué sirve hacerlo si no puede "aceptar" su hipótesis nula?

26

Varias pruebas de hipótesis, como la GOF, Kolmogorov-Smirnov, Anderson-Darling, etc., siguen este formato básico: $\chi^{2}$

$H_0$ : los datos siguen la distribución dada.

$H_1$ : los datos no siguen la distribución dada.

Típicamente, uno evalúa la afirmación de que algunos datos dados siguen a una distribución dada, y si uno rechaza , los datos no se ajustan bien a la distribución dada en algún nivel . $H_0$ $\alpha$

Pero, ¿y si no rechazamos ? Siempre me han enseñado que no se puede "aceptar" , por lo que, básicamente, no tenemos pruebas de rechazar . Es decir, no hay evidencia de que rechacemos que los datos sigan la distribución dada. $H_0$ $H_0$ $H_0$

Por lo tanto, mi pregunta es, ¿cuál es el punto de realizar tales pruebas si no podemos concluir si los datos siguen o no una distribución dada?

— Clarinetista
fuente

1

Es muy tentador responder solo "¿cuál es el punto de prueba [en general] si uno no puede aceptar la hipótesis nula?". En todos los casos, las pruebas estadísticas no son la única base para la toma de decisiones. Más bien, tomamos una decisión y utilizamos datos para cuantificar el riesgo / costo de los errores de Tipo I / II. Si simplemente resumiéramos la calidad o el grado de ajuste con gráficos útiles, diagramas QQ y estadísticas predictivas, se nos informaría adecuadamente sobre el riesgo de "aceptar lo nulo".

— AdamO

@AdamO Cuando pregunté esto hace tres años, acababa de terminar una licenciatura en matemáticas (énfasis en estadísticas). Ahora que estoy a la mitad de un programa de estadísticas de EM y después de haber realizado un trabajo profesional, ahora entiendo esto. Es realmente lamentable cómo se enseñan las estadísticas en muchos programas de pregrado, pero estoy divagando.

— Clarinetista el

37

Hablando en términos generales (no solo por la bondad de las pruebas de ajuste, sino en muchas otras situaciones), simplemente no se puede concluir que el nulo es verdadero, porque hay alternativas que no se pueden distinguir efectivamente del nulo en cualquier tamaño de muestra dado.

Aquí hay dos distribuciones, una normal estándar (línea continua verde) y otra similar (90% normal estándar y 10% beta estandarizada (2,2), marcada con una línea roja discontinua):

ingrese la descripción de la imagen aquí

El rojo no es normal. Con digamos , tenemos pocas posibilidades de detectar la diferencia, por lo que no podemos afirmar que los datos se extraen de una distribución normal, ¿qué pasaría si fuera de una distribución no normal como la roja? $n=100$

Las fracciones más pequeñas de betas estandarizadas con parámetros iguales pero más grandes serían mucho más difíciles de ver como diferentes de lo normal.

Pero dado que los datos reales casi nunca provienen de una distribución simple, si tuviéramos un oráculo perfecto (o tamaños de muestra realmente infinitos), esencialmente siempre rechazaríamos la hipótesis de que los datos provienen de alguna forma de distribución simple.

Como George Box dijo : " Todos los modelos están equivocados, pero algunos son útiles " .

Considere, por ejemplo, probar la normalidad. Puede ser que los datos realmente provengan de algo cercano a lo normal, pero ¿alguna vez serán exactamente normales? Probablemente nunca lo sean.

En cambio, lo mejor que puede esperar con esa forma de prueba es la situación que describe. (Ver, por ejemplo, la publicación ¿Las pruebas de normalidad son esencialmente inútiles?, Pero hay una serie de otras publicaciones aquí que hacen puntos relacionados)

Esta es parte de la razón por la que a menudo sugiero a las personas que la pregunta en la que realmente están interesados (que a menudo es algo más cercano a '¿mis datos están lo suficientemente cerca de la distribución como para poder hacer inferencias adecuadas sobre esa base?') no está bien respondido por pruebas de bondad de ajuste. En el caso de la normalidad, a menudo los procedimientos de inferencia que desean aplicar (pruebas t, regresión, etc.) tienden a funcionar bastante bien en muestras grandes, a menudo incluso cuando la distribución original es claramente no normal, solo cuando una bondad de La prueba de ajuste será muy probable que rechace la normalidad . De poco sirve tener un procedimiento que sea más probable que le diga que sus datos no son normales solo cuando la pregunta no importa. $F$

Considere la imagen de arriba nuevamente. La distribución roja no es normal, y con una muestra realmente grande podríamos rechazar una prueba de normalidad basada en una muestra de ella ... pero con un tamaño de muestra mucho menor, regresiones y dos pruebas t de muestra (y muchas otras pruebas además) se comportará tan bien como para que no tenga sentido preocuparse por esa no normalidad aunque sea un poco.

Consideraciones similares se extienden no solo a otras distribuciones, sino en gran medida a una gran cantidad de pruebas de hipótesis de manera más general (incluso una prueba de dos colas de por ejemplo). También podríamos hacer el mismo tipo de pregunta: ¿cuál es el punto de realizar tales pruebas si no podemos concluir si la media tiene o no un valor particular? $\mu=\mu_0$

Es posible que pueda especificar algunas formas particulares de desviación y ver algo como las pruebas de equivalencia, pero es un poco complicado con la bondad de ajuste porque hay muchas maneras de que una distribución sea cercana pero diferente de una hipotética, y diferente Las formas de diferencia pueden tener diferentes impactos en el análisis. Si la alternativa es una familia más amplia que incluye el nulo como un caso especial, la prueba de equivalencia tiene más sentido (prueba exponencial contra gamma, por ejemplo), y de hecho, el enfoque de "prueba de dos lados" se lleva a cabo, y eso podría sería una forma de formalizar "lo suficientemente cerca" (o lo sería si el modelo gamma fuera cierto, pero de hecho sería casi seguro que sería rechazado por una prueba de bondad de ajuste ordinaria,

Las pruebas de bondad de ajuste (y, a menudo, más ampliamente, las pruebas de hipótesis) en realidad solo son adecuadas para una gama bastante limitada de situaciones. La pregunta que la gente generalmente quiere responder no es tan precisa, sino algo más vaga y más difícil de responder, pero como dijo John Tukey, " Mucho mejor una respuesta aproximada a la pregunta correcta, que a menudo es vaga, que una respuesta exacta a la pregunta pregunta equivocada, que siempre puede ser precisa "

Los enfoques razonables para responder la pregunta más vaga pueden incluir investigaciones de simulación y remuestreo para evaluar la sensibilidad del análisis deseado al supuesto que está considerando, en comparación con otras situaciones que también son razonablemente consistentes con los datos disponibles.

(También es parte de la base para el enfoque de la robustez a través de -contaminación, esencialmente al observar el impacto de estar dentro de una cierta distancia en el sentido de Kolmogorov-Smirnov) $\varepsilon$

— Glen_b -Reinstate a Monica
fuente

Glen, esta es una gran respuesta. ¿Hay más recursos sobre "enfoques razonables para responder a la pregunta más vaga"? Sería genial ver ejemplos trabajados donde las personas responden "¿Mis datos están lo suficientemente cerca de la distribución X para mis propósitos?" en contexto.

— Stumpy Joe Pete

2

@StumpyJoePete Hay un ejemplo de una respuesta a una pregunta más vago (pero ligeramente diferente) aquí , donde se utiliza la simulación para juez en más o menos qué tipo de tamaño de la muestra podría ser razonable aplicar una prueba t con sesgada (exponencial, por ejemplo) datos. Luego, en una pregunta de seguimiento, el OP presentó más información sobre la muestra (era discreta, y resultó que era mucho más sesgada de lo que sugeriría "exponencial"), ... (ctd)

— Glen_b -Reinstate Monica el

2

(ctd) ... el problema se exploró con más detalle , nuevamente utilizando la simulación. Por supuesto, en la práctica debe haber más "ida y vuelta" para asegurarse de que se adapte adecuadamente a las necesidades reales de la persona, en lugar de las suposiciones de su explicación inicial.

— Glen_b -Reinstate Monica

¡Gracias! Ese es exactamente el tipo de cosas que estaba buscando.

— Stumpy Joe Pete

17

Respaldo la respuesta de @ Glen_b y agrego que, en general, el problema "la ausencia de evidencia no es evidencia de ausencia" hace que las pruebas de hipótesis y $P$ -valores menos útiles de lo que parecen. La estimación es a menudo un mejor enfoque incluso en la evaluación de bondad de ajuste. Se puede usar la distancia Kolmogorov-Smirnov como medida. Es difícil de usar sin un margen de error. Un enfoque conservador tomaría el límite de confianza superior de la distancia KS para guiar el modelado. Esto (correctamente) conduciría a mucha incertidumbre, lo que puede llevar a uno a concluir que se prefiere elegir un método robusto en primer lugar. Con eso en mente, y volviendo a la meta original, cuando uno compara la distribución empírica con más de, digamos, 2 formas paramétricas posibles, la verdadera variación de la distribución ajustada final no tiene mejor precisión que la función de distribución acumulativa empírica. Entonces, si no hay una teoría de la materia para conducir la selección de la distribución,

— Frank Harrell
fuente

3

No puedo entender la razón por la cual esto fue rechazado; Hay algunos puntos geniales aquí. Sería útil que la persona que votase en contra explicara lo que perciben como el problema. Tal vez aprenderíamos algo.

— Glen_b -Reinstate Monica

9

Una opinión que creo que la mayoría de la gente comparte es que la prueba de hipótesis es una adaptación probabilística del principio de falsificación .

Si una hipótesis sobrevive a los intentos continuos y serios de falsificarla, entonces "ha demostrado su valía" y puede aceptarse provisionalmente, pero nunca puede establecerse de manera concluyente.

Por lo tanto, no rechazar de ninguna manera implica que es verdadero; es solo que sobrevive para un mayor escrutinio. $H_0$ $H_0$ $H_0$

— Khashaa
fuente

2

Creo que este es un ejemplo perfecto para ilustrar la diferencia entre el trabajo académico y la toma de decisiones prácticas. En entornos académicos (donde estoy), puede argumentar de la forma que desee siempre que otros lo consideren razonable. Por lo tanto, esencialmente terminamos teniendo una bargy argy interminable, a veces circular, entre nosotros. En ese sentido, esto proporciona a las personas algo en lo que trabajar.

Sin embargo, si realmente está en condiciones de tomar decisiones, la respuesta es un sí o un no definitivo. La indecisión dañará su reputación como tomador de decisiones. Por supuesto, tomar una decisión implica no solo estadísticas, sino también a veces un elemento de apuesta y salto de fe. En resumen, este tipo de ejercicio es en cierta medida útil para la toma de decisiones. Sin embargo, si confiar su decisión únicamente en esta prueba de hipótesis es una historia completamente diferente.

— LaTeXFan
fuente

2

Eso no es correcto en mi humilde opinión. El mejor libro que he leído que explica por qué uno toma mejores decisiones al incorporar siempre la incertidumbre en cada fase de la decisión es The Signal and the Noise de Nate Silver . Por ejemplo, los jugadores de póker más ganadores son aquellos que nunca creen que la probabilidad de una determinada mano sea 0 o 1.

— Frank Harrell

1

@FrankHarrell Me pregunto cómo respondería preguntas como si construir una carretera o comprar una acción. Es una pregunta de sí o no. Esos son tipos de preguntas que los tomadores de decisiones reales deben responder.

— LaTeXFan

1

@FrankHarrell Seguramente las estadísticas juegan un papel en ayudar a tomar la decisión. Sin embargo, desde el punto de vista de la robustez, todo lo que estamos haciendo es una aproximación de la realidad. Hay toneladas de cosas que las matemáticas simplemente no podrían explicar. Y aquí es donde entran en juego otros medios como el instinto.

— LaTeXFan

1

Hay diferentes tipos de decisiones. Algunos son irrevocables. Algunos casi lo están, por ejemplo, comprando una acción pero viéndola como un halcón. Algunos son completamente reversibles. Tomar la incertidumbre junto con usted permite tomar mejores decisiones y correcciones rápidas. A veces, el mejor curso de acción es "no tomar una decisión, obtener más datos", que es precisamente lo que R. Fisher recomendó cuando el valor es grande. Crear una decisión firme con puntos de corte arbitrarios solo da la ilusión de hacer lo correcto. Aquí es donde la teoría y la práctica son uno.

P

$P$

— Frank Harrell

1

@FrankHarrell Gracias por tus comentarios. Creo que su distinción entre decisiones irrevocables y de otra manera es un buen punto. En esencia, se trata de la dimensión temporal del problema. En un corto período de tiempo, la mayoría de las decisiones son irrevocables. Esto es lo que sucedió cuando las personas son puestas en el lugar para hacer la llamada. Por otro lado, si podemos permitirnos una visión a más largo plazo, entonces tiene razón: es mejor tener un sistema que pueda responder a los cambios en las circunstancias. Aun así, algunos daños, ya sean financieros o físicos, son inevitables.

— LaTeXFan

2

El punto es que desde un punto de vista estadístico puro no se puede aceptar , pero en la práctica sí. Por ejemplo, si está estimando el riesgo de una cartera utilizando el valor en riesgo o medidas similares, la distribución del rendimiento de la cartera es bastante importante. Esto se debe a que el riesgo está definido por la cola de su distribución.

En los casos de libros de texto, la distribución normal se usa a menudo como ejemplos. Sin embargo, si los rendimientos de su cartera tienen colas gruesas (que a menudo lo hacen), la aproximación de distribución normal subestimará los riesgos. Por lo tanto, es importante examinar los retornos y decidir si va a usar una aproximación normal o no. Tenga en cuenta que esto no significa necesariamente ejecutar pruebas estadísticas, podría ser QQ-plot u otros medios. Sin embargo, debe tomar una decisión en algún momento basándose en el análisis de devoluciones y sus modelos de devolución, y usar normal o no.

Por lo tanto, para todos los fines prácticos, no rechazar significa realmente aceptar, aunque no en sentido estadístico estricto. Aceptará lo normal y lo usará en sus cálculos, que se mostrarán a la alta gerencia diariamente, a sus reguladores, auditores, etc. El no rechazo en este caso tiene consecuencias de largo alcance en todos los sentidos, por lo que es como o más poderoso que el tonto resultado estadístico.

— Aksakal
fuente

0

Ningún acusado en la corte es inocente. Son culpables (rechazan la hipótesis nula de inocentes) o no son culpables (no rechazan la presunción de inocencia).

La ausencia de evidencia no es evidencia de ausencia.

— BCLC
fuente

-1

Por lo tanto, mi pregunta es, ¿cuál es el punto de realizar tales pruebas si no podemos concluir si los datos siguen o no una distribución dada?

Si tiene en mente una distribución alternativa (o un conjunto de distribuciones) para comparar, puede ser una herramienta útil.

Yo diría: tengo a mano un conjunto de observaciones que creo que normalmente se distribuyen. (Creo que sí, porque he visto observaciones de un carácter similar que me satisficieron siguiendo sensiblemente la curva normal). También creo que pueden no seguir la curva normal, sino alguna curva regular no normal. (Creo que esto puede deberse a que he visto cuerpos de datos como este que no siguen la curva normal, pero que fueron, por ejemplo, asimétricos, etc.) 3 Luego hago una investigación en las siguientes líneas: Si las observaciones proviene de una distribución normal, ¿con qué frecuencia ocurriría un chi-cuadrado como el que obtuve? La conclusión es: "Muy raramente, solo dos veces en cien". Luego hago una consulta, no declarada y no calculada, pero creo absolutamente necesario para completar un argumento válido, como sigue: Si la distribución no es normal, esta experiencia, juzgada por una diferencia de chi-cuadrado, ocurriría con bastante frecuencia. (Todo lo que tengo que hacer es imaginar que la curva no normal tiene el carácter sesgado observado de la distribución). Por lo tanto, rechazo la hipótesis normal sobre el principio de que acepto la hipótesis alternativa considerada en la que el evento experimentado sería más frecuente. Digo que el rechazo de la hipótesis nula es válido solo en la voluntad de aceptar una alternativa (esta alternativa no necesariamente se define con precisión en todos los aspectos). ) Por lo tanto, rechazo la hipótesis normal sobre el principio de que acepto la hipótesis alternativa considerada en la cual el evento experimentado sería más frecuente. Digo que el rechazo de la hipótesis nula es válido solo en la voluntad de aceptar una alternativa (esta alternativa no necesariamente se define con precisión en todos los aspectos). ) Por lo tanto, rechazo la hipótesis normal sobre el principio de que acepto la hipótesis alternativa considerada en la cual el evento experimentado sería más frecuente. Digo que el rechazo de la hipótesis nula es válido solo en la voluntad de aceptar una alternativa (esta alternativa no necesariamente se define con precisión en todos los aspectos).

Ahora, la línea de razonamiento que he descrito, en contraste con lo que he descrito como la más habitual, explicaría por qué mi decisión difiere de la rutina en el tercer y cuarto casos.

Con respecto al tercer caso, después de haber probado la prueba de chi-cuadrado, he llegado a la conclusión de que, en la hipótesis de que no hay diferencia con respecto a la normalidad, rara vez se produciría una distribución con un chi-cuadrado tan grande. Hasta ahora estamos exactamente en la misma posición que en este momento en el segundo caso. Pero ahora permítanme examinar la probabilidad de que esta experiencia ocurra si el suministro original fuera normal y no normal. ¿Ocurriría esta experiencia con más frecuencia? No hay razón para decirlo. La distribución es perfectamente simétrica, es decir, la asimetría es cero (había exactamente el 50 por ciento de los casos a cada lado de la media), y un examen superficial de las diferencias de las frecuencias esperadas en las diferentes clases muestra que no son sistemas. temático, es decir, las desviaciones positivas y negativas se alternan en orden aleatorio. Tal distribución no se espera con frecuencia de ninguna curva plausible no normal. Por lo tanto, no tenemos motivos para rechazar la curva normal.

Mi punto de vista es que nunca hay una razón válida para rechazar la hipótesis nula, excepto en la voluntad de imponer una alternativa.

Algunas dificultades de interpretación encontradas en la aplicación de la prueba de Chi-cuadrado. Joseph Berkson. Revista de la Asociación Americana de Estadística. Vol. 33, núm. 203 (septiembre de 1938), págs. 526-536

— Lívido
fuente

1

La cita / trabajo de Berkson me parece relevante y razonable. Es de conocimiento popular que con un tamaño de muestra lo suficientemente grande, cualquier distribución asumida será rechazada, incluso si solo se debe a un error de medición. Si encontramos que los datos son poco probables bajo alguna distribución supuesta, ¿no deberíamos tratar de descubrir cuál sería una mejor opción? ¿Y si no podemos justificar estas otras opciones, debemos asumir, si es necesario, la distribución más simple posible? ¿Alguien puede explicar por qué esto fue rechazado?

— Livid