Hablando en términos generales (no solo por la bondad de las pruebas de ajuste, sino en muchas otras situaciones), simplemente no se puede concluir que el nulo es verdadero, porque hay alternativas que no se pueden distinguir efectivamente del nulo en cualquier tamaño de muestra dado.
Aquí hay dos distribuciones, una normal estándar (línea continua verde) y otra similar (90% normal estándar y 10% beta estandarizada (2,2), marcada con una línea roja discontinua):
El rojo no es normal. Con digamos , tenemos pocas posibilidades de detectar la diferencia, por lo que no podemos afirmar que los datos se extraen de una distribución normal, ¿qué pasaría si fuera de una distribución no normal como la roja?n=100
Las fracciones más pequeñas de betas estandarizadas con parámetros iguales pero más grandes serían mucho más difíciles de ver como diferentes de lo normal.
Pero dado que los datos reales casi nunca provienen de una distribución simple, si tuviéramos un oráculo perfecto (o tamaños de muestra realmente infinitos), esencialmente siempre rechazaríamos la hipótesis de que los datos provienen de alguna forma de distribución simple.
Como George Box dijo : " Todos los modelos están equivocados, pero algunos son útiles " .
Considere, por ejemplo, probar la normalidad. Puede ser que los datos realmente provengan de algo cercano a lo normal, pero ¿alguna vez serán exactamente normales? Probablemente nunca lo sean.
En cambio, lo mejor que puede esperar con esa forma de prueba es la situación que describe. (Ver, por ejemplo, la publicación ¿Las pruebas de normalidad son esencialmente inútiles?, Pero hay una serie de otras publicaciones aquí que hacen puntos relacionados)
Esta es parte de la razón por la que a menudo sugiero a las personas que la pregunta en la que realmente están interesados (que a menudo es algo más cercano a '¿mis datos están lo suficientemente cerca de la distribución como para poder hacer inferencias adecuadas sobre esa base?') no está bien respondido por pruebas de bondad de ajuste. En el caso de la normalidad, a menudo los procedimientos de inferencia que desean aplicar (pruebas t, regresión, etc.) tienden a funcionar bastante bien en muestras grandes, a menudo incluso cuando la distribución original es claramente no normal, solo cuando una bondad de La prueba de ajuste será muy probable que rechace la normalidad . De poco sirve tener un procedimiento que sea más probable que le diga que sus datos no son normales solo cuando la pregunta no importa.F
Considere la imagen de arriba nuevamente. La distribución roja no es normal, y con una muestra realmente grande podríamos rechazar una prueba de normalidad basada en una muestra de ella ... pero con un tamaño de muestra mucho menor, regresiones y dos pruebas t de muestra (y muchas otras pruebas además) se comportará tan bien como para que no tenga sentido preocuparse por esa no normalidad aunque sea un poco.
Consideraciones similares se extienden no solo a otras distribuciones, sino en gran medida a una gran cantidad de pruebas de hipótesis de manera más general (incluso una prueba de dos colas de por ejemplo). También podríamos hacer el mismo tipo de pregunta: ¿cuál es el punto de realizar tales pruebas si no podemos concluir si la media tiene o no un valor particular?μ=μ0
Es posible que pueda especificar algunas formas particulares de desviación y ver algo como las pruebas de equivalencia, pero es un poco complicado con la bondad de ajuste porque hay muchas maneras de que una distribución sea cercana pero diferente de una hipotética, y diferente Las formas de diferencia pueden tener diferentes impactos en el análisis. Si la alternativa es una familia más amplia que incluye el nulo como un caso especial, la prueba de equivalencia tiene más sentido (prueba exponencial contra gamma, por ejemplo), y de hecho, el enfoque de "prueba de dos lados" se lleva a cabo, y eso podría sería una forma de formalizar "lo suficientemente cerca" (o lo sería si el modelo gamma fuera cierto, pero de hecho sería casi seguro que sería rechazado por una prueba de bondad de ajuste ordinaria,
Las pruebas de bondad de ajuste (y, a menudo, más ampliamente, las pruebas de hipótesis) en realidad solo son adecuadas para una gama bastante limitada de situaciones. La pregunta que la gente generalmente quiere responder no es tan precisa, sino algo más vaga y más difícil de responder, pero como dijo John Tukey, " Mucho mejor una respuesta aproximada a la pregunta correcta, que a menudo es vaga, que una respuesta exacta a la pregunta pregunta equivocada, que siempre puede ser precisa "
Los enfoques razonables para responder la pregunta más vaga pueden incluir investigaciones de simulación y remuestreo para evaluar la sensibilidad del análisis deseado al supuesto que está considerando, en comparación con otras situaciones que también son razonablemente consistentes con los datos disponibles.
(También es parte de la base para el enfoque de la robustez a través de -contaminación, esencialmente al observar el impacto de estar dentro de una cierta distancia en el sentido de Kolmogorov-Smirnov)ε