¿Por qué debes probar la normalidad?
La suposición estándar en la regresión lineal es que los residuos teóricos son independientes y normalmente distribuidos. Los residuales observados son una estimación de los residuales teóricos, pero no son independientes (hay transformaciones en los residuales que eliminan parte de la dependencia, pero aún dan solo una aproximación de los residuales verdaderos). Por lo tanto, una prueba en los residuos observados no garantiza que los residuos teóricos coincidan.
Si los residuos teóricos no se distribuyen exactamente de manera normal, pero el tamaño de la muestra es lo suficientemente grande, entonces el Teorema del límite central dice que la inferencia habitual (pruebas e intervalos de confianza, pero no necesariamente intervalos de predicción) basada en el supuesto de normalidad seguirá siendo aproximadamente correcta. .
También tenga en cuenta que las pruebas de normalidad son pruebas descartadas, pueden decirle que es poco probable que los datos provengan de una distribución normal. Pero si la prueba no es significativa, eso no significa que los datos provienen de una distribución normal, también podría significar que simplemente no tiene suficiente potencia para ver la diferencia. Los tamaños de muestra más grandes dan más poder para detectar la no normalidad, pero las muestras más grandes y el CLT significan que la no normalidad es menos importante. Entonces, para tamaños de muestra pequeños, la suposición de normalidad es importante, pero las pruebas no tienen sentido, para tamaños de muestra grandes las pruebas pueden ser más precisas, pero la cuestión de la normalidad exacta deja de tener sentido.
Entonces, combinando todo lo anterior, lo que es más importante que una prueba de normalidad exacta es la comprensión de la ciencia detrás de los datos para ver si la población está lo suficientemente cerca de lo normal. Los gráficos como qqplots pueden ser buenos diagnósticos, pero también es necesario comprender la ciencia. Si existe la preocupación de que haya demasiada asimetría o potencial para valores atípicos, entonces hay métodos no paramétricos disponibles que no requieren el supuesto de normalidad.