Este problema parece tener la cabeza fea todo el tiempo, y estoy tratando de decapitarlo para mi propia comprensión de las estadísticas (¡y la cordura!).
Los supuestos de los modelos lineales generales (prueba t, ANOVA, regresión, etc.) incluyen el "supuesto de normalidad", pero he descubierto que esto rara vez se describe claramente.
A menudo me encuentro con libros de texto de estadísticas / manuales / etc. simplemente afirmando que la "suposición de normalidad" se aplica a cada grupo (es decir, variables X categóricas), y debemos examinar las desviaciones de la normalidad para cada grupo .
Preguntas :
¿el supuesto se refiere a los valores de Y o los residuos de Y?
para un grupo particular , ¿es posible tener una distribución fuertemente no normal de los valores de Y (por ejemplo, sesgada) PERO una distribución de residuos de Y aproximadamente (o al menos más normal) ?
Otras fuentes describen que la suposición se refiere a los residuos del modelo (en casos donde hay grupos, por ejemplo, pruebas t / ANOVA), y deberíamos examinar las desviaciones de la normalidad de estos residuos (es decir, solo una gráfica / prueba QQ para correr).
¿La normalidad de los residuos para el modelo implica la normalidad de los residuos para los grupos ? En otras palabras, ¿deberíamos simplemente examinar los residuos del modelo (contrario a las instrucciones en muchos textos)?
Para poner esto en un contexto, considere este ejemplo hipotético:
- Quiero comparar la altura del árbol (Y) entre dos poblaciones (X).
- En una población, la distribución de Y está fuertemente sesgada hacia la derecha (es decir, la mayoría de los árboles son cortos, muy pocos altos), mientras que la otra es prácticamente normal.
- La altura es mayor en general en la población distribuida normalmente (lo que sugiere que puede haber una diferencia "real").
- La transformación de los datos no mejora sustancialmente la distribución de la primera población.
En primer lugar, ¿es válido comparar los grupos dados las distribuciones de altura radicalmente diferentes?
¿Cómo me acerco al "supuesto de normalidad" aquí? La altura de recuerdo en una población no se distribuye normalmente. ¿Examino los residuos de ambas poblaciones por separado O los residuos del modelo (prueba t)?
Consulte las preguntas por número en las respuestas, la experiencia me ha demostrado que las personas se pierden o se desvían fácilmente (¡especialmente yo!). Tenga en cuenta que no soy un estadístico; aunque tengo una comprensión razonablemente conceptual (es decir, ¡no técnica!) de las estadísticas.
PD: he buscado en los archivos y he leído los siguientes hilos que no han consolidado mi comprensión:
- Supuesto ANOVA normalidad / distribución normal de residuos
- Normalidad de los residuos frente a los datos de la muestra; ¿Qué pasa con las pruebas t?
- ¿Las pruebas de normalidad son 'esencialmente inútiles'?
- Prueba de normalidad
- Evaluar la normalidad de la distribución.
- ¿Qué pruebas utilizo para confirmar que los residuos se distribuyen normalmente?
- ¿Qué hacer cuando la prueba de Kolmogorov-Smirnov es significativa para los residuos de la prueba paramétrica pero la asimetría y la curtosis parecen normales?