Respuestas:
De hecho, la regresión lineal modela los valores esperados condicionales de su resultado. Eso significa: si conocía los valores verdaderos de los parámetros de regresión (digamos y β 1 ), dado un valor de su predictor X, completándolo en la ecuación E [ Y | X ] = β 0 + β 1 X tendrá se calcula el valor esperado para Y sobre todas las (posibles) observaciones que tienen este valor dado para X .
Sin embargo: realmente no espera que ningún valor para ese valor X sea exactamente igual a la media (condicional). No porque su modelo esté equivocado, sino porque hay algunos efectos que no ha tenido en cuenta (por ejemplo, error de medición). Entonces, estos valores Y para un valor X dado fluctuarán alrededor del valor medio (es decir, geométricamente: alrededor del punto de la línea de regresión para esa X ).
La suposición de normalidad, ahora, dice que la diferencia entre las y su coincidencia E [ Y | X ] sigue una distribución normal con media cero. Esto significa que, si tiene un valor X , puede muestrear un valor Y calculando primero β 0 + β 1 X (es decir, nuevamente E [ Y | X ] , el punto en la línea de regresión), luego muestreando ϵ de esa normal distribución y sumarlos: Y ' = E [ Y | X
En resumen: esta distribución normal representa la variabilidad en su resultado además de la variabilidad explicada por el modelo.
Nota: en la mayoría de los conjuntos de datos, no tiene múltiples valores para una X dada (a menos que su conjunto de predictores sea categórico), pero esta normalidad se aplica a toda la población, no solo a las observaciones en su conjunto de datos.
Nota: He hecho el razonamiento para la regresión lineal con un predictor, pero lo mismo vale para más: simplemente reemplace "línea" con "hiperplano" en lo anterior.
Podría significar mucho o podría no significar nada. Si ajusta un modelo para obtener el R-Squared más alto, podría significar que ha sido tonto. Si ajusta un modelo para ser parsimonioso en que las variables son necesarias y necesarias y se preocupan por identificar valores atípicos, entonces ha hecho un buen trabajo. Eche un vistazo aquí para obtener más información sobre este http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
La normalidad de los residuos es una suposición de ejecutar un modelo lineal. Entonces, si sus residuos son normales, significa que su suposición es válida y la inferencia del modelo (intervalos de confianza, predicciones del modelo) también debería ser válida. ¡Es así de simple!