Entonces, cuando supongo que los términos de error se distribuyen normalmente en una regresión lineal, ¿qué significa para la variable de respuesta, ?
Entonces, cuando supongo que los términos de error se distribuyen normalmente en una regresión lineal, ¿qué significa para la variable de respuesta, ?
Respuestas:
Tal vez estoy fuera, pero creo que deberíamos preguntarnos acerca de , que es cómo leo el OP. En el caso más simple de regresión lineal si su modelo es entonces el único componente estocástico en su modelo es el término de error. Como tal, determina la distribución de muestreo de . Si entonces . Sin embargo, lo que @Aniko dice es cierto sobre (marginalmente sobre ). Así como está la pregunta es un poco vaga.
La respuesta corta es que no se puede concluir nada sobre la distribución de , porque depende de la distribución de las x 's y la fuerza y la forma de la relación. Más formalmente, y tendrá una "mezcla de normales" de distribución, que en la práctica puede ser casi cualquier cosa.
Aquí hay dos ejemplos extremos para ilustrar esto:
De hecho, dado que cada distribución puede aproximarse bien arbitrariamente con una mezcla de normales, realmente puede obtener cualquier distribución para .
Inventamos el término de error imponiendo un modelo ficticio en datos reales; La distribución del término de error no afecta la distribución de la respuesta.
A menudo suponemos que el error se distribuye normalmente y, por lo tanto, intentamos construir el modelo de manera que nuestros residuos estimados se distribuyan normalmente. Esto puede ser difícil para algunas distribuciones de . En estos casos, supongo que se podría decir que la distribución de la respuesta afecta el término de error.
Si escribe la respuesta como Donde m es el "modelo" (la predicción para y ) y e son los "errores", entonces esto se puede reorganizar para indicar y - m = e . Entonces, asignar una distribución para los errores es lo mismo que indicar las formas en que su modelo está incompleto. Para decirlo de otra manera es que indica en qué medida no sabe por qué la respuesta observada fue el valor que realmente era, y no lo que predijo el modelo. Si supiera que su modelo es perfecto, entonces asignaría una distribución de probabilidad con toda su masa en cero para los errores. Asignando una N (
En cierto sentido, la distribución del error está más estrechamente vinculada al modelo que a la respuesta. Esto se puede ver a partir de la no identificabilidad de la ecuación anterior, para si ambos y e son desconocidos a continuación, añadir un vector arbitrario a m y restarlo de correos conduce al mismo valor de Y , Y = m + e = ( m + b ) + ( e - b ) = m ′ + e ′. La asignación de una distribución de errores y una ecuación modelo básicamente dice qué vectores arbitrarios son más plausibles que otros.