Está combinando dos tipos de término "error". Wikipedia en realidad tiene un artículo dedicado a esta distinción entre errores y residuos .
En una regresión OLS, los residuos (sus estimaciones del término de error o son de hecho la garantía de ser correlacionado con las variables de predicción, suponiendo que la regresión contiene un término de intersección.ε^
Pero los errores "verdaderos" pueden estar correlacionados con ellos, y esto es lo que cuenta como endogeneidad.ε
Para simplificar las cosas, considere el modelo de regresión (puede ver esto descrito como el " proceso generador de datos " subyacente o "DGP", el modelo teórico que suponemos que genera el valor de ):y
yi=β1+β2xi+εi
En principio, no hay ninguna razón por la cual no pueda correlacionarse con en nuestro modelo, por mucho que preferiríamos que no violara los supuestos estándar de OLS de esta manera. Por ejemplo, podría ser que depende de otra variable que se ha omitido de nuestro modelo, y esto se ha incorporado al término de perturbación ( es donde agrupamos todas las cosas que no sean que afectan a ). Si esta variable omitida también se correlaciona con , entonces a su vez se correlacionará con y tenemos endogeneidad (en particular, sesgo de variable omitida ).xy ε x y x ε xεyεxyxεx
Cuando estima su modelo de regresión en los datos disponibles, obtenemos
yi=β^1+β^2xi+ε^i
Debido a la forma de MCO trabajos *, los residuos ε será correlacionada con x . Pero eso no significa que tengamos endógeno evitado - sólo significa que no podemos detectar mediante el análisis de la correlación entre ε y X , que será (hasta error numérico) cero. Y debido a que se han violado los supuestos de OLS, ya no tenemos garantizadas las buenas propiedades, como la imparcialidad, disfrutamos mucho de OLS. Nuestra estimación β 2 estará sesgada.ε^xε^xβ^2
El hecho de que ε es correlacionado con x sigue inmediatamente de las ecuaciones "normales" que usamos para elegir nuestras mejores estimaciones de los coeficientes.(∗)ε^x
Si no está acostumbrado a la configuración de la matriz, y me apego al modelo bivariado utilizado en mi ejemplo anterior, entonces la suma de los residuos al cuadrado es y para encontrar el óptimo b 1 = β 1 y b 2 =S(b1,b2)=∑ni=1ε2i=∑ni=1(yi−b1−b2xi)2b1=β^1que minimizan esto encontramos las ecuaciones normales, en primer lugar la condición de primer orden para la intersección estimada:b2=β^2
∂S∂b1=∑i=1n−2(yi−b1−b2xi)=−2∑i=1nε^i=0
lo que muestra que la suma (y por lo tanto la media) de los residuos es cero, por lo que la fórmula de la covarianza entre ε y cualquier variable x entonces se reduce a 1ε^x. Vemos que esto es cero al considerar la condición de primer orden para la pendiente estimada, que es que1n−1∑ni=1xiε^i
∂S∂b2=∑i=1n−2xi(yi−b1−b2xi)=−2∑i=1nxiε^i=0
Si está acostumbrado a trabajar con matrices, podemos generalizar esto a regresión múltiple definiendo ; la condición de primer orden para minimizar S ( b ) en óptima b = β es:S(b)=ε′ε=(y−Xb)′(y−Xb)S(b)b=β^
dSdb(β^)=ddb(y′y−b′X′y−y′Xb+b′X′Xb)∣∣∣b=β^=−2X′y+2X′Xβ^=−2X′(y−Xβ^)=−2X′ε^=0
Esto implica cada fila de , y por lo tanto cada columna de X , es ortogonal a ε . Entonces, si la matriz de diseño X tiene una columna de unos (lo que ocurre si el modelo tiene un término de intersección), debemos tener Σ n i = 1 ε i = 0 por lo que los residuos tienen cero suma y media cero. La covarianza entre ε y cualquier variable x es de nuevo 1X′Xε^X∑ni=1ε^i=0ε^xy para cualquier variablexincluido en nuestro modelo que conocemos esta suma es cero, porque ε es ortogonal a cada columna de la matriz de diseño. Por lo tanto no es cero covarianza y la correlación cero, entre ε y cualquier variable predictorx.1n−1∑ni=1xiε^ixε^ε^x
Si prefiere una visión más geométrica de las cosas , nuestro deseo de que Y mentiras tan cerca como sea posible y en una especie de Pitágoras de forma , y el hecho de que Y está limitada al espacio columna de la matriz de diseño X , dictan que y debería ser la proyección ortogonal de la y observada en ese espacio de columna. Por lo tanto el vector de residuos ε = y - y es ortogonal a cada columna de X , incluyendo el vector de unos 1 ny^y y^Xy^yε^=y−y^X1nsi se incluye un término de intercepción en el modelo. Como antes, esto implica que la suma de los residuos es cero, por lo que la ortogonalidad del vector residual con las otras columnas de asegura que no está correlacionada con cada uno de esos predictores.X

Pero nada de lo que hemos hecho aquí dice nada sobre los verdaderos errores . Suponiendo que hay un término de intersección en nuestro modelo, los residuos ε solamente están correlacionadas con x como consecuencia matemática de la forma en que elegimos para estimar los coeficientes de regresión beta . La forma en que seleccionamos nuestra β afecta nuestros valores predichos y y por lo tanto nuestros residuos ε = y - y . Si elegimos β por MCO, hay que resolver las ecuaciones normales y estos valer que nuestros residuos estimadosεε^xβ^β^y^ε^=y−y^β^ están correlacionados conx. Nuestra elección de β afecta y pero noE(Y)y por lo tanto no impone condiciones a los verdaderos erroresε=Y-E(Y). Sería un error pensar que ε ha de alguna manera "heredada" de su uncorrelatedness conxde la suposición de que OLSεdebe ser correlacionada conx. La falta de correlación surge de las ecuaciones normales.ε^xβ^y^E(y)ε=y−E(y)ε^xεx