La independencia media condicional implica imparcialidad y consistencia del estimador MCO


10

Considere el siguiente modelo de regresión múltiple:

(1)Y=Xβ+Zδ+U.

Aquí es un vector de columna ; a matriz; a vector de columna; a matriz; a vector de columna; y , el término de error, un vector de columna .Yn×1Xn×(k+1)β(k+1)×1Zn×lδl×1Un×1


PREGUNTA

Mi profesor, el libro de texto Introducción a la Econometría, 3ª ed. por James H. Stock y Mark W. Watson, p. 281, y Econometría: sesión de revisión del examen de honor (PDF) , pág. 7, me ha expresado lo siguiente.

  1. Si asumimos lo que se llama independencia media condicional , que por definición significa que
    (2)E(U|X,Z)=E(U|Z),
  2. y si se cumple el supuesto de mínimos cuadrados, excepto el supuesto condicional de media cero (entonces suponemos que ) (ver 1 -3 a continuación),E(U|X,Z)=0E(U|X,Z)=E(U|Z)0

  3. entonces, el estimador OLS de en permanece imparcial y consistente, bajo este conjunto más débil de suposiciones.β^β(1)

¿Cómo pruebo esta proposición? Es decir, que 1 y 2 anteriores implican que la estimación OLS de nos da un estimador imparcial y consistente para . ¿Hay algún artículo de investigación que pruebe esta proposición?ββ


COMENTARIO

El caso más simple se da considerando el modelo de regresión lineal y demuestra que la estimación de OLS de es imparcial si para cada .

Yi=β0+β1Xi+β2Zi+ui,i=1,2,,n,
β 1 β 1 E ( u i | X i , Z i ) = E ( u i | Z i ) iβ^1β1E(ui|Xi,Zi)=E(ui|Zi)i

PRUEBA DE UNBIASEDNESS ASUMIENDO QUE y ESTÁN DISTRIBUIDAS DE FORMA COMÚN NORMALMENTEUiZi

Defina , luego yPor lo tanto puede reescribirse como Por se deduce que Ahora, dado que y se distribuyen normalmente de manera conjunta, la teoría de las distribuciones normales, cf. Derivando las distribuciones condicionales de una distribución normal multivariada , dice que (de hecho, no necesitamos asumir la normalidad conjunta sino solo esta identidad) para algún vector porV=UE(U|X,Z)U=V+E(U|X,Z)

(*)E(V|X,Z)=0.
(1)
(3)Y=Xβ+Zδ+E(U|X,Z)+V.
(2)
(4)Y=Xβ+Zδ+E(U|Z)+V.
UiZi E ( U | Z ) = Z γ l1γ0
(**)E(U|Z)=Zγ
l1γ0 .

Ahora convierte en Para el modelo se cumplen todos los supuestos de mínimos cuadrados, ya que el término de error satisface el supuesto de condicional media cero Esto implica que la estimación de OLS de será imparcial, ya que si dejamos , y dejamos que sea por matriz compuesta de y , entonces la estimación de MCO de en se da considerando lo siguiente:(4)

(5)Y=Xβ+Z(δ+γ)+V.
(5)Vβ β ρ = δ + γ W = ( X , Z ) n ( k + 1 ) + l X Z β ( 5 ) ( β T , ρ T ) Tβ^βρ=δ+γW=(X,Z)n(k+1)+lXZβ(5)
(β^T,ρ^T)T=(WTW)1WTY=(WTW)1WT(W(βT,ρT)T+V)=(βT,ρT)T+(WTW)1WTV

y así donde la segunda línea sigue por . Por lo tanto, es una estimación condicionalmente imparcial de ya que la estimación OLS dada para el modelo coinicide con la dada para el modelo . Ahora, según la ley de expectativa total y, por lo tanto, es un estimador imparcial de .

E((β^T,ρ^T)T|W)=(βT,ρT)T+(WTW)1WsTE(V|W)=(βT,ρT)T+(WTW)1WT0=(βT,ρT)T,
()β^β(1)(5)
E(β^)=E(E(β^|W))=E(β)=β,
β^β

(Se puede notar que , de modo que el coeficiente de no es necesariamente imparcial).E(ρ^)=ρ=δ+γδZ

Sin embargo, el caso especial anterior supone que y se distribuyen normalmente de manera conjunta, ¿cómo pruebo la proposición sin esta suposición?UiZi

Suponiendo que siempre es suficiente por supuesto (cf. ), pero se supone que obtengo el resultado simplemente usando y el supuesto de mínimos cuadrados excluyendo el supuesto de Condicional Media Cero ( vea abajo).E(U|Z)=Zγ()(2)

CON RESPECTO A LA CONSISTENCIA

Creo que también se puede ver que la estimación es consistente para al notar que en el modelo de regresión se cumplen todas las suposiciones de mínimos cuadrados, incluida la suposición de que el (nuevo) término de error satisface el Supuesto condicional de media cero (cf. y ver más abajo).β^β(5)V()

Puedo agregar una prueba de consistencia más adelante que se basa en una serie de ejercicios en Introducción a la Econometría, 3ª ed. por James H. Stock y Mark W. Watson, cap. 18. Sin embargo, esta prueba es bastante larga. Pero el punto aquí es que la prueba proporcionada en los ejercicios supone , por lo que todavía me pregunto si la suposición realmente es suficiente.()(2)

SUBQUERÍA 1

En Introducción a la Econometría, 3ª ed. por James H. Stock y Mark W. Watson, se dice, en la pág. 300, que el supuesto se puede "relajar" usando la teoría de la regresión no lineal. ¿Qué quieren decir o qué quieren decir con esto?()

LOS MENOS CUESTIONES DE CUADRADOS

Aquí excluyo la suposición media condicional cero de que ya que la proposición que intentamos probar aquí permite casos en los que . Estos son por ejemplo los casos en que se correlaciona con . Cf. Econometría: Sesión de revisión del examen de honor (PDF) , pág. 7)E(U|X,Z)=0E(U|X,Z)0ZU

Los supuestos de mínimos cuadrados son los siguientes.

  1. Las distribuciones conjuntas de , son iid, donde es el elemento : th en y donde y son los vectores : th fila en y .(Yi,Xi,Zi)i=1,2,,n,YiiYXiZiiXZ

  2. Los grandes valores atípicos son poco probable, es decir, para cada , y tienen cuarto momentos finitos, donde es el -ésimo elemento en .iXi,ZiUiUiiU

  3. (X,Z) tiene un rango de columna completo (es decir, no existe una multicolinealidad perfecta; esto garantiza la invertibilidad de ).WTW

  4. ( Supuestos de mínimos cuadrados extendidos : si bien no creo que esto sea necesario (y se me ha dicho que no lo es), también podemos suponer homoscedasticidad, es decir, para cada , y que la distribución condicional de dada es normal para cada (es decir, tenemos errores normales).Var(Ui|Xi,Zi)=σU2iUi(Xi,Zi)i

NOTA SOBRE TERMINOLOGÍA

En , la suposición media condicional cero es la suposición de que . El supuesto de independencia media condicional, sin embargo, es el supuesto de que .(1)E(U|X,Z)=0E(U|X,Z)=E(U|Z)

Esta terminología se utiliza, por ejemplo, en Introducción a la Econometría, 3ª ed. por James H. Stock y Mark W. Watson, p. 281; y Análisis econométrico de datos de sección transversal y panel, 1ª ed. por Jeffrey M. Wooldridge, pág. 607. Ver también Restricciones de independencia condicional: Pruebas y estimación para discusiones similares.

PENSAMIENTOS Y SUBQUERÍA ADICIONALES 2

Creo que, al contrario de James H. Stock y Mark W. Watson, que la independencia media condicional no garantiza una estimación imparcial de MCO de . Esto se debe a que puede adoptar formas no lineales como donde es un polinomio en , o donde es un parámetro aún por estimar (aquí estoy usando la matriz exponencial ), y luego, creo, se debe aplicar una regresión no lineal , que generalmente nos deja con estimaciones sesgadas. Además, la estimación de OLS en (1) de puede no coincidir con la estimación de OLS deβE(U|Z)E(U|Z)=p(Z)p(Z)ZE(U|Z)=exp(Zγ)γββen si toma ciertas formas no lineales. (Psicológicamente también siento que la declaración hecha en el libro por Stock & Watson es demasiado buena para ser verdad).(4)E(U|Z)

Por lo tanto, una pregunta adicional es si hay algún contraejemplo a la proposición de que la independencia media condicional conduce a una estimación imparcial de MCO.

SUBQUERÍA 3

En Econometría sobre todo inofensivo, Angrist & Pischke argumenta en la subsección 3.3, p. 68-91, que bajo la independencia condicional (CI), es decir, es independiente de dado (que es una condición más fuerte, supongo, que el supuesto de independencia condicional medio dado anteriormente), hay una estrecha conexión entre las estimaciones coincidentes de el efecto de en y los coeficientes en en la regresión de en y que motiva que, bajo CI, la estimación de MCO del coeficiente en enYXWXYXYXWX(1) es menos sesgado que si CI no se cumple (todo lo demás es igual).

Ahora, ¿se puede usar esta idea para responder mi pregunta principal aquí?


@ Xi'an ¿Qué quieres decir? Esa es la definición de independencia media condicional dada en mi libro de texto: si en la regresión lineal tenemos , entonces decimos que Tenemos independencia media condicional. Simplemente pensé que mi forma de escribir era más general. Yi=β0+β1Xi+β2Zi+uiE(ui|Xi,Zi)=E(ui|Zi)
Elias

@ Xi'an ¿Cómo definiría "ce con independencia independiente" en este caso? A mi modo de ver, la "independencia condicional" es un concepto distinto de la "independencia media condicional". Pueden o no estar vinculados conceptualmente.
Elias

@ Xi'an Esta es la forma en que entiendo los conceptos: la independencia condicional es solo , pero la independencia media condicional es . P(AB|C)=P(A|C)P(B|C)E(A|B,C)=E(A|C)
Elias

¿Dónde está el comentario de Xi'an?
Michael R. Chernick

@MichaelChernick Su comentario fue el primero. Supongo que debe haberlo borrado. Como lo recuerdo, dijo que no implica independencia condicional, y respondí. E(U|X,Z)=E(U|Z)
Elias

Respuestas:


4

Es falso. Como observa, si lee detenidamente a Stock y Watson, en realidad no respaldan la afirmación de que OLS es imparcial para bajo independencia condicional media. Ellos respaldan la afirmación mucho más débil de que OLS es imparcial para si . Luego, dicen algo vago sobre los mínimos cuadrados no lineales.ββE(u|x,z)=zγ

Su ecuación (4) contiene lo que necesita para ver que la afirmación es falsa. La estimación de la ecuación (4) por OLS mientras se omite la variable conduce a un sesgo de variables omitido. Como probablemente recuerde, el término de sesgo de las variables omitidas (cuando la variable omitida tiene un coeficiente de 1) está controlado por los coeficientes de la siguiente regresión auxiliar: El sesgo en la regresión original para es de esta regresión, y el sesgo en es . Si está correlacionado con , después de controlar linealmente paraE(u|x,z)

E(u|z)=xα1+zα2+ν
βα1γα2xE(u|z)z , entonces será distinto de cero y el coeficiente OLS estará sesgado.α1

Aquí hay un ejemplo para probar el punto:

ξF(),ζG(),νH()all independentz=ξx=z2+ζu=z+z2E(z+z2)+ν

Mirando la fórmula para , está claro que Mirando la regresión auxiliar, está claro eso (en ausencia de una elección fortuita de ) no será cero.uE(u|x,z)=E(u|z)=z+z2E(z+z2)F,G,Hα1

Aquí hay un ejemplo muy simple en el Rque demuestra el punto:

set.seed(12344321)
z <- runif(n=100000,min=0,max=10)
x <- z^2 + runif(n=100000,min=0,max=20)
u <- z + z^2 - mean(z+z^2) + rnorm(n=100000,mean=0,sd=20)
y <- x + z + u

summary(lm(y~x+z))

# auxiliary regression
summary(lm(z+z^2~x+z))

Observe que la primera regresión le da un coeficiente en que está sesgado por 0.63, lo que refleja el hecho de que "tiene algo de " como lo hace . Observe también que la regresión auxiliar le da una estimación de sesgo de aproximadamente 0,63.xxz2E(u|z)

Entonces, ¿de qué hablan Stock y Watson (y su profesor)? Volvamos a su ecuación (4):

y=xβ+zγ+E(u|z)+v

Es un hecho importante que la variable omitida es solo una función de . Parece que si pudiéramos controlar realmente bien, eso sería suficiente para eliminar el sesgo de la regresión, aunque pueda estar correlacionado con .zzxu

Supongamos que estimamos la siguiente ecuación usando un método no paramétrico para estimar la función o usando la forma funcional correcta . Si estuviéramos usando la forma funcional correcta, la estaríamos estimando por mínimos cuadrados no lineales (explicando el comentario críptico sobre NLS): Eso nos daría un estimador consistente para porque ya no hay un problema variable omitido. f()f(z)=zγ+E(u|z)

y=xβ+f(z)+v
β

Alternativamente, si tuviéramos suficientes datos, podríamos ir `` hasta el final '' para controlar . Podríamos mirar un subconjunto de datos donde , y simplemente ejecutar la regresión: Esto daría estimadores imparciales, consistentes para el excepto para la intercepción, por supuesto, que estaría contaminada por . Obviamente, también podría obtener un estimador imparcial (diferente) consistente ejecutando esa regresión solo en puntos de datos para los cuales . Y otro para los puntos donde . Etc. Entonces tendrías un montón de buenos estimadores a partir de los cuales podrías hacer un gran estimador, por ejemplo, promediando todos juntos de alguna manera.zz=1

y=xβ+v
βf(1)z=2z=3

Este último pensamiento es la inspiración para estimadores coincidentes. Dado que generalmente no tenemos suficientes datos para ejecutar literalmente la regresión solo para o incluso para pares de puntos donde es idéntico, en su lugar ejecutamos la regresión para puntos donde está `` lo suficientemente cerca '' de ser idéntico.z=1zz


3

No puede probar este resultado porque no es cierto en su declaración general. Comience con el modelo en su ecualizador. (4)

Y=Xβ+Zδ+(E(U|Z)+V)

donde el paréntesis grande denota el término de error real (todavía no hay supuestos sobre la expectativa condicional). Defina el residual o la matriz aniquiladora , que es simétrica, idempotente y también tenemos . MZ=IZ(ZZ)1ZMZZ=0

Por "resultados de regresión divididos" tenemos que

β^OLSβ=(XMZX)1XMZZδ+(XMZX)1XMZE(UZ)+(XMZX)1XMZV

El primer término a la derecha ya es cero. Tomando el valor esperado a lo largo, y luego aplicando la propiedad de la torre para la expectativa condicional, el tercer término también será cero (usando la independencia media condicional en su forma más débil). Pero esto es lo más lejos que nos lleva esta suposición más débil, porque nos quedaremos con

E(β^OLS)β=E[(XMZX)1XMZE(UZ)]

Para la imparcialidad , queremos que el lado derecho sea cero. Esto se mantendrá si es una función lineal de (como también ha encontrado) porque nuevamente obtendremos el cero . Pero, de lo contrario, es totalmente arbitrario suponer directamente que todo el valor esperado es cero. No tenemos que asumir la norteña conjunta, pero tenemos que asumir la linealidad de esta expectativa condicional (otras distribuciones también tienen esta propiedad). Entonces, la suposición necesaria para la imparcialidad de esE(UZ)ZMZZ
β

E(UX,Z)=E(UZ)=Zγ

y no puedo decir si es realmente "más débil" o no, en comparación con la exogeneidad estricta de todos los regresores (ya que la exogeneidad estricta se establece en términos de independencia media para todos los supuestos de distribución, mientras que aquí tenemos que restringir las clases de distribuciones que y sigue).UZ

No es difícil demostrar que bajo este supuesto de linealidad también será coherente.β^OLS


¡Buena respuesta! Lo leí hace mucho tiempo y pensé que lo pensaría más tarde. Tengo algunas preguntas: ¿Cómo puede probar sus resultados de regresión particionada? Agradecería al menos una referencia. Además, ¿cuál es la diferencia entre y ? M zMZMz
Elias

1
@Monir y solo un error tipográfico - corregido. Para obtener resultados de regresión particionada (que son muy antiguos y estándar), consulte, por ejemplo, el libro de texto Econometría de Greene, en el capítulo donde se analiza el aspecto algebraico de la estimación de mínimos cuadrados ordinarios. Incluye la prueba. zZz
Alecos Papadopoulos
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.