¿Cómo interpretar el coeficiente de la segunda etapa en la regresión de variables instrumentales con un instrumento binario y una variable endógena binaria?

(publicación bastante larga, lo siento. Incluye mucha información de fondo, así que no dudes en pasar a la pregunta en la parte inferior).

Introducción: estoy trabajando en un proyecto en el que intentamos identificar el efecto de una variable endógena binaria, , en un resultado continuo, . Se nos ocurrió un instrumento, , que creemos firmemente que está asignado de forma aleatoria. $x_1$ $y$ $z_1$

Datos: los datos en sí están en una estructura de panel con aproximadamente 34,000 observaciones distribuidas en 1000 unidades y aproximadamente 56 períodos de tiempo. adquiere un valor de 1 para aproximadamente 700 (2%) de las observaciones, y hace para aproximadamente 3000 (9%). 111 (0.33%) observaciones obtienen un 1 tanto en como en , y es dos veces más probable que una observación obtenga un 1 en si también obtiene un 1 en . $x_1$ $z_1$ $z_1$ $x_1$ $x_1$ $z_1$

Estimación: Estimamos el siguiente modelo 2SLS a través del procedimiento ivreg2 de Stata:

x_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

y = β_{0} + β_{1} x_{1}^{*} + Z β + u

$y = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u$

Donde es un vector de otras variables exógenas, es el valor predicho de de la primera etapa, y y son términos de error. $Z$ $x_1^*$ $x_1$ $u$ $v$

$\pi_1$ $\beta_1$ $\beta_1$

$y$ $\beta_1$

$i.i.d.$

Según su prueba de AR, el límite inferior del intervalo de confianza del 95% para el coeficiente de la segunda etapa está entre 16 y 29 (de nuevo según la especificación). La probabilidad de rechazo es prácticamente 1 para todos los valores cercanos a cero.

Observaciones influyentes: hemos intentado estimar el modelo con cada unidad eliminada individualmente, con cada observación eliminada individualmente y con grupos de unidades eliminados. No hay cambio real.

$x_1$ $x_1^*$ $x_1$ $x_1^*$ $0.018*30 = 0.54$ (otras especificaciones dan resultados casi idénticos). Esto sería mucho más razonable (pero aún sustancial). Parece la solución perfecta. Excepto que nunca he visto a nadie hacer eso; todo el mundo parece interpretar el coeficiente de la segunda etapa utilizando la métrica de la variable endógena original.

Pregunta: En un modelo IV, ¿es correcto resumir el efecto estimado (el TARDE, realmente) de un aumento en la variable endógena usando la métrica de la versión predicha? En nuestro caso, esa métrica es la probabilidad pronosticada.

Nota: Usamos 2SLS a pesar de que tenemos una variable endógena binaria (haciendo que la primera etapa sea un LPM). Esto sigue a Angrist y Krueger (2001): "Variables instrumentales y la búsqueda de identificación: de la oferta y la demanda a los experimentos naturales") También hemos probado el procedimiento de tres etapas utilizado en Adams, Almeida y Ferreira (2009): " Comprender la relación entre fundador-CEO y desempeño de la empresa ”. El último enfoque, que consiste en un modelo probit seguido de 2SLS, produce coeficientes más pequeños y más sensibles, pero aún son muy grandes si se interpretan en la métrica 0-1 (aproximadamente 9-10). Obtenemos los mismos resultados con cálculos manuales que con la opción probit-2sls-en ivtreatreg de Cerulli.

— Bertel
fuente

¿Lo has intentado etregress/treatreg?

— Dimitriy V. Masterov

Hola Dimitriy, gracias por la respuesta! He intentado etregress ahora, y da resultados algo similares. Sin embargo, al leer el manual de Stata y Wooldridge (2002): "Análisis econométrico de la sección transversal y los datos del panel" tengo la impresión de que este tipo de modelo de regresión de tratamiento supone la ignorabilidad del tratamiento. Es decir, condicional a las variables observadas, si una unidad se trata o no es independiente de su resultado (potencial) tanto en tratamiento como en control.

— Bertel

x

$x$

{\hat{β}}_{1} = β_{1} + \frac{C o v (z_{1}, u)}{C o v (z_{1}, x_{1})}

$\hat{\beta}_1 = \beta_1 + \frac{Cov(z_1,u)}{Cov(z_1,x_1)}$

β_{1}

$\beta_1$

$\beta_1$ $\alpha_1$

y = α_{0} + α_{1} z_{1} + Z α + u

$y = \alpha_0 + \alpha_1 z_1 + \mathbf{Z}\mathbf{\alpha} + u$

$\pi_1$

x_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

$\beta_1$ $\alpha_1$ $\pi_1$

$\alpha_1$ $\pi_1$ $\hat{\alpha}_1$ $\hat{\pi}_1$ $\hat{\beta}_1$

— Peter
fuente