(publicación bastante larga, lo siento. Incluye mucha información de fondo, así que no dudes en pasar a la pregunta en la parte inferior).
Introducción: estoy trabajando en un proyecto en el que intentamos identificar el efecto de una variable endógena binaria, , en un resultado continuo, y . Se nos ocurrió un instrumento, z 1 , que creemos firmemente que está asignado de forma aleatoria.
Datos: los datos en sí están en una estructura de panel con aproximadamente 34,000 observaciones distribuidas en 1000 unidades y aproximadamente 56 períodos de tiempo. adquiere un valor de 1 para aproximadamente 700 (2%) de las observaciones, y z 1 lo hace para aproximadamente 3000 (9%). 111 (0.33%) observaciones obtienen un 1 tanto en z 1 como en x 1 , y es dos veces más probable que una observación obtenga un 1 en x 1 si también obtiene un 1 en z 1 .
Estimación: Estimamos el siguiente modelo 2SLS a través del procedimiento ivreg2 de Stata:
y = β 0 + β 1 x ∗ 1 + Z β + u
Donde es un vector de otras variables exógenas, x ∗ 1 es el valor predicho de x 1 de la primera etapa, y u y v son términos de error.
Según su prueba de AR, el límite inferior del intervalo de confianza del 95% para el coeficiente de la segunda etapa está entre 16 y 29 (de nuevo según la especificación). La probabilidad de rechazo es prácticamente 1 para todos los valores cercanos a cero.
Observaciones influyentes: hemos intentado estimar el modelo con cada unidad eliminada individualmente, con cada observación eliminada individualmente y con grupos de unidades eliminados. No hay cambio real.
(otras especificaciones dan resultados casi idénticos). Esto sería mucho más razonable (pero aún sustancial). Parece la solución perfecta. Excepto que nunca he visto a nadie hacer eso; todo el mundo parece interpretar el coeficiente de la segunda etapa utilizando la métrica de la variable endógena original.
Pregunta: En un modelo IV, ¿es correcto resumir el efecto estimado (el TARDE, realmente) de un aumento en la variable endógena usando la métrica de la versión predicha? En nuestro caso, esa métrica es la probabilidad pronosticada.
Nota: Usamos 2SLS a pesar de que tenemos una variable endógena binaria (haciendo que la primera etapa sea un LPM). Esto sigue a Angrist y Krueger (2001): "Variables instrumentales y la búsqueda de identificación: de la oferta y la demanda a los experimentos naturales") También hemos probado el procedimiento de tres etapas utilizado en Adams, Almeida y Ferreira (2009): " Comprender la relación entre fundador-CEO y desempeño de la empresa ”. El último enfoque, que consiste en un modelo probit seguido de 2SLS, produce coeficientes más pequeños y más sensibles, pero aún son muy grandes si se interpretan en la métrica 0-1 (aproximadamente 9-10). Obtenemos los mismos resultados con cálculos manuales que con la opción probit-2sls-en ivtreatreg de Cerulli.
etregress/treatreg
?