Consistencia de 2SLS con variable endógena binaria

He leído que el estimador 2SLS sigue siendo consistente incluso con la variable endógena binaria ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). En la primera etapa, se ejecutará un modelo de tratamiento probit en lugar de un modelo lineal.

¿Hay alguna prueba formal que demuestre que 2SLS sigue siendo consistente incluso cuando la primera etapa es un modelo probit o logit?

Además, ¿qué pasa si el resultado también es binario? Entiendo que si tenemos un resultado binario y una variable endógena binaria (las etapas primera y segunda son modelos binarios probit / logit), imitar el método 2SLS producirá una estimación inconsistente. ¿Hay alguna prueba formal de esto? El libro econométrico de Wooldridge tiene algunas discusiones, pero creo que no hay pruebas rigurosas para mostrar la inconsistencia.

data sim;
     do i=1 to 500000;
        iv=rand("normal",0,1);
             x2=rand("normal",0,1);
        x3=rand("normal",0,1);
        lp=0.5+0.8*iv+0.5*x2-0.2*x3;
        T=rand("bernoulli",exp(lp)/(1+exp(lp)));
        Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
        output;
     end;
     run;

****1st stage: logit model ****;
****get predicted values   ****;         
proc logistic data=sim descending;
     model T=IV;
     output out=pred1 pred=p;
     run;

****2nd stage: ols model with predicted values****;
proc reg data=pred1;
     model y=p;
     run;

el coeficiente de p = 1.19984. Solo ejecuto una simulación pero con un gran tamaño de muestra.

probit instrumental-variables endogeneity

— Vincent
fuente

¿No necesita agregar link = probit a la declaración del modelo?

— Mike Hunter

Ha habido una pregunta similar con respecto a una primera etapa probit y una segunda etapa OLS. En la respuesta , proporcioné un enlace a notas que contienen una prueba formal de la inconsistencia de esta regresión, que se conoce formalmente como "regresión prohibida", como lo denominó Jerry Hausman. La razón principal de la inconsistencia del enfoque probit primera etapa / OLS segunda etapa es que ni el operador de expectativas ni el operador de proyecciones lineales pasan por una primera etapa no lineal. Por lo tanto, los valores ajustados de un probit de primera etapa no están correlacionados con el término de error de segunda etapa bajo suposiciones muy restrictivas que casi nunca se cumplen en la práctica. Sin embargo, tenga en cuenta que la prueba formal de la inconsistencia de la regresión prohibida es bastante elaborada, si no recuerdo mal.

Si tiene un modelo donde es un resultado continuo y es una variable endógena binaria, puede ejecutar la primera etapa través de OLS y use los valores ajustados lugar de en la segunda etapa. Este es el modelo de probabilidad lineal al que te referías. Dado que no hay ningún problema para las expectativas o las proyecciones lineales para esta primera etapa lineal, sus estimaciones 2SLS serán consistentes, aunque menos eficientes de lo que podrían ser si tuviéramos en cuenta la naturaleza no lineal de .

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

X_{i}

$X_i$

X_{i} = a + Z_{i}^{'} π + η_{i}

$X_i = a + Z'_i\pi + \eta_i$

{\hat{X}}_{i}

$\widehat{X}_i$

X_{i}

$X_i$

X_{i}

$X_i$

La coherencia de este enfoque se debe al hecho de que, si bien un modelo no lineal puede ajustarse a las expectativas condicionales, funciona más estrechamente para las variables dependientes limitadas, esto no importa mucho si está interesado en el efecto marginal. En el modelo de probabilidad lineal, los coeficientes en sí mismos son efectos marginales evaluados en la media, por lo que si el efecto marginal en la media es lo que busca (y generalmente las personas son), entonces esto es lo que desea dado que el modelo lineal proporciona la mejor linealidad. aproximaciones a funciones de expectativas condicionales no lineales.
Lo mismo es cierto si es binario. $Y_i$

Para una discusión más detallada de esto, eche un vistazo a las excelentes notas de clase de Kit Baum sobre este tema. En la diapositiva 7, analiza el uso del modelo de probabilidad lineal en el contexto 2SLS.

Finalmente, si realmente desea usar probit porque desea estimaciones más eficientes, hay otra manera que también se menciona en Wooldridge (2010) "Análisis econométrico de datos de sección transversal y panel". La respuesta vinculada anterior lo incluye, lo repito aquí para completar. Como ejemplo aplicado, ver Adams et al. (2009) que utilizan un procedimiento de tres pasos que se describe a continuación:

use probit para hacer retroceder la variable endógena en el (los) instrumento (s) y las variables exógenas
use los valores pronosticados del paso anterior en una primera etapa de OLS junto con las variables exógenas (pero sin las instrumentales)
hacer la segunda etapa como siempre

Este procedimiento no cae en el problema de la regresión prohibida, pero potencialmente ofrece estimaciones más eficientes de su parámetro de interés.

— Andy
fuente

Hola Andy, gracias por tu respuesta. ¿Está sugiriendo "inconsistencia del enfoque probit primera etapa / OLS segunda etapa"? Eso no es lo que leí en el enlace que le di. Se dice que el enfoque Probit primera etapa / OLS segunda etapa es consistente.

— Vincent

Eso no es lo que dice la publicación Statalist. Si echa un vistazo a la sección "métodos y fórmula" para el comando treatreg (que ahora se llama etregress) en la documentación , verá que el estimador de 2 pasos no es 2SLS con una primera etapa probit / segunda etapa OLS. En cambio, probit se usa primero para obtener las razones de riesgo que luego se usan en una regresión OLS para obtener estimaciones consistentes.

— Andy

Gracias Andy Se está poniendo interesante. Parece imitar 2SLS con el modelo probit en la primera etapa no se acepta. Leeré a través de "prohibir la regresión" por razones heréticas. Por cierto, probé una simulación usando SAS y los resultados no se ven mal para 2SLS con probit 1st / ols 2nd.

— Vincent

Estoy publicando el código en la pregunta principal y me encantaría escuchar sus comentarios. ¡Gracias!

— Vincent