Modelos de dos etapas: diferencia entre los modelos de Heckman (para tratar con la selección de muestras) y las variables instrumentales (para tratar con la endogenidad)

16

Estoy tratando de entender la diferencia entre la selección de muestras y la endogeneidad y, a su vez, cómo los modelos de Heckman (para tratar con la selección de muestras) difieren de las regresiones de variables instrumentales (para tratar con la endogeneidad).

¿Es correcto decir que la selección de muestra es una forma específica de endogeneidad, donde la variable endógena es la probabilidad de ser tratado?

Además, me parece que tanto los modelos de Heckman como la regresión IV son modelos de 2 etapas, donde la primera etapa predice la probabilidad de ser tratado: supongo que deben diferir en términos de lo que están haciendo empíricamente, sus objetivos y suposiciones, ¿pero cómo?

— Kyrenia
fuente

23

Para responder a su primera pregunta, tiene razón en que la selección de la muestra es una forma específica de endogeneidad (consulte Antonakis et al. 2010 para una buena revisión básica de la endogeneidad y los remedios comunes), sin embargo, no es correcto al decir que la probabilidad de ser tratado es la variable endógena, ya que es la variable de tratamiento en sí misma ("asignación de tratamiento no aleatorio"), más que la probabilidad de ser tratado, que es endógena en la selección de la muestra. Recuerde que la endogeneidad se refiere a una situación en la que ha identificado incorrectamente una relación causal entre el factor X y el factor Y, cuando la "relación" observada se debe realmente a otro factor Z que afecta tanto a X como a Y. Dicho de otro modo, dado un modelo de regresión :

$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$

La endogeneidad ocurre cuando uno o más de sus predictores están relacionados con el término de error en el modelo. Es decir, cuando $Cov(x,\epsilon)\ne0$ .

Las causas comunes de endogenidad incluyen:

Variables omitidas (algunas cosas que simplemente no podemos medir)
- Motivación / elección
- Habilidad / talento
- Autoselección
Error de medición (nos gustaría incluir $x_j$ , pero solo observamos $x_j*$ )
Simultaneidad / bidireccionalidad (en niños menores de 5 años, la relación entre el indicador de estado nutricional "peso para la edad" y si el niño tenía una enfermedad reciente podría ser simultánea.

Los diferentes tipos de problemas requieren soluciones ligeramente diferentes, que es donde radica la diferencia entre las correcciones IV y de tipo Heckman. Por supuesto, existen diferencias en la mecánica subyacente de estos métodos, pero la premisa es la misma: eliminar la endogeneidad, idealmente mediante una restricción de exclusión, es decir, uno o más instrumentos en el caso de IV o una variable que afecta la selección pero no El resultado en el caso de Heckman.

Para responder a su segunda pregunta, debe pensar en las diferencias en los tipos de limitaciones de datos que dieron lugar al desarrollo de estas soluciones. Me gusta pensar que el enfoque de la variable instrumental (IV) se usa cuando una o más variables son endógenas, y simplemente no hay buenos indicadores para adherirse al modelo para eliminar la endogeneidad, pero se observan las covariables y los resultados para todas las observaciones. Las correcciones de tipo Heckman, por otro lado, se usan cuando tiene truncamiento, es decir, la información no se observa para aquellos en la muestra donde el valor de la variable de selección == 0.

El enfoque de la variable instrumental (IV)

Piense en el ejemplo econométrico clásico para la regresión IV con el estimador de mínimos cuadrados de dos etapas (2SLS): el efecto de la educación en los ingresos.

(1) $Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$

Aquí el nivel de logro educativo es endógeno porque está determinado en parte por la motivación y la capacidad del individuo, que también afectan los ingresos de una persona. La motivación y la capacidad no suelen medirse en encuestas de hogares o económicas. Por lo tanto, la ecuación 1 se puede escribir para incluir explícitamente la motivación y la capacidad:

(2) $Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$

Como y no se observan realmente, la Ecuación 2 se puede escribir como: $Motiv$ $Abil$

(3), $Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$

donde (4). $u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$

Por lo tanto, una estimación ingenua del efecto de la educación sobre los ingresos a través de OLS sería sesgada. Esta parte ya la conoces.

En el pasado, las personas han utilizado la educación de los padres como instrumentos para el nivel educativo de la asignatura, ya que cumplen los 3 requisitos para un instrumento válido ( ): $z$

debe estar relacionado con el predictor endógeno - , $z$ $𝐶𝑜𝑣(𝑧,𝑥)≠0$
no puede estar directamente relacionado con el resultado - , y $z$ $𝐶𝑜𝑣(𝑧,𝑦)=0$
no puede relacionarse con la característica no observable (u) (es decir, es exógena) - $z$ $z$ $𝐶𝑜𝑣(𝑧,𝑢)=0$

Cuando estima la educación del sujeto ( ) usando la educación de los padres ( y ) en la primera etapa y usa el valor predicho de la educación ( ) para estimar las en la segunda etapa, usted está (en términos muy simplistas), estimando basadas en la porción de que no está determinada por la motivación / habilidad. $OwnEd$ $MomEd$ $DadEd$ $\widehat{OwnEd}$ $Earnings$ $Earnings$ $OwnEd$

Correcciones tipo Heckman

Como hemos establecido anteriormente, la selección de muestras no aleatorias es un tipo específico de endogeneidad. En este caso, la variable omitida es cómo se seleccionaron las personas en la muestra. Por lo general, cuando tiene un problema de selección de muestra, su resultado se observa solo para aquellos para quienes la selección de muestra variable == 1. Este problema también se conoce como "truncamiento incidental", y la solución se conoce comúnmente como corrección de Heckman. El ejemplo clásico en econometría es la oferta salarial de las mujeres casadas:

$Wage_i = \beta_0 + \beta_1Educ_i + \beta_2Experience_i + \beta_3Experience^2_i+\epsilon_i$ (5)

El problema aquí es que el solo se observa para las mujeres que trabajaban por salarios, por lo que un estimador ingenuo sería parcial, ya que no sabemos cuál es la oferta salarial para quienes no participan en la fuerza laboral, la variable de selección . La ecuación 5 puede reescribirse para mostrar que está determinada conjuntamente por dos modelos latentes: $Wage$ $s$

$Wage_i^* = X\beta^\prime+\epsilon_i$ (6)

$LaborForce_i^* = Z\gamma^\prime+\nu_i$ (7)

Es decir, IFF y IFF $Wage = Wage_i^*$ $LaborForce_i^*>0$ $Wage = .$ $LaborForce_i^*\leq 0$

Por lo tanto, la solución aquí es predecir la probabilidad de participación en la fuerza laboral en la primera etapa utilizando un modelo probit y la restricción de exclusión (los mismos criterios para los instrumentos válidos se aplican aquí), calcular la relación de Mills inversa predicha ( ) para cada observación, y en la segunda etapa, estimar la oferta salarial utilizando el como predictor en el modelo (Wooldridge 2009). Si el coeficiente en es estadísticamente igual a cero, no hay evidencia de selección de muestra (endogeneidad), y los resultados de OLS son consistentes y pueden presentarse. Si el coeficiente en $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ es estadísticamente significativamente diferente de cero, deberá informar los coeficientes del modelo corregido.

Referencias

Antonakis, John, Samuel Bendahan, Philippe Jacquart y Rafael Lalive. 2010. “Sobre cómo hacer declaraciones causales: una revisión y recomendaciones”. The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
Wooldridge, Jeffrey M. 2009. Econometría introductoria: un enfoque moderno. 4ta ed. Mason, OH, EE. UU .: South-Western, Cengage Learning.

— Marqués de carabas
fuente

1

En la corrección de tipo Heckman, ¿cómo interpretar los valores de la relación inversa de Mills para cada observación? ¿Dice el número de personas que trabajarán de la población no trabajadora en un momento dado?

— Quirik

2

Se debe hacer una distinción entre el modelo específico de selección de muestra de Heckman (donde solo se observa una muestra) y las correcciones de tipo Heckman para la autoselección, que también puede funcionar para el caso donde se observan las dos muestras. Este último se conoce como enfoque de función de control y equivale a incluir en su segunda etapa un término que controla la endogeneidad.

Tengamos un caso estándar con una variable ficticia endógena D, un instrumento Z:

Y = β + β_{1} D + ϵ

$Y= \beta + \beta_1 D +\epsilon$

D = γ + γ_{1} Z + u

$D= \gamma + \gamma_1 Z +u$

Ambos enfoques ejecutan una primera etapa (D en Z). IV usa un OLS estándar (incluso si D es un muerto) Heckman usa un probit. Pero además de esto, la principal diferencia está en la forma en que usan esta primera etapa en la ecuación principal:

IV : rompa la endogeneidad descomponiendo D en partes no correlacionadas con , dada por la predicción de D: $\epsilon$ $Y= \beta + \beta_1 \hat{D}+\epsilon$
Heckman : modele la endogeneidad: mantenga la D endógena, pero agregue una función de los valores predichos de la primera etapa. Para este caso, es una función bastante complicada: donde es la relación inversa de Mills $Y= \beta + \beta_1 D + \beta_2 \left[\lambda(\hat{D})-\lambda(-\hat{D})\right ] +\epsilon$ $\lambda()$

La ventaja del procedimiento de Heckman es que proporciona una prueba directa de endogeneidad: el coeficiente . Por otro lado, el procedimiento de Heckman se basa en la suposición de la normalidad conjunta de los errores, mientras que el IV no hace tal suposición. $\beta_2$

Entonces, tiene la historia estándar de que con errores normales, la función de control será más eficiente (especialmente si uno usa el MLE en lugar de los dos pasos que se muestran aquí) que el IV, pero que si el supuesto no se cumple, IV sería mejor. A medida que los investigadores se vuelven más sospechosos sobre el supuesto de normalidad, el IV se usa con más frecuencia.

— Matifou
fuente

0

De Heckman, Urzua y Vytlacil (2006):

Ejemplo de sesgo de selección : considere los efectos de una política en el resultado de un país (por ejemplo, el PIB). Si los países que habrían tenido un buen desempeño en términos de no observables, incluso en ausencia de la política, son los que adoptan la política, entonces las estimaciones de MCO son parciales.

Se han adoptado dos enfoques principales para resolver este problema: (a) modelos de selección y (b) modelos de variables instrumentales.

El enfoque de selección modela niveles de medias condicionales. El enfoque IV modela las pendientes de los medios condicionales. IV no identifica las constantes estimadas en los modelos de selección.

El enfoque IV no condiciona a D (el tratamiento). El estimador de selección (función de control) identifica los medios condicionales que utilizan funciones de control.

Cuando se utilizan funciones de control con supuestos de curvatura, uno no requiere una restricción de exclusión (no requiere ) en el modelo de selección. Al asumir una forma funcional para la distribución de los términos de error, se descarta la posibilidad de que la media condicional de la ecuación de resultado sea igual a la función de control condicional y, por lo tanto, puede corregir la selección sin restricciones de exclusión. Ver también Heckman y Navarro (2004). $Z\neq X$

— José Gabriel Astaiza-Gómez
fuente