Para responder a su primera pregunta, tiene razón en que la selección de la muestra es una forma específica de endogeneidad (consulte Antonakis et al. 2010 para una buena revisión básica de la endogeneidad y los remedios comunes), sin embargo, no es correcto al decir que la probabilidad de ser tratado es la variable endógena, ya que es la variable de tratamiento en sí misma ("asignación de tratamiento no aleatorio"), más que la probabilidad de ser tratado, que es endógena en la selección de la muestra. Recuerde que la endogeneidad se refiere a una situación en la que ha identificado incorrectamente una relación causal entre el factor X y el factor Y, cuando la "relación" observada se debe realmente a otro factor Z que afecta tanto a X como a Y. Dicho de otro modo, dado un modelo de regresión :
yi=β0+β1xi+...+ϵi
La endogeneidad ocurre cuando uno o más de sus predictores están relacionados con el término de error en el modelo. Es decir, cuando Cov(x,ϵ)≠0 .
Las causas comunes de endogenidad incluyen:
- Variables omitidas (algunas cosas que simplemente no podemos medir)
- Motivación / elección
- Habilidad / talento
- Autoselección
- Error de medición
(nos gustaría incluir xj , pero solo observamos xj∗ )
- Simultaneidad / bidireccionalidad (en niños menores de 5 años, la relación entre el indicador de estado nutricional "peso para la edad" y si el niño tenía una enfermedad reciente podría ser simultánea.
Los diferentes tipos de problemas requieren soluciones ligeramente diferentes, que es donde radica la diferencia entre las correcciones IV y de tipo Heckman. Por supuesto, existen diferencias en la mecánica subyacente de estos métodos, pero la premisa es la misma: eliminar la endogeneidad, idealmente mediante una restricción de exclusión, es decir, uno o más instrumentos en el caso de IV o una variable que afecta la selección pero no El resultado en el caso de Heckman.
Para responder a su segunda pregunta, debe pensar en las diferencias en los tipos de limitaciones de datos que dieron lugar al desarrollo de estas soluciones. Me gusta pensar que el enfoque de la variable instrumental (IV) se usa cuando una o más variables son endógenas, y simplemente no hay buenos indicadores para adherirse al modelo para eliminar la endogeneidad, pero se observan las covariables y los resultados para todas las observaciones. Las correcciones de tipo Heckman, por otro lado, se usan cuando tiene truncamiento, es decir, la información no se observa para aquellos en la muestra donde el valor de la variable de selección == 0.
El enfoque de la variable instrumental (IV)
Piense en el ejemplo econométrico clásico para la regresión IV con el estimador de mínimos cuadrados de dos etapas (2SLS): el efecto de la educación en los ingresos.
(1)Earningsi=β0+β1OwnEdi+ϵi
Aquí el nivel de logro educativo es endógeno porque está determinado en parte por la motivación y la capacidad del individuo, que también afectan los ingresos de una persona. La motivación y la capacidad no suelen medirse en encuestas de hogares o económicas. Por lo tanto, la ecuación 1 se puede escribir para incluir explícitamente la motivación y la capacidad:
(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi
Como y A b i l no se observan realmente, la Ecuación 2 se puede escribir como:MotivAbil
(3),Earningsi=β0+β1OwnEdi+ui
donde (4).ui=β2Motivi+β3Abili+ϵi
Por lo tanto, una estimación ingenua del efecto de la educación sobre los ingresos a través de OLS sería sesgada. Esta parte ya la conoces.
En el pasado, las personas han utilizado la educación de los padres como instrumentos para el nivel educativo de la asignatura, ya que cumplen los 3 requisitos para un instrumento válido ( ):z
- debe estar relacionado con el predictor endógeno - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0 ,zCov(z,x)≠0
- no puede estar directamente relacionado con el resultado - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 , yzCov(z,y)=0
- no puede relacionarse con la característica no observable (u) (es decir, z es exógena) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) = 0zzCov(z,u)=0
Cuando estima la educación del sujeto ( ) usando la educación de los padres ( M o m E d y ) en la primera etapa y usa el valor predicho de la educación ( ) para estimar las en la segunda etapa, usted está (en términos muy simplistas), estimando basadas en la porción de que no está determinada por la motivación / habilidad.OwnEdMomEd^ O w n E d E a r n i n g s E a r n i n g s O w n E dDadEdOwnEdˆEarningsEarningsOwnEd
Correcciones tipo Heckman
Como hemos establecido anteriormente, la selección de muestras no aleatorias es un tipo específico de endogeneidad. En este caso, la variable omitida es cómo se seleccionaron las personas en la muestra. Por lo general, cuando tiene un problema de selección de muestra, su resultado se observa solo para aquellos para quienes la selección de muestra variable == 1
. Este problema también se conoce como "truncamiento incidental", y la solución se conoce comúnmente como corrección de Heckman. El ejemplo clásico en econometría es la oferta salarial de las mujeres casadas:
Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi (5)
El problema aquí es que el solo se observa para las mujeres que trabajaban por salarios, por lo que un estimador ingenuo sería parcial, ya que no sabemos cuál es la oferta salarial para quienes no participan en la fuerza laboral, la variable de selección . La ecuación 5 puede reescribirse para mostrar que está determinada conjuntamente por dos modelos latentes:sWages
Wage∗i=Xβ′+ϵi (6)
LaborForce∗i=Zγ′+νi (7)
Es decir, IFF y IFF L un b o r F o r c e * i > 0 W un g e = . L a b o r F o r c e ∗ i ≤ 0Wage=Wage∗iLaborForce∗i>0Wage=.LaborForce∗i≤0
Por lo tanto, la solución aquí es predecir la probabilidad de participación en la fuerza laboral en la primera etapa utilizando un modelo probit y la restricción de exclusión (los mismos criterios para los instrumentos válidos se aplican aquí), calcular la relación de Mills inversa predicha ( ) para cada observación, y en la segunda etapa, estimar la oferta salarial utilizando el como predictor en el modelo (Wooldridge 2009). Si el coeficiente en es estadísticamente igual a cero, no hay evidencia de selección de muestra (endogeneidad), y los resultados de OLS son consistentes y pueden presentarse. Si el coeficiente enλ^λ^λ^λ^ es estadísticamente significativamente diferente de cero, deberá informar los coeficientes del modelo corregido.
Referencias
- Antonakis, John, Samuel Bendahan, Philippe Jacquart y Rafael Lalive. 2010. “Sobre cómo hacer declaraciones causales: una revisión y recomendaciones”. The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009. Econometría introductoria: un enfoque moderno. 4ta ed. Mason, OH, EE. UU .: South-Western, Cengage Learning.