Hubo una pregunta similar hace unos días que tenía la referencia relevante:
- Belloni, A., Chernozhukov, V. y Hansen, C. (2014) "Inferencia sobre los efectos del tratamiento después de la selección entre controles de alta dimensión", Review of Economic Studies, 81 (2), pp. 608-50 ( enlace )
Al menos para mí, el documento es una lectura bastante difícil porque las pruebas detrás de esto son relativamente simples y bastante elaboradas. Cuando esté interesado en estimar un modelo como
yyo= α Tyo+ X′yoβ+ ϵyo
donde es su resultado, T i es un efecto de tratamiento de interés y X i es un vector de controles potenciales. El parámetro objetivo es α . Asumiendo que la mayor parte de la variación en su resultado se explica por el tratamiento y un conjunto escaso de controles, Belloni et al. (2014) desarrollan un método de selección doblemente robusto que proporciona estimaciones puntuales correctas e intervalos de confianza válidos. Sin embargo, este supuesto de escasez es importante.yyoTyoXyoα
Xyoyyo
- yyoXyo
- TyoXyo
- yyoTyo
Proporcionan pruebas de por qué esto funciona y por qué obtiene los intervalos de confianza correctos, etc. de este método. También muestran que si solo realiza una selección LASSO en la regresión anterior y luego regresa el resultado del tratamiento y las variables seleccionadas, obtiene estimaciones puntuales incorrectas e intervalos de confianza falsos, como ya dijo Björn.
El propósito de hacer esto es doble: comparar su modelo inicial, donde la selección de variables fue guiada por intuición o teoría, con el modelo de selección doblemente robusto, le da una idea de cuán bueno fue su primer modelo. Quizás su primer modelo olvidó algunos términos importantes al cuadrado o de interacción y, por lo tanto, sufre de forma funcional mal especificada o variables omitidas. En segundo lugar, Belloni et al. (2014) puede mejorar la inferencia en su parámetro objetivo porque los regresores redundantes fueron penalizados en su procedimiento.