¿Cómo tiene sentido hacer OLS después de la selección de variables LASSO?


20

Recientemente, descubrí que en la literatura de econometría aplicada, cuando se trata de problemas de selección de características, no es raro realizar LASSO seguido de una regresión de OLS utilizando las variables seleccionadas.

Me preguntaba cómo podemos calificar la validez de tal procedimiento. ¿Causará problemas como variables omitidas? ¿Alguna prueba que demuestre que es más eficiente o que los resultados son más interpretables?

Aquí hay algunas discusiones relacionadas:

Selección variable con LASSO

Usando árboles después de la selección de variables usando Lazo / Aleatorio

Si, como se señaló, dicho procedimiento no es correcto en general, ¿por qué todavía hay tantas investigaciones que lo hacen? ¿Puedo decir que es solo una regla general, una solución de compromiso, debido a algunas de las propiedades incómodas del estimador LASSO y la afición de las personas hacia los MCO?


¿Podría explicar qué significa hacer una "regresión de OLS" después de realizar el LASSO? ¿Qué es, específicamente, este paso de OLS que intenta estimar que el LASSO no ha estimado?
whuber

2
Hay algunos documentos de trabajo recientes sobre el tema. Muchos parecen requerir la suposición de que el conjunto de variables válidas es escaso. Si esa suposición no se cumple, entonces el sesgo de variables omitidas sí estaría presente. Y a las personas les gustan los ols porque quieren interpretar los coeficientes como efectos marginales imparciales de la muestra. La econometría está bastante estancada en ese paradigma.
generic_user

44
En este reciente libro de LASSO (gratis en línea), la sección 11.4 parece abordar este problema. No he leído esto en detalle, pero los fines de introducción al decir "Teniendo en cuenta [a LASSO que recupera correctamente el apoyo de β * , podemos estimar β * muy bien ... simplemente mediante la realización de una ordinaria de mínimos cuadrados regresión restringida a este subconjunto ". β^ββ
GeoMatt22

Respuestas:


12

Hubo una pregunta similar hace unos días que tenía la referencia relevante:

  • Belloni, A., Chernozhukov, V. y Hansen, C. (2014) "Inferencia sobre los efectos del tratamiento después de la selección entre controles de alta dimensión", Review of Economic Studies, 81 (2), pp. 608-50 ( enlace )

Al menos para mí, el documento es una lectura bastante difícil porque las pruebas detrás de esto son relativamente simples y bastante elaboradas. Cuando esté interesado en estimar un modelo como

yyo=αTyo+Xyoβ+ϵyo

donde es su resultado, T i es un efecto de tratamiento de interés y X i es un vector de controles potenciales. El parámetro objetivo es α . Asumiendo que la mayor parte de la variación en su resultado se explica por el tratamiento y un conjunto escaso de controles, Belloni et al. (2014) desarrollan un método de selección doblemente robusto que proporciona estimaciones puntuales correctas e intervalos de confianza válidos. Sin embargo, este supuesto de escasez es importante.yyoTyoXyoα

Xyoyyo

  1. yyoXyo
  2. TyoXyo
  3. yyoTyo

Proporcionan pruebas de por qué esto funciona y por qué obtiene los intervalos de confianza correctos, etc. de este método. También muestran que si solo realiza una selección LASSO en la regresión anterior y luego regresa el resultado del tratamiento y las variables seleccionadas, obtiene estimaciones puntuales incorrectas e intervalos de confianza falsos, como ya dijo Björn.

El propósito de hacer esto es doble: comparar su modelo inicial, donde la selección de variables fue guiada por intuición o teoría, con el modelo de selección doblemente robusto, le da una idea de cuán bueno fue su primer modelo. Quizás su primer modelo olvidó algunos términos importantes al cuadrado o de interacción y, por lo tanto, sufre de forma funcional mal especificada o variables omitidas. En segundo lugar, Belloni et al. (2014) puede mejorar la inferencia en su parámetro objetivo porque los regresores redundantes fueron penalizados en su procedimiento.


¿Estimaciones puntuales "correctas"?
Richard Hardy

3

Para realizar una selección variable y luego volver a ejecutar un análisis, como si no hubiera sucedido una selección variable y el modelo seleccionado hubiera sido diseñado desde el principio, generalmente conduce a tamaños de efectos exagerados, valores p inválidos e intervalos de confianza con una cobertura nominal inferior. Quizás si el tamaño de la muestra es muy grande y hay algunos efectos enormes y muchos efectos nulos, LASSO + OLS podría no verse muy afectado por esto, pero aparte de eso no puedo ver ninguna justificación razonable y en ese caso el LASSO las estimaciones también deberían estar bien.


1
Pero, ¿por qué el segundo modelo comienza desde cero como si no hubiera sucedido una selección variable? ¿LASSO no selecciona la variable explicativa con el mejor poder predictivo? Por cierto, pensé en hacer cosas LASSO matriz variable variable en glm nuevamente. Ahora he entendido que LASSO per se es una regresión.
SIslam 01 de
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.