Inferencia después de usar el lazo para la selección de variables

Estoy usando Lasso para la selección de características en una configuración dimensional relativamente baja (n >> p). Después de ajustar un modelo de lazo, quiero usar las covariables con coeficientes distintos de cero para ajustar un modelo sin penalización. Estoy haciendo esto porque quiero estimaciones imparciales que Lasso no puede darme. También me gustaría valores p e intervalos de confianza para la estimación imparcial.

Tengo problemas para encontrar literatura sobre este tema. La mayor parte de la literatura que encuentro trata sobre poner intervalos de confianza en las estimaciones de Lasso, no un modelo reajustado.

Por lo que he leído, simplemente reajustar un modelo usando todo el conjunto de datos conduce a valores p / valores estándar poco realistas. En este momento, la división de muestras (al estilo de Wasserman y Roeder (2014) o Meinshausen et al. (2009)) parece ser un buen curso de acción, pero estoy buscando más sugerencias.

¿Alguien ha encontrado este problema? Si es así, ¿podría darnos algunas sugerencias?

— EliK
fuente

No entiendo por qué debería importar si el estimador de lazo está sesgado siempre que los intervalos de confianza tengan (al menos asintóticamente) una cobertura correcta. ¿Es esta la única razón por la que desea ajustar las estimaciones de OLS en el soporte recuperado por el lazo?

— user795305

Tal vez he entendido mal lo que he leído, pero ¿la cobertura asintóticamente correcta no se refiere a una estimación sesgada, no a la verdadera estimación escasa pero imparcial?

— EliK

No estoy seguro de lo que quiere decir con una estimación "verdadera escasa pero imparcial", pero si sabe que las estimaciones de lazo tienen intervalos de confianza con una cobertura asintóticamente correcta, no debería haber más que hacer. El documento que Greenparker acaba de vincular (+1) es realmente interesante (y el más reciente que conozco sobre este tema) que discute (en parte) cómo podría desarrollar intervalos de confianza asintóticamente correctos en el lazo y luego coeficientes de ols. Estoy tratando de señalar que no es necesario ajustar OLS para obtener coeficientes insesgados, ya que la imparcialidad no importa.

— user795305

Creo que he estado malentendido. La cobertura asintóticamente correcta a la que se refiere es con respecto al parámetro verdadero. Entonces, aunque Lasso proporciona coeficientes sesgados, ¿podemos construir intervalos de confianza que tengan la cobertura correcta para el parámetro verdadero?

— EliK

Una vez que haya seleccionado un modelo, no tendrá estimaciones sin base si estima sin Lasso. Los coeficientes de los términos en el modelo después de seleccionar variables-luego-ajustar-a través de OLS en realidad se desviarán de 0 (como con otras formas de selección de variables). Una pequeña cantidad de contracción en realidad puede reducir el sesgo.

— Glen_b -Reinstate Monica

Respuestas:

Para agregar a las respuestas anteriores. Definitivamente deberías revisar el trabajo reciente de Tibshirani y sus colegas. Han desarrollado un marco riguroso para inferir valores p corregidos por selección e intervalos de confianza para métodos de tipo lazo y también proporcionan un paquete R.

Ver:

Lee, Jason D. y col. "Inferencia exacta posterior a la selección, con aplicación al lazo". The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan y Robert J. Tibshirani. "Aprendizaje estadístico e inferencia selectiva". Actas de la Academia Nacional de Ciencias 112.25 (2015): 7629-7634.

Paquete R:

https://cran.r-project.org/web/packages/selectiveInference/index.html

— B.Schubert
fuente

En general, volver a montar sin penalización después de haber realizado una selección variable a través del Lazo se considera "trampa", ya que ya ha examinado los datos y los valores p resultantes y los intervalos de confianza no son válidos en el sentido habitual.

Este artículo muy reciente analiza exactamente lo que desea hacer y explica las condiciones bajo las cuales la colocación de un lazo, la elección de las variables importantes y la reinstalación sin penalización por lazo lleva a una validez $p$ -valores e intervalos de confianza. Su razonamiento intuitivo es que

El conjunto de variables seleccionadas por el lazo es determinista y no depende de los datos con alta probabilidad.

Por lo tanto, mirar dos veces los datos no es un problema. Deberá ver si para su problema las condiciones establecidas en la retención de papel o no.

(También hay muchas referencias útiles en el documento)

Referencia:

Zhao, S., Shojaie, A. y Witten, D. (2017). En defensa de lo indefendible: un acercamiento muy ingenuo a la inferencia de alta dimensión. Recuperado de: https://arxiv.org/pdf/1705.05543.pdf

— Greenparker
fuente

+1 Vale la pena señalar, sin embargo, que los autores no recomiendan explícitamente su enfoque, excepto "en configuraciones de datos muy grandes": "No recomendamos aplicar el ... enfoque descrito anteriormente en la mayoría de las configuraciones prácticas de análisis de datos: estamos seguros que en la práctica ... este enfoque funcionará mal cuando el tamaño de la muestra es pequeño o moderado, y / o los supuestos no se cumplen "(en la pág. 27). Para el registro, este documento es Zhao, Shojaie y Witten, En defensa de lo indefendible: un enfoque muy ingenuo para la inferencia de alta dimensión (16 de mayo de 2017).

— whuber

@whuber Y también tenga en cuenta que este documento está en arxiv.org, no estoy seguro si ha sido revisado por pares, por lo que puede haber otros problemas con la metodología del autor.

— RobertF

Quería agregar algunos artículos de la literatura de aprendizaje automático / doble ortogonal que se está volviendo popular en la literatura de Econometría Aplicada.

Belloni, Alexandre, Victor Chernozhukov y Christian Hansen. "Inferencia sobre los efectos del tratamiento después de la selección entre controles de alta dimensión". The Review of Economic Studies 81.2 (2014): 608-650.

Este artículo aborda las propiedades teóricas de una estimación OLS del efecto de una variable después de seleccionar los "otros" controles usando LASSO.
Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Aprendizaje automático doble / desbarbado para el tratamiento y parámetros estructurales, The Econometrics Journal, Volumen 21, Número 1, 1 de febrero de 2018, Páginas C1 – C68 , https://doi.org/10.1111/ectj.12097

Esto desarrolla la teoría integral para utilizar una serie de métodos no paramétricos (algoritmos ML) para controlar de forma no lineal un parámetro molesto de alta dimensión (factores de confusión) y luego estudiar el impacto de una covariable específica en el resultado. Se ocupan de marcos parcialmente lineales y marcos completamente paramétricos. También consideran situaciones en las que se confunde la variable de interés.

— FightMilk
fuente