Prueba de significancia de coeficientes en regresión logística de lazo

[Se hizo una pregunta similar aquí sin respuestas]

He ajustado un modelo de regresión logística con regularización L1 (regresión logística Lasso) y me gustaría probar la significación de los coeficientes ajustados y obtener sus valores p. Sé que las pruebas de Wald (por ejemplo) son una opción para probar la importancia de los coeficientes individuales en una regresión completa sin regularización, pero con Lasso creo que surgen más problemas que no permiten aplicar las fórmulas habituales de Wald. Por ejemplo, las estimaciones de varianza necesarias para la prueba no siguen las expresiones habituales. El papel original de Lasso

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

sugiere un procedimiento basado en bootstrap para estimar la variación de coeficientes, que (nuevamente, creo) puede ser necesaria para las pruebas (sección 2.5, último párrafo de la página 272 y comienzo de 273):

Un enfoque es a través del bootstrap: o puede ser reparado o podemos optimizarlo sobre para cada muestra de bootstrap. Arreglar es análogo a seleccionar el mejor subconjunto ( de características ) y luego usar el error estándar de mínimos cuadrados para ese subconjunto $t$ $t$ $t$

Lo que entiendo es: ajustar una regresión Lasso repetidamente a todo el conjunto de datos hasta que encontremos el valor óptimo para el parámetro de regularización (esto no es parte del bootstrap), y luego usar solo las características seleccionadas por el Lazo para ajustar las regresiones OLS a las submuestras de los datos y aplicar las fórmulas habituales para calcular las variaciones de cada una de esas regresiones. (¿Y luego qué debo hacer con todas esas variaciones de cada coeficiente para obtener la estimación de la variación final de cada coeficiente?)

Además, ¿es correcto usar las pruebas de significación habituales (por ejemplo, la prueba de Wald que utiliza las betas y variaciones estimadas) con las estimaciones de Losso de los coeficientes y las variaciones estimadas de bootstrap? Estoy bastante seguro de que no lo es, pero cualquier ayuda (use una prueba diferente, use un enfoque más directo, lo que sea ...) es más que bienvenida.

De acuerdo con las respuestas aquí , sospecho que la inferencia y los valores p simplemente no se pueden obtener. En mi caso, los valores p son un requisito externo (aunque el uso de la regularización L1 fue mi elección).

Muchas gracias

EDITAR ¿Qué sucede si ajusto una regresión logística OLS utilizando solo las variables seleccionadas por una ejecución anterior de la regresión logística Lasso? Aparentemente (ver aquí ),

No es necesario volver a ejecutar el modelo después de realizar la validación cruzada (solo obtiene los coeficientes de la salida de cv.glmnet) y, de hecho, si se ajusta al nuevo modelo de regresión logística sin penalización, entonces está frustrando el propósito de usar lazo

Pero, ¿qué sucede si hago esto con el único propósito de poder calcular los valores p mientras se mantiene baja la cantidad de variables? ¿Es un enfoque muy sucio? :-)

— Pablo
fuente

Para hacer inferencia para los modelos LASSO, también puede consultar el paquete CRAN hdi que proporciona inferencia para modelos de alta dimensión, es posible que desee echar un vistazo a eso ...

— Tom Wenseleers

Los métodos completos están bien descritos en este documento: projecteuclid.org/euclid.ss/1449670857

— Tom Wenseleers

Y también hay un paquete cran.r-project.org/web/packages/selectiveInference/index.html que puede ser útil para proporcionar inferencia para el LASSO ...

— Tom Wenseleers

Esta es una buena e importante pregunta para hacer.

— Jinhua Wang

Respuestas:

El problema con el uso de las pruebas de significancia habituales, es que asumen lo nulo, es decir, que hay variables aleatorias, sin relación con las variables de resultado. Sin embargo, lo que tiene con el lazo es un montón de variables aleatorias, de las cuales selecciona las mejores con el lazo, también las betas se reducen. Por lo tanto, no puede usarlo, los resultados serán sesgados.

Hasta donde sé, el bootstrap no se usa para obtener la estimación de la varianza, sino para obtener las probabilidades de que se seleccione una variable. Y esos son sus valores p. Consulte el libro gratuito de Hasie, Estadística de aprendizaje con la dispersión, capítulo 6 está hablando de lo mismo. http://web.stanford.edu/~hastie/StatLearnSparsity/

Consulte también este documento para conocer otras formas de obtener valores p del lazo https://arxiv.org/pdf/1408.4026.pdf Probablemente haya más

— rep_ho
fuente

El problema con la realización de la inferencia después de la selección del modelo es que está seleccionando las variables más predictivas y luego realizando la inferencia como si se hubieran seleccionado independientemente de los datos. Es posible demostrar que reajustar el modelo de regresión después de hacer la selección del modelo con el lazo (¡o cualquier otro método de selección del modelo!) Puede conducir a estimaciones imparciales (que es una de las razones por las cuales una aproximación gaussiana simple a menudo fallará para intervalos de confianza) $\sqrt{n}$

Afortunadamente, ha habido mucho progreso en los últimos años en el desarrollo de métodos de inferencia que dan cuenta de la post-selección. Algunas referencias relevantes para su caso son: http://projecteuclid.org/euclid.aos/1460381681 y, https://arxiv.org/pdf/1602.07358.pdf . Las técnicas discutidas en estas referencias se implementan en el paquete R selectiveference- https://cran.r-project.org/web/packages/selectiveInference/index.html . El paquete selectivo de inferencia debe producir los intervalos de confianza válidos que necesita.

— usuario3903581
fuente

En la especialización de Machine Learning en Coursera por Univ. de Washington, los profesores del curso 2 (Regresión) dedicaron una semana entera a la regresión Lasso. En una de las diapositivas, el procedimiento que describí (usando Lasso para seleccionar características y luego ajustando una regresión LS con solo esas variables) se denomina desbarbado y se considera correcto e ilustrado con gráficos de un artículo de Mario Figueiredo. Consulte la diapositiva 105 aquí: github.com/MaxPoon/coursera-Machine-Learning-specialization/…

— Pablo

Si bien recomiendan eliminar el sesgo del lazo, no discuten en absoluto las pruebas de hipótesis. Además, el término des-sesgo es engañoso, porque al volver a colocar el modelo se elimina el sesgo hacia abajo inducido por el lazo, no ayuda con el sesgo hacia arriba inducido por la maldición del ganador. Hasta donde yo sé, la única forma de desviar verdaderamente las estimaciones del coeficiente de regresión del modelo seleccionado es calcular las estimaciones condicionales de máxima verosimilitud. arxiv.org/abs/1705.09417

— user3903581