[Se hizo una pregunta similar aquí sin respuestas]
He ajustado un modelo de regresión logística con regularización L1 (regresión logística Lasso) y me gustaría probar la significación de los coeficientes ajustados y obtener sus valores p. Sé que las pruebas de Wald (por ejemplo) son una opción para probar la importancia de los coeficientes individuales en una regresión completa sin regularización, pero con Lasso creo que surgen más problemas que no permiten aplicar las fórmulas habituales de Wald. Por ejemplo, las estimaciones de varianza necesarias para la prueba no siguen las expresiones habituales. El papel original de Lasso
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
sugiere un procedimiento basado en bootstrap para estimar la variación de coeficientes, que (nuevamente, creo) puede ser necesaria para las pruebas (sección 2.5, último párrafo de la página 272 y comienzo de 273):
Un enfoque es a través del bootstrap: o puede ser reparado o podemos optimizarlo sobre para cada muestra de bootstrap. Arreglar es análogo a seleccionar el mejor subconjunto ( de características ) y luego usar el error estándar de mínimos cuadrados para ese subconjunto
Lo que entiendo es: ajustar una regresión Lasso repetidamente a todo el conjunto de datos hasta que encontremos el valor óptimo para el parámetro de regularización (esto no es parte del bootstrap), y luego usar solo las características seleccionadas por el Lazo para ajustar las regresiones OLS a las submuestras de los datos y aplicar las fórmulas habituales para calcular las variaciones de cada una de esas regresiones. (¿Y luego qué debo hacer con todas esas variaciones de cada coeficiente para obtener la estimación de la variación final de cada coeficiente?)
Además, ¿es correcto usar las pruebas de significación habituales (por ejemplo, la prueba de Wald que utiliza las betas y variaciones estimadas) con las estimaciones de Losso de los coeficientes y las variaciones estimadas de bootstrap? Estoy bastante seguro de que no lo es, pero cualquier ayuda (use una prueba diferente, use un enfoque más directo, lo que sea ...) es más que bienvenida.
De acuerdo con las respuestas aquí , sospecho que la inferencia y los valores p simplemente no se pueden obtener. En mi caso, los valores p son un requisito externo (aunque el uso de la regularización L1 fue mi elección).
Muchas gracias
EDITAR ¿Qué sucede si ajusto una regresión logística OLS utilizando solo las variables seleccionadas por una ejecución anterior de la regresión logística Lasso? Aparentemente (ver aquí ),
No es necesario volver a ejecutar el modelo después de realizar la validación cruzada (solo obtiene los coeficientes de la salida de cv.glmnet) y, de hecho, si se ajusta al nuevo modelo de regresión logística sin penalización, entonces está frustrando el propósito de usar lazo
Pero, ¿qué sucede si hago esto con el único propósito de poder calcular los valores p mientras se mantiene baja la cantidad de variables? ¿Es un enfoque muy sucio? :-)