Superioridad de LASSO sobre la selección hacia adelante / eliminación hacia atrás en términos del error de predicción de validación cruzada del modelo

10

Obtuve tres modelos reducidos de un modelo completo original usando

selección hacia adelante
eliminación hacia atrás
Técnica de penalización L1 (LASSO)

Para los modelos obtenidos usando la selección hacia adelante / eliminación hacia atrás, obtuve la estimación validada cruzada del error de predicción usando el CVlmpaquete DAAGdisponible en R. Para el modelo seleccionado a través de LASSO, utilicé cv.glm.

El error de predicción para LASSO fue menor que el obtenido para los otros. Entonces, el modelo obtenido a través de LASSO parece ser mejor en términos de su capacidad predictiva y variabilidad. ¿Es este un fenómeno general que siempre ocurre o es un problema específico? ¿Cuál es el razonamiento teórico para esto si se trata de un fenómeno general?

— usuario41512
fuente

3

Asegúrese de no utilizar una regla de puntuación de precisión inadecuada, como la proporción clasificada correcta, ya que esto recompensa predicciones / modelos inapropiados. Y comparar con la norma L2. Apuesto a que será mejor que los 3 enfoques que probaste.

— Frank Harrell

16

La selección del modelo LASSO y hacia adelante / hacia atrás tiene fortalezas y limitaciones. No se puede hacer una recomendación exhaustiva. La simulación siempre se puede explorar para abordar esto.

$p$ $n$ $p \gg n$

El sobreajuste se remedia utilizando la validación cruzada de muestras divididas (CV) para la evaluación del modelo. Como no describiste esto, supongo que no lo hiciste. A diferencia de la selección de modelo por pasos, LASSO utiliza un parámetro de ajuste para penalizar el número de parámetros en el modelo. Puede corregir el parámetro de ajuste o utilizar un proceso iterativo complicado para elegir este valor. Por defecto , LASSO hace lo último. Esto se hace con CV para minimizar el MSE de predicción. No conozco ninguna implementación de selección de modelo por pasos que use técnicas tan sofisticadas, incluso el BIC como criterio sufriría un sesgo de validación interna. Según mi cuenta, eso automáticamente le da a LASSO influencia sobre la selección de modelos "listos para usar".

Por último, la selección de modelos por pasos puede tener diferentes criterios para incluir / excluir diferentes regresores. Si usa los valores p para la prueba de Wald de los parámetros del modelo específico o el modelo resultante R ^ 2, no lo hará bien, principalmente debido al sesgo de validación interno (nuevamente, podría remediarse con CV). Me parece sorprendente que esta sea la forma en que estos modelos tienden a implementarse. AIC o BIC son criterios mucho mejores para la selección del modelo.

Hay varios problemas con cada método. Los problemas de selección de modelos paso a paso se entienden mucho mejor, y son mucho peores que los de LASSO. El principal problema que veo con su pregunta es que está utilizando herramientas de selección de funciones para evaluar la predicción . Son tareas distintas. LASSO es mejor para la selección de características o la selección de modelos dispersos. La regresión de cresta puede dar una mejor predicción ya que utiliza todas las variables.

$p \gg n$

— AdamO
fuente

4

Desea elegir un subconjunto de predictores de acuerdo con algunos criterios. Puede ser AIC en muestra o R ^ 2 ajustado, o validación cruzada, no importa.

Puede probar cada combinación de subconjunto de predictores y elegir el mejor subconjunto. sin embargo

Muy lento debido a la explosión combinatoria de parámetros.
Funciona si tiene más parámetros que observaciones en el sentido de que prueba todas las combinaciones de predictores que dan una solución

Puede usar la selección progresiva hacia adelante

Menos tiempo, pero puede no obtener la mejor combinación absoluta, especialmente. cuando los predictores están correlacionados (puede elegir un predictor y no poder obtener una mejora adicional al agregar otros 2 predictores habrían mostrado una mejora)
Funciona incluso cuando tienes más parámetros que observaciones

Podrías usar la eliminación hacia atrás

No funciona si tiene más parámetros que observaciones, no hay un buen punto de partida (en teoría, podría comenzar desde todos los puntos de partida válidos, trabajar hacia atrás, elegir el mejor, pero eso no es lo que normalmente se entiende por eliminación hacia atrás)
Como avanzar paso a paso, requiere menos tiempo que todos los subconjuntos, pero puede no obtener la mejor combinación absoluta, especialmente. cuando los predictores están correlacionados

Podrías usar LASSO

Funciona incluso cuando tienes más parámetros que observaciones
CPU eficiente cuando tiene muchos parámetros y explosión combinatoria de subconjuntos
Agrega regularización

En cuanto a su pregunta de por qué LASSO funciona mejor en sus datos en CV

Una posibilidad es la dependencia de ruta descrita anteriormente: LASSO puede encontrar un mejor subconjunto. Quizás tuvo suerte, quizás LASSO generalmente / a veces obtiene mejores subconjuntos, no estoy seguro. Quizás haya literatura sobre el tema.
Otra posibilidad (más probable) es que la regularización de LASSO evita el sobreajuste, por lo que LASSO funciona mejor en CV / fuera de la muestra.

En pocas palabras, LASSO le ofrece regularización y una selección eficiente de subconjuntos, especialmente cuando tiene muchos predictores.

Por cierto, puede hacer LASSO y seleccionar su modelo usando CV (más común) pero también usando AIC o algún otro criterio. Ejecute su modelo con regularización L1 y sin restricciones, luego apriete gradualmente la restricción hasta que el AIC alcance un mínimo, o un error de CV, o el criterio de su elección. Ver http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html

— Rocky McNuts
fuente