¿Qué quieren decir los estadísticos cuando dicen que realmente no entendemos cómo funciona el LASSO (regularización)?

He estado en algunas charlas de estadísticas recientemente sobre el Lazo (regularización) y un punto que sigue surgiendo es que realmente no entendemos por qué funciona el Lazo o por qué funciona tan bien. Me pregunto a qué se refiere esta declaración. Obviamente, entiendo por qué el Lazo funciona técnicamente, a modo de prevención de sobreajuste por contracción de los parámetros, pero me pregunto si hay un significado más profundo detrás de tal declaración. ¿Alguien tiene alguna idea? ¡Gracias!

machine-learning lasso regularization

— usuario321627
fuente

Definir "obras". ¿Trabaja para hacer qué, exactamente? ¿Trabaja para aumentar la escasez? ¿Trabaja para prevenir el sobreajuste? ¿Trabaja para producir pruebas estadísticas razonables? - O para decirlo de otra manera, ¿qué significaría "no funcionar" en este contexto? - Como puede ver en los comentarios sobre la respuesta actual, existe cierta confusión sobre lo que busca.

— RM

@RM, en realidad solo estás reformulando el OP, en mi humilde opinión. El OP probablemente sea el mismo desconocido que el que tiene problemas para identificar.

— Richard Hardy

@RichardHardy Veo cómo podría ser ese el caso, pero si es así, espero que el OP al menos pueda ampliar el contexto en esas conversaciones de estadísticas en las que surgió el punto, con la esperanza de ayudarnos a centrarnos en lo que esos oradores podrían He estado pensando.

— RM

@RM, bien entonces.

— Richard Hardy

Respuestas:

A veces hay una falta de comunicación entre los estadísticos que trabajan y la comunidad de teoría del aprendizaje que estudian los fundamentos de métodos como el lazo. Las propiedades teóricas del lazo son realmente muy bien entendidas.

Este documento tiene un resumen en la Sección 4 de muchas de las propiedades que disfruta. Los resultados son bastante técnicos, pero esencialmente:

Recupera el verdadero soporte (conjunto de entradas distintas de cero) de un vector de peso escaso bajo algunas suposiciones leves, para conjuntos de datos lo suficientemente grandes, con alta probabilidad.
Converge en el vector de peso correcto a la velocidad óptima a medida que aumenta el tamaño de la muestra, siempre que las columnas de no estén demasiado correlacionadas. $X$

— AaronDefazio
fuente

Si entendiendo por qué funciona Lasso, quiere decir comprender por qué realiza la selección de funciones (es decir, establecer los pesos para algunas funciones en exactamente 0), lo entendemos muy bien:

— rinspy
fuente

Gracias por una buena ilustración, pero sospecho que esa no es la parte que le interesa al OP. Por supuesto, depende del OP aclarar eso.

— Richard Hardy

No entiendo los puntos de tu diagrama.

— Michael R. Chernick

L_{1}

$L_1$

\hat{λ}

$\hat \lambda$

@Chaconne, ¡tus puntos forman una excelente base para una respuesta!

— Richard Hardy

@Chaconne, que parecía para generar discusión útil, aunque mediante la identificación de lo que sí entendemos sobre Lasso!

— rinspy

Existe el problema de la recuperación de signos de la coherencia de selección de modelo (que ha respondido los estadísticos ), y

está el problema de la inferencia (construir buenos intervalos de confianza para las estimaciones), que es hasta un tema de investigación.

La mayor parte del trabajo es realizado por estadísticos en lugar de "la comunidad de la teoría del aprendizaje".

— Gao Zheng
fuente

¿Cómo se agrega esto a lo que ya se dio?

— Michael R. Chernick

Nadie ha mencionado el problema de la inferencia aquí, que creo que es la razón por la cual la afirmación ("no se entiende bien") se hizo en primer lugar.

— Gao Zheng