Estos métodos, el lazo y la red elástica, nacieron de los problemas tanto de la selección de características como de la predicción. Es a través de estas dos lentes que creo que se puede encontrar una explicación.
Matthew Gunn explica amablemente en su respuesta que estos dos objetivos son distintos y que a menudo son adoptados por diferentes personas. Sin embargo, afortunadamente para nosotros, los métodos que nos interesan pueden funcionar bien en ambos ámbitos.
Selección de características
Primero, hablemos sobre la selección de características. Primero debemos motivar la red elástica desde la perspectiva del lazo. Es decir, para citar a Hastie y Zou , "si hay un grupo de variables entre las cuales las correlaciones por pares son muy altas, entonces el lazo tiende a seleccionar solo una variable del grupo y no le importa cuál está seleccionada". Este es un problema, por ejemplo, porque significa que no es probable que encontremos un elemento del verdadero soporte utilizando el lazo, solo uno altamente correlacionado con él. (El documento menciona que esto está probado en el documento LARS, que aún no he leído). Wainwright también señala la dificultad de la recuperación del soporte en presencia de correlación . cuando hay una alta correlación entre el verdadero soporte y su complemento.0.5
Ahora, la penalización l2 en la red elástica fomenta que las características que tienen coeficientes tratados como indistinguibles solo por la pérdida y la penalización l1 tengan un coeficiente estimado igual. Podemos ver esto libremente al notar que satisface(a,b)=argmina′,b′:c=|a′|+|b′|(a′)2+(b′)2. Debido a esto, la red elástica hace que sea menos probable que 'accidentalmente' haga desaparecer una estimación de coeficiente que se encuentra en el verdadero soporte. Es decir, es más probable que el verdadero soporte esté contenido dentro del soporte estimado. ¡Eso es bueno! Significa que hay más descubrimientos falsos, pero ese es un precio que la mayoría de la gente está dispuesta a pagar.|a|=|b|
Por otro lado, vale la pena señalar que el hecho de que las características altamente correlacionadas tenderán a tener estimaciones de coeficientes muy similares hace que podamos detectar agrupaciones de características dentro del soporte estimado que influyen en la respuesta de manera similar.
Predicción
Ahora, pasamos a la predicción. Como señala Matthew Gunn, elegir los parámetros de ajuste a través de la validación cruzada crea el objetivo de elegir un modelo con un mínimo error de predicción. Dado que cualquier modelo seleccionado por el lazo puede ser seleccionado por la red elástica (tomandoα=1
Lederer, Yu y Gaynanova muestran, bajo ningún supuesto sobre las características, que el lazo y la red elástica pueden tener su error de predicción l2 limitado por la misma cantidad. No es necesariamente cierto que su límite sea estrecho, pero esto puede ser interesante de notar ya que las desigualdades de oráculo parecen ser una forma estándar en la literatura estadística para cuantificar el rendimiento predictivo de los estimadores, ¡quizás porque las distribuciones son tan complicadas! También vale la pena señalar que Lederer (1) (2) tiene algunos documentos sobre predicciones de lazo en presencia de características correlacionadas.
Resumen
En resumen, los problemas de interés son el verdadero soporte dentro del soporte estimado y la predicción. Para la recuperación del soporte, existen garantías rigurosamente comprobadas (a través de Wainwright) de que el lazo selecciona las características correctas para estar en el modelo bajo supuestos de baja correlación entre el soporte verdadero y su complemento. Sin embargo, en presencia de correlación, podemos recurrir a la red elástica para tener más probabilidades de seleccionar las características en el soporte real para estar entre todo lo que selecciona. (Tenga en cuenta que tenemos que seleccionar cuidadosamente los parámetros de ajuste aquí.) Y, para la predicción cuando elegimos el parámetro de ajuste a través de la validación cruzada, tiene sentido intuitivo que la red elástica debería funcionar mejor que el lazo, especialmente en presencia de correlación .
Dejando de lado la predicción y algo de formalidad, ¿qué aprendimos? Aprendimos sobre el verdadero apoyo.
Intervalos de confianza
Vale la pena señalar que mucho ha cambiado en los últimos 2 años en lo que respecta a la inferencia válida para el lazo. En particular, el trabajo de Lee, Sun, Sun y Taylor proporciona una inferencia exacta para los coeficientes del lazo condicional al modelo seleccionado que se seleccione. (Los resultados de la inferencia en el lazo para los coeficientes verdaderos existían en el momento de la publicación de OP, y están bien resumidos en el documento vinculado).