Cresta, lazo y red elástica

33

¿Cómo se comparan los métodos de regularización de cresta, LASSO y elasticnet? ¿Cuáles son sus respectivas ventajas y desventajas? Cualquier buen documento técnico o apuntes de clase también serán apreciados.

— user3269
fuente

39

En el libro Los elementos del aprendizaje estadístico , Hastie et al. Proporcionar una comparación muy perspicaz y exhaustiva de estas técnicas de contracción. El libro está disponible en línea ( pdf ). La comparación se realiza en la sección 3.4.3, página 69.

La principal diferencia entre Lasso y Ridge es el término de penalización que usan. Ridge utiliza el término de penalización que limita el tamaño del vector de coeficiente. Lasso utiliza la penalización que impone la dispersión entre los coeficientes y, por lo tanto, hace que el modelo ajustado sea más interpretable. Elasticnet se presenta como un compromiso entre estas dos técnicas y tiene una penalización que es una combinación de las normas y . $L_2$ $L_1$ $L_1$ $L_2$

— MMM
fuente

3

Ese es un libro de referencia maravilloso.

— bdeonovic

44

¡También porque los autores son los inventores de estas técnicas!

— Bakaburg

1

Gracias por darnos una referencia de este hermoso libro

— Christina

1

Recomiendo también la sección 18.4, páginas 661-668. Proporciona más información sobre lazo frente a red elástica.

— Katya Handler

1

El enlace al libro está muerto a partir del 14 de octubre de 2016

— Ashe el

22

Para resumir, aquí hay algunas diferencias importantes entre Lasso, Ridge y Elastic-net:

Lasso hace una selección dispersa , mientras que Ridge no.
Cuando tengas variables altamente correlacionadas , la regresión de Ridge reduce los dos coeficientes uno hacia el otro. El lazo es algo indiferente y generalmente elige uno sobre el otro. Dependiendo del contexto, uno no sabe qué variable se elige. Elastic-net es un compromiso entre los dos que intenta reducir y hacer una selección dispersa simultáneamente.
Los estimadores de cresta son indiferentes a la escala multiplicativa de los datos. Es decir, si las variables X e Y se multiplican por constantes, los coeficientes del ajuste no cambian para un parámetro dado . Sin embargo, para Lasso, el ajuste no es independiente de la escala. De hecho, el $\lambda$ $\lambda$ parámetro debe ser ampliado por el multiplicador para obtener el mismo resultado. Es más complejo para la red elástica.
Ridge penaliza a los más grandes más $\beta$ de lo que penaliza a los más pequeños (ya que están al cuadrado en el término de penalización). Lasso los penaliza más uniformemente. Esto puede o no ser importante. En un problema de pronóstico con un predictor poderoso, la efectividad del predictor se reduce por el Ridge en comparación con el Lazo.

— balaks
fuente

@ balaks para el segundo punto que hizo, ¿qué significa "uno no sabe qué variable se elige"? ¿Querías decir que LASSO es indiferente, por lo que elige uno al azar para que no sepamos cuál es el mejor?

— meTchaikovsky

4

Le recomiendo que eche un vistazo a Una introducción al libro de aprendizaje estadístico (Tibshirani et. Al., 2013).

La razón de esto es que el libro Elementos de aprendizaje estadístico está destinado a personas con capacitación avanzada en ciencias matemáticas. En el prólogo de ISL, los autores escriben:

Una introducción al aprendizaje estadístico surgió de la necesidad percibida de un tratamiento más amplio y menos técnico de estos temas. [...]

Una Introducción al aprendizaje estadístico es apropiada para estudiantes avanzados de pregrado o maestría en estadística o campos cuantitativos relacionados o para individuos en otras disciplinas que desean usar herramientas de aprendizaje estadístico para analizar sus datos.

— jeza
fuente

1

¿Puede explicar por qué encontró útil esta referencia?

— JM no es un estadístico

1

Está bien citar un libro, pero márquelo como una cita y no como su propio texto. De lo contrario, es plagio. Lo edité para ti ahora.

— ameba dice Reinstate Monica

1

Las respuestas anteriores son muy claras e informativas. Me gustaría agregar un punto menor desde la perspectiva estadística. Tome la regresión de cresta como un ejemplo. Es una extensión de la regresión de mínimos cuadrados ordinales para resolver los problemas de multicolinealidad cuando hay muchas características correlacionadas. Si la regresión lineal es

Y=Xb+e

La solución de ecuación normal para la regresión lineal múltiple.

b=inv(X.T*X)*X.T*Y

La solución de ecuación normal para la regresión de cresta es

b=inv(X.T*X+k*I)*X.T*Y.

Es un estimador sesgado para b y siempre podemos encontrar un término de penalización k que hará que el error cuadrado medio de la regresión de Ridge sea más pequeño que el de la regresión OLS.

Para LASSO y Elastic-Net, no pudimos encontrar una solución analítica de este tipo.

— Emma
fuente