Respuestas:
En el libro Los elementos del aprendizaje estadístico , Hastie et al. Proporcionar una comparación muy perspicaz y exhaustiva de estas técnicas de contracción. El libro está disponible en línea ( pdf ). La comparación se realiza en la sección 3.4.3, página 69.
La principal diferencia entre Lasso y Ridge es el término de penalización que usan. Ridge utiliza el término de penalización que limita el tamaño del vector de coeficiente. Lasso utiliza la penalización L 1 que impone la dispersión entre los coeficientes y, por lo tanto, hace que el modelo ajustado sea más interpretable. Elasticnet se presenta como un compromiso entre estas dos técnicas y tiene una penalización que es una combinación de las normas L 1 y L 2 .
Para resumir, aquí hay algunas diferencias importantes entre Lasso, Ridge y Elastic-net:
Le recomiendo que eche un vistazo a Una introducción al libro de aprendizaje estadístico (Tibshirani et. Al., 2013).
La razón de esto es que el libro Elementos de aprendizaje estadístico está destinado a personas con capacitación avanzada en ciencias matemáticas. En el prólogo de ISL, los autores escriben:
Una introducción al aprendizaje estadístico surgió de la necesidad percibida de un tratamiento más amplio y menos técnico de estos temas. [...]
Una Introducción al aprendizaje estadístico es apropiada para estudiantes avanzados de pregrado o maestría en estadística o campos cuantitativos relacionados o para individuos en otras disciplinas que desean usar herramientas de aprendizaje estadístico para analizar sus datos.
Las respuestas anteriores son muy claras e informativas. Me gustaría agregar un punto menor desde la perspectiva estadística. Tome la regresión de cresta como un ejemplo. Es una extensión de la regresión de mínimos cuadrados ordinales para resolver los problemas de multicolinealidad cuando hay muchas características correlacionadas. Si la regresión lineal es
Y=Xb+e
La solución de ecuación normal para la regresión lineal múltiple.
b=inv(X.T*X)*X.T*Y
La solución de ecuación normal para la regresión de cresta es
b=inv(X.T*X+k*I)*X.T*Y.
Es un estimador sesgado para b y siempre podemos encontrar un término de penalización k que hará que el error cuadrado medio de la regresión de Ridge sea más pequeño que el de la regresión OLS.
Para LASSO y Elastic-Net, no pudimos encontrar una solución analítica de este tipo.