Pero no es esto lo que queremos. Quiero decir que nos salva del problema de la multicolinealidad, ¿no?
¡Si! y no. Elastic net es una combinación de dos técnicas de regularización, la regularización L2 (utilizada en la regresión de cresta) y la regularización L1 (utilizada en LASSO).
Lasso produce modelos naturalmente dispersos, es decir, la mayoría de los coeficientes variables se reducirán a 0 y se excluirán efectivamente del modelo. Entonces, las variables menos significativas se reducen, antes de reducir las otras, a diferencia de la cresta, donde todas las variables se reducen, mientras que ninguna de ellas se reduce realmente a 0.
Elastic net utiliza una combinación lineal de ambos enfoques. El caso específico mencionado por Hastie al discutir el método fue en el caso de p grande, n pequeña. Lo que significa: datos de alta dimensión con relativamente pocas observaciones. En este caso, LASSO (según los informes) solo seleccionaría a lo sumo n variables, mientras eliminaba todo el resto, vea el artículo de Hastie .
Siempre dependerá del conjunto de datos real, pero puede imaginarse que no siempre desea que el límite superior en el número de variables en sus modelos sea igual o inferior al número de sus observaciones.