Ya tengo una idea sobre los pros y los contras de la regresión de crestas y el LASSO.
Para el LASSO, el término de penalización L1 producirá un vector de coeficiente disperso, que puede verse como un método de selección de características. Sin embargo, existen algunas limitaciones para el LASSO. Si las características tienen una alta correlación, LASSO solo seleccionará una de ellas. Además, para problemas donde > , LASSO seleccionará como máximo parámetros ( y son el número de observaciones y parámetros, respectivamente). Esto hace que el LASSO sea empíricamente un método subóptimo en términos de previsibilidad en comparación con la regresión de cresta.
Para la regresión de cresta, ofrece una mejor previsibilidad en general. Sin embargo, su interpretabilidad no es tan agradable como el LASSO.
La explicación anterior a menudo se puede encontrar en los libros de texto en aprendizaje automático / minería de datos. Sin embargo, todavía estoy confundido acerca de dos cosas:
Si normalizamos el rango de características (digamos entre 0 y 1, o con cero media y varianza unitaria), y ejecutamos la regresión de cresta, aún podemos tener una idea de la importancia de la característica clasificando los valores absolutos de los coeficientes (la característica más importante tiene el valor absoluto más alto de coeficientes). Aunque no estamos seleccionando características explícitamente, la interpretabilidad no se pierde con la regresión de crestas. Al mismo tiempo, aún podemos lograr un alto poder de predicción. Entonces, ¿por qué necesitamos el LASSO? ¿Me estoy perdiendo de algo?
¿Se prefiere LASSO debido a su naturaleza de selección de características? A mi entender, las razones por las que necesitamos la selección de características son la capacidad de generalizar y facilitar el cálculo.
Para facilitar el cómputo, no queremos incorporar todas las funciones de 1 millón en nuestro modelo si estamos realizando algunas tareas de PNL, por lo que eliminamos algunas características obviamente inútiles primero para reducir el costo computacional. Sin embargo, para LASSO, solo podemos conocer el resultado de la selección de características (el vector disperso) después de alimentar todos los datos en nuestro modelo, por lo que no nos beneficiamos de LASSO en términos de reducir el costo computacional. Solo podemos hacer predicciones un poco más rápido ya que ahora solo alimentamos el subconjunto de características (por ejemplo, 500 de 1 millón) en nuestro modelo para generar resultados pronosticados.
Si se prefiere el LASSO por su capacidad de generalizar, entonces también podemos lograr el mismo objetivo utilizando la regresión de cresta (o cualquier otro tipo de regularización). ¿Por qué necesitamos LASSO (o redes elásticas) nuevamente? ¿Por qué no podemos limitarnos a la regresión de crestas?
¿Podría alguien arrojar algunas luces sobre esto? ¡Gracias!