Tengo una pregunta con respecto a la necesidad de utilizar métodos de selección de características (los bosques aleatorios tienen un valor de importancia de características o métodos de selección de características univariadas, etc.) antes de ejecutar un algoritmo de aprendizaje estadístico.
Sabemos que para evitar el sobreajuste podemos introducir una penalización de regularización en los vectores de peso.
Entonces, si quiero hacer una regresión lineal, entonces podría introducir los parámetros de regularización neta L2 o L1 o incluso Elastic. Para obtener soluciones dispersas, la penalización L1 ayuda en la selección de funciones.
Entonces, ¿es necesario hacer una selección de funciones antes de ejecutar la regresión de regularización L1 como Lasso ?. Técnicamente, Lasso me está ayudando a reducir las funciones mediante la penalización L1, ¿por qué es necesaria la selección de funciones antes de ejecutar el algo?
Leí un artículo de investigación que decía que hacer Anova y luego SVM proporciona un mejor rendimiento que usar SVM solo. Ahora la pregunta es: SVM inherentemente realiza la regularización usando la norma L2. Para maximizar el margen, está minimizando la norma del vector de peso. Entonces está haciendo regularización en su función objetivo. Entonces, técnicamente, los algoritmos como SVM no deberían preocuparse por los métodos de selección de características. Pero el informe aún dice que hacer una selección de características univariantes antes de que SVM normal sea más poderoso.
¿Alguien con pensamientos?