La principal ventaja de la regresión gradual es que es computacionalmente eficiente. Sin embargo, su rendimiento es generalmente peor que los métodos alternativos. El problema es que es demasiado codicioso. Al hacer una difícil selección del siguiente regresor y 'congelar' el peso, toma decisiones que son localmente óptimas en cada paso, pero subóptimas en general. Y no puede volver a revisar sus elecciones pasadas.
Por lo que yo sé, regresión paso a paso ha caído en desgracia en general en comparación con regresión regularizado (LASSO), que tiende a producir mejores soluciones.l1
Tibshirani (1996) . Contracción y selección de regresión a través del lazo
LASSO penaliza la norma de los pesos, lo que induce la escasez en la solución (muchos pesos se ven obligados a cero). Esto lleva a cabo la selección de variables (las variables 'relevantes' pueden tener pesos distintos de cero). El grado de escasez está controlado por el término de penalidad, y se debe utilizar algún procedimiento para seleccionarlo (la validación cruzada es una opción común). LASSO es más computacionalmente intensivo que la regresión por pasos, pero existen varios algoritmos eficientes. Algunos ejemplos son la regresión de ángulo mínimo ( LARS ) y un enfoque basado en el descenso coordinado .l1
Un enfoque similar al que sugirió en (2) se llama búsqueda de correspondencia ortogonal. Es una generalización de búsqueda de correspondencia, que es el nombre de la regresión gradual en la literatura de procesamiento de señales.
Pati y col. (1993) . Búsqueda de correspondencia ortogonal: aproximación recursiva de funciones con aplicaciones para la descomposición de wavelets
En cada iteración, el siguiente mejor regresor se agrega al conjunto activo. Luego, los pesos para todos los regresores en el conjunto activo se vuelven a calcular. Debido al paso de reponderación, este enfoque es menos codicioso (y tiene un mejor rendimiento) que la búsqueda de emparejamiento regular / regresión gradual. Pero, todavía emplea una búsqueda codiciosa heurística.
Todos estos enfoques (regresión por pasos, LASSO y búsqueda de correspondencia ortogonal) pueden considerarse aproximaciones del siguiente problema:
minw∥y−Xw∥22s.t. ∥w∥0≤c
En un contexto de regresión, las columnas de corresponden a las variables independientes e a la variable dependiente. En el procesamiento de señales, las columnas de corresponden a funciones básicas e es una señal para aproximarse. El objetivo es encontrar un conjunto escaso de pesos que den la mejor aproximación (mínimos cuadrados) de . La norma simplemente cuenta el número de entradas distintas de cero en . Desafortunadamente, este problema es NP-hard, por lo que los algoritmos de aproximación deben usarse en la práctica. La regresión gradual y la búsqueda de correspondencia ortogonal intentan resolver el problema utilizando una estrategia de búsqueda codiciosa. LASSO reformula el problema utilizando una relajación delXyXywyl0wl0 a la norma . Aquí, el problema de optimización se vuelve convexo (y por lo tanto manejable). Y, aunque el problema ya no es idéntico, la solución es similar. Si recuerdo correctamente, se ha demostrado que tanto LASSO como la búsqueda de correspondencia ortogonal recuperan la solución exacta bajo ciertas condiciones.l1