¿Cuáles son las ventajas de la regresión gradual?

11

Estoy experimentando una regresión gradual por el bien de la diversidad en mi enfoque del problema. Entonces, tengo 2 preguntas:

¿Cuáles son las ventajas de la regresión gradual? ¿Cuáles son sus puntos fuertes específicos?
¿Qué opina sobre el enfoque híbrido, donde utiliza la regresión gradual para seleccionar características y luego aplica la regresión regular tomando todas las características seleccionadas juntas?

regression feature-selection stepwise-regression

— Baron Yugovich
fuente

15

La principal ventaja de la regresión gradual es que es computacionalmente eficiente. Sin embargo, su rendimiento es generalmente peor que los métodos alternativos. El problema es que es demasiado codicioso. Al hacer una difícil selección del siguiente regresor y 'congelar' el peso, toma decisiones que son localmente óptimas en cada paso, pero subóptimas en general. Y no puede volver a revisar sus elecciones pasadas.

Por lo que yo sé, regresión paso a paso ha caído en desgracia en general en comparación con regresión regularizado (LASSO), que tiende a producir mejores soluciones. $l_1$

Tibshirani (1996) . Contracción y selección de regresión a través del lazo

LASSO penaliza la norma de los pesos, lo que induce la escasez en la solución (muchos pesos se ven obligados a cero). Esto lleva a cabo la selección de variables (las variables 'relevantes' pueden tener pesos distintos de cero). El grado de escasez está controlado por el término de penalidad, y se debe utilizar algún procedimiento para seleccionarlo (la validación cruzada es una opción común). LASSO es más computacionalmente intensivo que la regresión por pasos, pero existen varios algoritmos eficientes. Algunos ejemplos son la regresión de ángulo mínimo ( LARS ) y un enfoque basado en el descenso coordinado . $l_1$

Un enfoque similar al que sugirió en (2) se llama búsqueda de correspondencia ortogonal. Es una generalización de búsqueda de correspondencia, que es el nombre de la regresión gradual en la literatura de procesamiento de señales.

Pati y col. (1993) . Búsqueda de correspondencia ortogonal: aproximación recursiva de funciones con aplicaciones para la descomposición de wavelets

En cada iteración, el siguiente mejor regresor se agrega al conjunto activo. Luego, los pesos para todos los regresores en el conjunto activo se vuelven a calcular. Debido al paso de reponderación, este enfoque es menos codicioso (y tiene un mejor rendimiento) que la búsqueda de emparejamiento regular / regresión gradual. Pero, todavía emplea una búsqueda codiciosa heurística.

Todos estos enfoques (regresión por pasos, LASSO y búsqueda de correspondencia ortogonal) pueden considerarse aproximaciones del siguiente problema:

min_{w} ‖ y - X w ‖_{2}^{2} s.t. ‖ w ‖_{0} \leq c

$\underset{w}{\min} \| y - X w \|_2^2 \quad \text{s.t. } \|w\|_0 \le c$

En un contexto de regresión, las columnas de corresponden a las variables independientes e a la variable dependiente. En el procesamiento de señales, las columnas de corresponden a funciones básicas e es una señal para aproximarse. El objetivo es encontrar un conjunto escaso de pesos que den la mejor aproximación (mínimos cuadrados) de . La norma simplemente cuenta el número de entradas distintas de cero en . Desafortunadamente, este problema es NP-hard, por lo que los algoritmos de aproximación deben usarse en la práctica. La regresión gradual y la búsqueda de correspondencia ortogonal intentan resolver el problema utilizando una estrategia de búsqueda codiciosa. LASSO reformula el problema utilizando una relajación del $X$ $y$ $X$ $y$ $w$ $y$ $l_0$ $w$ $l_0$ a la norma . Aquí, el problema de optimización se vuelve convexo (y por lo tanto manejable). Y, aunque el problema ya no es idéntico, la solución es similar. Si recuerdo correctamente, se ha demostrado que tanto LASSO como la búsqueda de correspondencia ortogonal recuperan la solución exacta bajo ciertas condiciones. $l_1$

— usuario20160
fuente

8

La selección por pasos generalmente no es una buena idea. Para entender por qué, puede ayudarlo leer mi respuesta aquí: Algoritmos para la selección automática de modelos .

En lo que respecta a las ventajas, en los días en que la búsqueda a través de todas las combinaciones posibles de características era demasiado computacionalmente intensa para que las computadoras la manejaran, la selección gradual ahorró tiempo y fue manejable. Sin embargo, tenga en cuenta que los problemas discutidos en mi respuesta vinculada anteriormente se aplican tanto a la regresión del 'mejor subconjunto', por lo que paso a paso no produce una buena solución, solo una mala solución más rápido.

Su idea de un enfoque híbrido estaría bien, siempre que el segundo modelo (con las características seleccionadas) se ajustara a un nuevo conjunto de datos .

— gung - Restablece a Monica
fuente

Con respecto a lo que el OP llamó un "enfoque híbrido" (no estoy seguro de por qué es híbrido), quiere decir que está bien en el sentido de que las estimaciones de los coeficientes del modelo en el segundo nuevo conjunto de datos deberían estar bien (aunque sesgadas y problemáticas en el datos originales), siempre que el nuevo conjunto de datos sea lo suficientemente grande? Por supuesto, podría ser un modelo pobre, porque se seleccionó de manera incorrecta en el primer conjunto de datos, simplemente sus coeficientes se estimarían en un conjunto de datos menos problemático.

— Björn

Además, a menudo sigue siendo imposible analizar todas las combinaciones posibles, porque la cantidad de variables diferentes de las que tenemos datos crece aún más rápido que la potencia informática, y las personas tienen cada vez más ideas sobre qué incluir en sus modelos.

— Stephan Kolassa

Leer ese hilo continúa sin ser útil.

— Mox

2

Acabo de realizar una búsqueda en Google de lo que es la regresión por pasos. No estoy seguro si lo entiendo completamente, pero aquí está mi primer pensamiento

Es codicioso, por lo que no puede producir la buena solución como lo hace Lasso. Prefiero lazo
Es simple, fácil de usar, fácil de codificar.
Después de usar la regresión por pasos, ya termina con un modelo entrenado que usa características seleccionadas, por lo que no necesita usar otro paso de regresión como mencionó como enfoque híbrido

— Enojado imbécil
fuente