Mientras aprendía sobre el Gradient Boosting, no escuché ninguna restricción con respecto a las propiedades de un "clasificador débil" que el método usa para construir y ensamblar modelos. Sin embargo, no podía imaginar una aplicación de un GB que utilizara la regresión lineal y, de hecho, cuando realicé algunas pruebas, no funciona. Estaba probando el enfoque más estándar con un gradiente de suma de residuos al cuadrado y sumando los modelos posteriores.
El problema obvio es que los residuos del primer modelo se rellenan de tal manera que ya no hay una línea de regresión que se ajuste. Mi otra observación es que una suma de modelos de regresión lineal posteriores también se puede representar como un modelo de regresión único (agregando todas las intersecciones y los coeficientes correspondientes), por lo que no puedo imaginar cómo eso podría mejorar el modelo. La última observación es que una regresión lineal (el enfoque más típico) está usando la suma de los residuos cuadrados como una función de pérdida, la misma que usa GB.
También pensé en reducir la tasa de aprendizaje o usar solo un subconjunto de predictores para cada iteración, pero eso podría resumirse en un solo modelo de representación eventualmente, por lo que supongo que no traería ninguna mejora.
¿Que me estoy perdiendo aqui? ¿Es la regresión lineal de alguna manera inapropiada para usar con el Gradient Boosting? ¿Es porque la regresión lineal usa la suma de los residuos al cuadrado como una función de pérdida? ¿Hay alguna restricción particular en los predictores débiles para que puedan aplicarse al refuerzo de degradado?