El parámetro de velocidad de aprendizaje ( ) en Gradient Boosting reduce la contribución de cada nuevo modelo base, típicamente un árbol poco profundo, que se agrega en la serie. Se demostró que aumenta drásticamente la precisión del conjunto de pruebas, lo cual es comprensible ya que con pasos más pequeños, el mínimo de la función de pérdida se puede lograr con mayor precisión.
No entiendo por qué la tasa de aprendizaje se considera un parámetro de regularización . Citando los elementos del aprendizaje estadístico , sección 10.12.1, p.364:
Controlar el número de árboles no es la única estrategia de regularización posible. Al igual que con la regresión de crestas y las redes neuronales, también se pueden emplear técnicas de contracción. Los valores más pequeños de resultado (más encogimiento) en mayor riesgo de formación para el mismo número de iteraciones M . Por lo tanto, ν y M controlan el riesgo de predicción en los datos de entrenamiento.
La regularización significa "forma de evitar el sobreajuste", por lo que está claro que el número de iteraciones es crucial a ese respecto (una M que es demasiado alta conduce a un sobreajuste). Pero:
Los valores más pequeños de resultado (más encogimiento) en mayor riesgo de formación para el mismo número de iteraciones M .
solo significa que con bajas tasas de aprendizaje, se necesitan más iteraciones para lograr la misma precisión en el conjunto de entrenamiento. Entonces, ¿cómo se relaciona eso con el sobreajuste?