¿Cómo puede una tasa de aprendizaje menor dañar el rendimiento de un gbm?

9

Siempre me he suscrito a la sabiduría popular de que la disminución de la tasa de aprendizaje en un gbm (modelo de árbol impulsado por gradiente) no perjudica el rendimiento de la muestra fuera del modelo. Hoy no estoy tan seguro.

Estoy ajustando modelos (minimizando la suma de los errores al cuadrado) al conjunto de datos de viviendas de Boston . Aquí hay una gráfica de error por número de árboles en un conjunto de datos de prueba de 20%

Es difícil ver qué sucede al final, así que aquí hay una versión ampliada en los extremos

Parece que en este ejemplo, la tasa de aprendizaje de es la mejor, y las tasas de aprendizaje más pequeñas tienen un rendimiento peor en los datos retenidos. $0.01$

¿Cómo se explica esto mejor?

¿Es esto un artefacto del pequeño tamaño del conjunto de datos de Boston? Estoy mucho más familiarizado con situaciones en las que tengo cientos de miles o millones de puntos de datos.

¿Debo comenzar a ajustar la tasa de aprendizaje con una búsqueda de cuadrícula (o algún otro meta-algoritmo)?

machine-learning boosting out-of-sample

— Matthew Drury
fuente

5

Sí, tiene razón, una tasa de aprendizaje más baja debería encontrar un mejor óptimo que una tasa de aprendizaje más alta. Pero debe ajustar los hiperparámetros utilizando la búsqueda de cuadrícula para encontrar la mejor combinación de velocidad de aprendizaje junto con los otros hiperparámetros.

El algoritmo GBM utiliza múltiples hiperparámetros además de la tasa de aprendizaje (contracción), estos son:

Numero de arboles
Profundidad de interacción
Observación mínima en un nodo
Fracción de bolsa (fracción de observaciones seleccionadas al azar)

La búsqueda de la cuadrícula necesita verificar todo esto para determinar el conjunto de parámetros más óptimo.

Por ejemplo, en algunos conjuntos de datos que he sintonizado con GBM, he observado que la precisión varía ampliamente a medida que cambia cada hiperparámetro. No ejecuté GBM en su conjunto de datos de muestra, pero me referiré a un ejercicio de ajuste similar para otro conjunto de datos. Consulte este gráfico sobre un problema de clasificación con clases altamente desequilibradas.

Aunque la precisión es más alta para una tasa de aprendizaje más baja, por ejemplo, para máx. profundidad de árbol de 16, la métrica de Kappa es 0.425 a una tasa de aprendizaje 0.2 que es mejor que 0.415 a una tasa de aprendizaje de 0.35.

Pero cuando observas la tasa de aprendizaje en 0.25 vs. 0.26 hay un aumento agudo pero pequeño en Kappa para una profundidad máxima de árbol de 14, 15 y 16; mientras que continúa disminuyendo para la profundidad de los árboles 12 y 13.

Por lo tanto, le sugiero que intente la búsqueda de cuadrícula.

Además, como mencionó, esta situación también podría verse agravada por un tamaño de muestra más pequeño del conjunto de datos.

— Sandeep S. Sandhu
fuente

0

Sandeep S. Sandhu ha proporcionado una gran respuesta. En cuanto a su caso, creo que su modelo aún no ha convergido para esas pequeñas tasas de aprendizaje. En mi experiencia, cuando se usa una tasa de aprendizaje tan pequeña como 0.001 en el árbol de impulso de gradiente, se necesitan alrededor de 100,000 etapas de impulso (o árboles) para alcanzar el mínimo. Por lo tanto, si aumenta las rondas de impulso a diez veces más, debería poder ver que la tasa de aprendizaje más pequeña funciona mejor que la grande.

— Louis Yang
fuente