¿AdaBoost es menos o más propenso al sobreajuste?

20

He leído varias declaraciones (aparentemente) contradictorias sobre si AdaBoost (u otras técnicas de refuerzo) son menos o más propensas al sobreajuste en comparación con otros métodos de aprendizaje.

¿Hay buenas razones para creer lo uno o lo otro? Si depende, ¿de qué depende? ¿Cuáles son las razones por las que AdaBoost es menos / más propenso al sobreajuste?

machine-learning boosting

— blubb
fuente

1

Mi intuición es que es más propenso al sobreajuste que un bosque aleatorio. Sin embargo, el algoritmo está diseñado para evitar el sobreajuste, y generalmente no parece ser un problema. No tengo referencias para respaldar esto, pero puede usar el caretpaquete para validar de forma cruzada adaboost, y he descubierto que generalmente se generaliza bien.

— Zach

17

Como usted dice, se ha discutido mucho sobre este asunto, y hay una teoría bastante pesada que lo ha acompañado que debo admitir que nunca entendí completamente. En mi experiencia práctica, AdaBoost es bastante robusto para sobreajustar, y LPBoost (Linear Programming Boosting) aún más (porque la función objetivo requiere una combinación escasa de estudiantes débiles, que es una forma de control de capacidad). Los principales factores que influyen en él son:

La "fuerza" de los estudiantes "débiles": si utiliza estudiantes débiles muy simples, como los tocones de decisión (árboles de decisión de 1 nivel), entonces los algoritmos son mucho menos propensos al sobreajuste. Cada vez que he intentado usar alumnos débiles más complicados (como árboles de decisión o incluso hiperplanos), descubro que el sobreajuste ocurre mucho más rápidamente
El nivel de ruido en los datos: AdaBoost es particularmente propenso a sobreajustar en conjuntos de datos ruidosos. En esta configuración, son preferibles los formularios regularizados (RegBoost, AdaBoostReg, LPBoost, QPBoost)
La dimensionalidad de los datos: sabemos que, en general, experimentamos un sobreajuste más en espacios de alta dimensión ("la maldición de la dimensionalidad"), y AdaBoost también puede sufrir en ese sentido, ya que es simplemente una combinación lineal de clasificadores que ellos mismos sufren del problema Es difícil determinar si es tan propenso como otros clasificadores.

$k$

— tdc
fuente

9

Estoy de acuerdo con la mayoría de los puntos mencionados en el comentario tdc. Sin embargo, tengo que agregar y corregir algunas cosas.

Como se muestra en L2Boost por Peter Bühlmann, a medida que aumenta el número de alumnos débiles (rondas de refuerzo), el sesgo converge exponencialmente rápido, mientras que la varianza aumenta en magnitudes geométricamente decrecientes, lo que significa: se adapta mucho más lentamente que la mayoría de los otros métodos.
Se mencionó erróneamente en el comentario de Zach que es mejor que el bosque aleatorio en términos de sobreajuste. Está completamente mal. De hecho, según la teoría (mire el documento original sobre el bosque aleatorio de Breiman), Random Forest es absolutamente inmune contra el sobreajuste siempre que sus clasificadores débiles no sobreajusten a los datos.
A diferencia de lo mencionado en el comentario de tdc, la mayoría de los métodos de refuerzo son muy sensibles al ruido de etiquetado y pueden ajustarse fácilmente en presencia de ruido de etiquetado.
En los conjuntos de datos donde las tasas de error de Bayes están lejos de 0 (es decir, las características no son lo suficientemente discriminatorias), los métodos de refuerzo también pueden adaptarse fácilmente. Porque intentan reducir el error de entrenamiento a cero mientras que en realidad incluso el clasificador óptimo, es decir, el clasificador Bayes puede alcanzar una tasa de error del 40%.
finalmente, y esto no se ha publicado en ningún lugar (que yo sepa) hay un tipo de sobreajuste en el que el error de generalización no aumenta a medida que aumentan las rondas de refuerzo, pero tampoco disminuye. Significa que el algoritmo se ha atascado en un óptimo local. En esta situación, el error de entrenamiento disminuye constantemente mientras que el error de prueba permanece casi constante. Hasta ahora, nunca consideramos este fenómeno como una indicación de sobreajuste, pero creo que es una señal de sobreajuste y, al usar estudiantes débiles más complejos, (¡extraño!) De hecho, podemos ir en contra de él (este último punto debe considerarse con precaución :RE)

— TNM
fuente

1

Vale la pena agregar a esta respuesta que podría haber experimentado el último tipo de sobreajuste hoy, tanto con AdaBoost como con Random Forest. En la validación cruzada, el error fuera del pliegue convergió a una constante con solo 20 estimadores básicos, y luego rebotó alrededor de esa constante con una alta varianza. Mi sospecha era exactamente la misma: los codiciosos algoritmos se atascaron en algún tipo de óptimo local. Esto no es una confirmación de lo que sucedió, pero es bueno saber que alguien más tuvo el mismo pensamiento.

— shadowtalker

@ssdecontrol ¿Puedes compartir lo que hiciste? Quiero reproducir los resultados para tener una mejor comprensión

— saurabh agarwal

@saurabhagarwal Creo que estaba trabajando en el proyecto Kaggle Titanic

— shadowtalker