Como usted dice, se ha discutido mucho sobre este asunto, y hay una teoría bastante pesada que lo ha acompañado que debo admitir que nunca entendí completamente. En mi experiencia práctica, AdaBoost es bastante robusto para sobreajustar, y LPBoost (Linear Programming Boosting) aún más (porque la función objetivo requiere una combinación escasa de estudiantes débiles, que es una forma de control de capacidad). Los principales factores que influyen en él son:
La "fuerza" de los estudiantes "débiles": si utiliza estudiantes débiles muy simples, como los tocones de decisión (árboles de decisión de 1 nivel), entonces los algoritmos son mucho menos propensos al sobreajuste. Cada vez que he intentado usar alumnos débiles más complicados (como árboles de decisión o incluso hiperplanos), descubro que el sobreajuste ocurre mucho más rápidamente
El nivel de ruido en los datos: AdaBoost es particularmente propenso a sobreajustar en conjuntos de datos ruidosos. En esta configuración, son preferibles los formularios regularizados (RegBoost, AdaBoostReg, LPBoost, QPBoost)
La dimensionalidad de los datos: sabemos que, en general, experimentamos un sobreajuste más en espacios de alta dimensión ("la maldición de la dimensionalidad"), y AdaBoost también puede sufrir en ese sentido, ya que es simplemente una combinación lineal de clasificadores que ellos mismos sufren del problema Es difícil determinar si es tan propenso como otros clasificadores.
k
caret
paquete para validar de forma cruzada adaboost, y he descubierto que generalmente se generaliza bien.