Hablando en términos generales, algunas de las posibles sobreajustes que podrían ocurrir en un solo árbol (que es una razón por la que generalmente se poda) se mitigan por dos cosas en un Bosque aleatorio:
- El hecho de que las muestras utilizadas para entrenar a los árboles individuales son "bootstrapped".
- El hecho de que tiene una multitud de árboles aleatorios que usan características aleatorias y, por lo tanto, los árboles individuales son fuertes pero no están tan correlacionados entre sí.
Editar: según el comentario de OP a continuación:
Definitivamente todavía hay potencial para un ajuste excesivo. En cuanto a los artículos, puede leer sobre la motivación para "embolsar" por Breiman y "bootstrapping" en general por Efron y Tibshirani. En cuanto a 2., Brieman obtuvo un límite suelto en el error de generalización que está relacionado con la fuerza del árbol y la anti-correlación de los clasificadores individuales. Nadie usa el límite (lo más probable), pero tiene la intención de dar una intuición sobre lo que ayuda a un bajo error de generalización en los métodos de conjunto. Esto se encuentra en el documento de Random Forests. Mi publicación fue empujarlo en la dirección correcta según estas lecturas y mi experiencia / deducciones.
- Breiman, L., Predictores de ensacado, Machine Learning, 24 (2), pp.123-140, 1996.
- Efron, B .; Tibshirani, R. (1993). Una introducción a Bootstrap. Boca Raton, FL
- Breiman, Leo (2001). "Bosques al azar". Machine Learning 45 (1): 5–32.