Si consideramos un árbol de decisión completamente desarrollado (es decir, un árbol de decisión no podado) tiene una alta varianza y un bajo sesgo.
El ensacado y los bosques aleatorios usan estos modelos de alta varianza y los agregan para reducir la varianza y así mejorar la precisión de la predicción. Tanto los Bosques como los Bosques aleatorios usan el muestreo Bootstrap, y como se describe en "Elementos de aprendizaje estadístico", esto aumenta el sesgo en el árbol único.
Además, como el método del Bosque aleatorio limita las variables permitidas para dividirse en cada nodo, el sesgo para un solo árbol forestal aleatorio aumenta aún más.
Por lo tanto, la precisión de la predicción solo se incrementa si el aumento en el sesgo de los árboles individuales en Bagging y Random Forests no está "exagerando" la reducción de la varianza.
Esto me lleva a las dos preguntas siguientes: 1) Sé que con el muestreo bootstrap, (casi siempre) tendremos algunas de las mismas observaciones en la muestra bootstrap. Pero, ¿por qué esto conduce a un aumento en el sesgo de los árboles individuales en Bagging / Random Forests? 2) Además, ¿por qué el límite de las variables disponibles para dividir en cada división conduce a un mayor sesgo en los árboles individuales en los bosques aleatorios?