Hay dos fuentes de la varianza OOB. Uno es la aleatoriedad del procedimiento en sí; Esto puede reducirse aumentando el número de árboles.
La otra fuente de variación es la imperfección irreducible de tener datos limitados y vivir en un mundo complejo. Aumentar el número de árboles no puede solucionar esto.
Además, a veces simplemente no hay suficientes datos para resolver el problema. Por ejemplo, imagine que dos instancias tienen etiquetas opuestas pero valores de características idénticos. Una de estas muestras siempre estará mal clasificada. (Este es un ejemplo extremo, pero ilustra cómo algunos problemas son irreparables. Podemos relajarlo un poco considerando una pequeña perturbación en un vector; ahora generalmente se clasificará igual que su gemelo, pero no siempre). Para resolver este problema , tendría que recopilar medidas adicionales para distinguir aún más los dos puntos.
p ( y= 1 | x )X¯X¯X¯∼ N( μ , σ2norte)μσ2X¯σ2= 0
La varianza irreducible no se puede solucionar con bootstrapping. Además, los bosques aleatorios ya están arrancados; es parte de la razón por la que tiene "aleatorio" en su nombre. (La otra razón es que se selecciona un subconjunto aleatorio de características en cada división).