En Random Forest, cada árbol se cultiva en paralelo en una muestra boostrap única de los datos. Debido a que se espera que cada muestra de boostrap contenga aproximadamente el 63% de las observaciones únicas, esto deja aproximadamente el 37% de las observaciones, que se pueden usar para probar el árbol.
Ahora, parece que en Stochastic Gradient Boosting, también hay una similar a la de RF:
Si bag.fraction está configurado para ser mayor que 0 (se recomienda 0.5), gbm calcula una estimación fuera de bolsa de la mejora en el rendimiento predictivo. Evalúa la reducción de la desviación en aquellas observaciones que no se utilizan para seleccionar el siguiente árbol de regresión.
Fuente: Ridgeway (2007) , sección 3.3 (página 8).
Tengo problemas para entender cómo funciona / es válido. Digamos que estoy agregando un árbol en la secuencia. Estoy haciendo crecer este árbol en una submuestra aleatoria del conjunto de datos original. Podría probar este único árbol en las observaciones que no se utilizaron para cultivarlo. Convenido. PERO , dado que Boosting es secuencial, estoy usando la secuencia completa de árboles construidos hasta ahora para proporcionar una predicción para esas observaciones omitidas. Y, existe una alta probabilidad de que muchos de los árboles anteriores ya hayan visto estas observaciones. Entonces, el modelo no se está probando realmente en cada ronda en observaciones invisibles como con RF, ¿verdad?
Entonces, ¿cómo es que esto se llama estimación de error "fuera de bolsa"? Para mí, ¿no parece estar "fuera" de ninguna bolsa ya que las observaciones ya se han visto?