El principal caso de uso para el embolsado es la reducción de la varianza de los modelos poco sesgados al agruparlos. Esto fue estudiado empíricamente en el documento histórico " Una comparación empírica de algoritmos de clasificación de votación: embolsado, aumento y variantes " por Bauer y Kohavi . Por lo general, funciona como se anuncia.
Sin embargo, contrario a la creencia popular, no se garantiza que el embolsado reduzca la variación . Una explicación más reciente y (en mi opinión) mejor es que el embolsado reduce la influencia de los puntos de apalancamiento. Los puntos de apalancamiento son aquellos que afectan desproporcionadamente el modelo resultante, como los valores atípicos en la regresión de mínimos cuadrados. Es raro pero posible que los puntos de apalancamiento influyan positivamente en los modelos resultantes, en cuyo caso el embolsado reduce el rendimiento. Echa un vistazo a "El embolsado iguala la influencia " de Grandvalet .
Entonces, para responder finalmente a su pregunta: el efecto del embolsado depende en gran medida de los puntos de apalancamiento. Existen pocas garantías teóricas, ¡excepto que el embolsado aumenta linealmente el tiempo de cálculo en términos de tamaño de la bolsa! Dicho esto, sigue siendo una técnica muy utilizada y muy poderosa. Cuando se aprende con ruido de etiquetas, por ejemplo, el ensacado puede producir clasificadores más robustos .
Rao y Tibshirani han dado una interpretación bayesiana en " El método fuera de lugar para promediar y seleccionar modelos " :
En este sentido, la distribución bootstrap representa una distribución posterior (aproximada) no paramétrica, no informativa para nuestro parámetro. Pero esta distribución de arranque se obtiene sin dolor, sin tener que especificar formalmente un previo y sin tener que tomar muestras de la distribución posterior. Por lo tanto, podríamos pensar en la distribución de bootstrap como "Bayes posterior" de un hombre pobre.