No esta garantizado. Como dices, el conjunto podría ser peor que los modelos individuales. Por ejemplo, tomar el promedio del modelo verdadero y un modelo malo daría un modelo bastante malo.
El promedio de modelos solo será una mejora si los modelos son (algo) independientes entre sí. Por ejemplo, en el ensacado, cada modelo se construye a partir de un subconjunto aleatorio de los datos, por lo que se incorpora cierta independencia. O los modelos se pueden construir usando diferentes combinaciones de características, y luego se combinan mediante el promedio.k
Además, el promedio de modelos solo funciona bien cuando los modelos individuales tienen una alta varianza. Es por eso que se construye un bosque aleatorio usando árboles muy grandes. Por otro lado, promediar un montón de modelos de regresión lineal todavía te da un modelo lineal, que probablemente no sea mejor que los modelos con los que comenzaste (¡pruébalo!)
Otros métodos de conjunto, como el refuerzo y la combinación, funcionan tomando los resultados de los modelos individuales, junto con los datos de entrenamiento, como entradas para un modelo más grande. En este caso, no es sorprendente que a menudo funcionen mejor que los modelos individuales, ya que de hecho son más complicados y aún usan los datos de entrenamiento.