Creo que todavía te falta algo en tu comprensión del propósito de la validación cruzada.
Aclaremos cierta terminología, generalmente cuando decimos 'un modelo' nos referimos a un método particular para describir cómo algunos datos de entrada se relacionan con lo que estamos tratando de predecir. Generalmente no nos referimos a instancias particulares de ese método como modelos diferentes. Entonces podría decir 'Tengo un modelo de regresión lineal' pero no llamaría a dos conjuntos diferentes de coeficientes entrenados diferentes modelos. Al menos no en el contexto de la selección del modelo.
Entonces, cuando realiza la validación cruzada K-fold, está probando qué tan bien su modelo puede ser entrenado por algunos datos y luego predice datos que no ha visto. Usamos la validación cruzada para esto porque si entrenas usando todos los datos que tienes, no tienes ninguno para probar. Podría hacerlo una vez, por ejemplo, utilizando el 80% de los datos para entrenar y el 20% para probar, pero ¿qué pasa si el 20% que eligió para probar contiene un montón de puntos que son particularmente fáciles (o particularmente difíciles)? para predecir? No habremos logrado la mejor estimación posible de la capacidad de los modelos para aprender y predecir.
Queremos usar todos los datos. Entonces, para continuar con el ejemplo anterior de una división 80/20, haríamos una validación cruzada de 5 veces entrenando el modelo 5 veces en el 80% de los datos y probando en un 20%. Nos aseguramos de que cada punto de datos termine en el conjunto de prueba del 20% exactamente una vez. Por lo tanto, hemos utilizado todos los puntos de datos que tenemos para contribuir a una comprensión de qué tan bien nuestro modelo realiza la tarea de aprender de algunos datos y predecir algunos datos nuevos.
Pero el propósito de la validación cruzada no es llegar a nuestro modelo final. No usamos estas 5 instancias de nuestro modelo entrenado para hacer una predicción real. Para eso queremos utilizar todos los datos que tenemos para llegar al mejor modelo posible. El propósito de la validación cruzada es la verificación del modelo, no la construcción del modelo.
Ahora, digamos que tenemos dos modelos, digamos un modelo de regresión lineal y una red neuronal. ¿Cómo podemos decir qué modelo es mejor? Podemos hacer una validación cruzada K-fold y ver cuál prueba mejor para predecir los puntos de ajuste de prueba. Pero una vez que hemos utilizado la validación cruzada para seleccionar el modelo con mejor rendimiento, entrenamos ese modelo (ya sea la regresión lineal o la red neuronal) en todos los datos. No utilizamos las instancias del modelo real que capacitamos durante la validación cruzada para nuestro modelo predictivo final.
Tenga en cuenta que existe una técnica llamada agregación bootstrap (generalmente abreviada a 'embolsado') que de alguna manera usa instancias de modelos producidas de manera similar a la validación cruzada para construir un modelo de conjunto, pero esa es una técnica avanzada más allá del alcance de tu pregunta aquí.