Supongamos que he entrenado varios modelos en el conjunto de entrenamiento, elija el mejor usando el conjunto de validación cruzada y el rendimiento medido en el conjunto de prueba. Así que ahora tengo un mejor modelo final. ¿Debo volver a entrenarlo con todos mis datos disponibles o enviar una solución entrenada solo en el conjunto de entrenamiento? Si es esto último, ¿por qué?
ACTUALIZACIÓN: Como señaló @ P.Windridge, enviar un modelo reentrenado básicamente significa enviar un modelo sin validación. Pero podemos informar el rendimiento del conjunto de pruebas y, después de eso, volver a entrenar el modelo con datos completos y esperar que el rendimiento sea mejor, porque utilizamos nuestro mejor modelo y más datos. ¿Qué problemas pueden surgir de tal metodología?