¿Es siempre una buena idea entrenar con el conjunto de datos completo después de la validación cruzada ? Dicho de otra manera, ¿está bien entrenar con todas las muestras en mi conjunto de datos y no poder verificar si este ajuste en particular se sobreajusta ?
Algunos antecedentes sobre el problema:
Digamos que tengo una familia de modelos parametrizados por . Digamos también que tengo un conjunto de puntos de datos y que selecciono el modelo con validación cruzada k-fold para elegir el modelo que mejor generaliza los datos. N
Para la selección del modelo, puedo hacer una búsqueda (por ejemplo, una búsqueda de cuadrícula) en , por ejemplo, ejecutando la validación cruzada k-fold para cada candidato. En cada uno de los pliegues en la validación cruzada, termino con el modelo aprendido . βα
El punto de validación cruzada es que para cada uno de estos pliegues puedo verificar si el modelo aprendido tenía un sobreajuste, probándolo en "datos no vistos". Dependiendo de los resultados, podría elegir el modelo aprendido para los parámetros que se generalizaron mejor durante la validación cruzada en la búsqueda de cuadrícula.→ α mejor
Ahora, digamos que después de la selección del modelo , me gustaría usar todos los puntos en mi conjunto de datos y espero aprender un mejor modelo. Para esto podría usar los parámetros correspondientes al modelo que elegí durante la selección del modelo, y luego, después de entrenarme en el conjunto de datos completo, obtendría un nuevo modelo aprendido . El problema es que, si uso todos los puntos en mi conjunto de datos de entrenamiento, no puedo comprobar si este nuevo modelo aprendido overfits sobre cualquier dato que no se ven. ¿Cuál es la forma correcta de pensar en este problema?→ α b e s t β f u l l β f u l l