Creo que la respuesta actualmente aceptada es incompleta de una manera desafortunada. No estoy de acuerdo con la frase
El propósito de la validación cruzada es identificar parámetros de aprendizaje que se generalicen bien en las muestras de población de las que aprendemos en cada pliegue.
De hecho, esta es una aplicación muy importante de la validación cruzada, pero no la única. Por lo general, quieres hacer dos cosas:
- Construye el mejor modelo que puedas
- Obtenga una impresión precisa de lo bien que funciona
Ahora, para completar el objetivo 1 dependiendo de su algoritmo, es posible que necesite ajustar algunos hiperparámetros y esto a menudo se hace mediante validación cruzada. Pero esto aún no lo ayuda con el objetivo 2. Para esto, básicamente necesita anidar la validación cruzada, de esta manera:
- Separa los datos completos en n pliegues
- Para cada uno, pliegue separe los datos de entrenamiento nuevamente en sub pliegues
- Use la validación cruzada en los subpliegues para aprender buenos hiperparámetros
- Con estos hiperparámetros, construya un modelo sobre los datos de entrenamiento de ese pliegue
- Probar el modelo en los datos de prueba
- Repita en el siguiente pliegue
Para construir un buen modelo solo necesita la validación cruzada interna. Aún deberá hacerlo para obtener un buen modelo. Pero para obtener una buena estimación del rendimiento de su modelo, debe realizar todo el proceso de construcción del modelo dentro de un esquema de validación cruzada. Esto también incluye pasos como la imputación, etc.