El conjunto de prueba y el conjunto de validación cruzada tienen diferentes propósitos. Si deja caer cualquiera de ellos, pierde sus beneficios:
El conjunto de validación cruzada se utiliza para ayudar a detectar el sobreajuste y para ayudar en la búsqueda de hiperparámetros.
El conjunto de prueba se utiliza para medir el rendimiento del modelo.
No se puede utilizar el conjunto de validación cruzada para medir el rendimiento de su modelo con precisión, ya que se deliberadamente ajustar sus resultados para obtener el mejor posible métrica, tal vez más de cientos de variaciones de sus parámetros. Por lo tanto, es probable que el resultado de la validación cruzada sea demasiado optimista.
Por la misma razón, no puede descartar el conjunto de validación cruzada y utilizar el conjunto de prueba para seleccionar hiperparámetros, porque entonces está prácticamente garantizado que estará sobreestimando lo bueno que es su modelo. En el mundo ideal, usa el equipo de prueba solo una vez, o lo usa de manera "neutral" para comparar diferentes experimentos.
Si realiza la validación cruzada, encuentre el mejor modelo, luego agregue los datos de prueba para entrenar, es posible (y en algunas situaciones tal vez bastante probable) que su modelo mejore. Sin embargo, no tiene forma de estar seguro de si eso realmente sucedió, e incluso si es así, no tiene una estimación imparcial de cuál es el nuevo rendimiento.
Al presenciar muchas competiciones de Kaggle, mi experiencia es que sintonizar el conjunto de pruebas al usarlo en exceso es algo real e impacta esas competencias en gran medida. A menudo hay un grupo de competidores que han escalado la tabla de clasificación pública y han seleccionado su mejor modelo en la prueba (la tabla de clasificación pública es efectivamente un conjunto de prueba), sin ser tan exhaustivos en su validación cruzada. . . estos competidores abandonan la tabla de clasificación cuando se introduce un nuevo conjunto de prueba al final.
Un enfoque que es razonable es reutilizar (entrenar + cv) los datos para volver a entrenar utilizando los hiperparámetros que haya encontrado, antes de realizar las pruebas. De esa manera, puede entrenar en más datos y aún así obtener una medida de rendimiento independiente al final.
Si desea obtener más de la validación cruzada, el enfoque habitual es la validación cruzada k-fold . Un truco común en las competiciones de Kaggle es utilizar la validación cruzada k-fold y, en lugar de volver a combinar los datos en un conjunto de entrenamiento más grande (entrenamiento + cv), para agrupar o apilar los resultados del cv en un metamodelo.
Finalmente, siempre verifique que sus divisiones para validación y prueba sean robustas frente a la posible correlación dentro de su conjunto de datos.