Si ya he encontrado la función de costo mínimo en el subconjunto de validación, ¿por qué necesitaría probarlo nuevamente en el subconjunto de prueba?
Debido a un error aleatorio: por lo general, solo tiene un número finito de casos.
La optimización del rendimiento de la validación (prueba interna) significa que puede estar sobreajustando a ese conjunto de prueba interna. El conjunto de prueba interno contribuye a la estimación del modelo final y, por lo tanto, no es independiente del modelo.
Esto significa que debe tener otro conjunto de pruebas (externo) que sea independiente de todo el procedimiento de modelado (incluidos todos los procesos de optimización y preprocesamiento basado en datos o selección de modelos) si desea estimar las propiedades de generalización.
Le recomiendo que haga una simulación y compare las tres estimaciones de error diferentes que puede tener
- restitución: la predicción del conjunto de trenes
mide la bondad de ajuste
- conjunto de pruebas internas (en su nomenclatura: validación): la calidad que el optimizador cree que se logra
- conjunto de prueba externo: error de generalización, independiente del modelo de entrenamiento.
En una simulación, también puede compararlos fácilmente con un conjunto de pruebas adecuado, grande y generado independientemente. Si la configuración es correcta, la prueba externa debe ser imparcial (wrt el modelo sustituto que evalúa, no wrt un modelo "final" construido en todo el conjunto de datos). La prueba interna generalmente está sesgada de manera optimista, y la restitución está aún más sesgada de manera optimista.
En mi campo, la prueba interna subestimaría fácilmente el error de generalización por un factor de 2 a 5 (mucho más para esquemas de optimización agresivos).
Nota: la nomenclatura de los conjuntos no es universal. En mi campo (química analítica), la validación generalmente significaría la prueba del desempeño del procedimiento final, por lo tanto, más lo que hace su conjunto de "prueba" que lo que hace su conjunto de "validación".
Por lo tanto, prefiero hablar de los conjuntos de prueba internos y externos, o del conjunto de prueba de optimización (= conjunto de prueba interno) y luego el conjunto de validación significaría el conjunto de prueba externo.