En el aprendizaje profundo de François Chollet con Python dice:
Como resultado, ajustar la configuración del modelo en función de su rendimiento en el conjunto de validación puede resultar rápidamente en un ajuste excesivo para el conjunto de validación, aunque su modelo nunca esté directamente capacitado sobre él.
Central a este fenómeno es la noción de fugas de información. Cada vez que ajusta un hiperparámetro de su modelo en función del rendimiento del modelo en el conjunto de validación, alguna información sobre los datos de validación se filtra en el modelo . Si hace esto solo una vez, para un parámetro, se filtrarán muy pocos bits de información y su conjunto de validación seguirá siendo confiable para evaluar el modelo. Pero si repite esto muchas veces (ejecutando un experimento, evaluando el conjunto de validación y modificando su modelo como resultado), filtrará una cantidad cada vez más importante de información sobre el conjunto de validación en el modelo.
¿Por qué se filtra información sobre los datos de validación si evalúo el rendimiento del modelo en los datos de validación al ajustar los hiperparámetros?