Para un ajuste excesivo en la selección del modelo, entonces un artículo que vale la pena leer es
C. Ambroise y GJ McLachlan, "Sesgo de selección en la extracción de genes sobre la base de datos de expresión de genes de microarrays", PNAS, vol. 99 no. 10 6562-6566, mayo de 2002. http://dx.doi.org/10.1073/pnas.102102699
Para una discusión sobre el mismo tipo de problema que surge en la selección del modelo, vea
GC Cawley, NLC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", Journal of Machine Learning Research, 11 (julio): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html
La forma de resolver el problema de que el conjunto de validación se contamine es utilizar la validación cruzada anidada, por lo que el método utilizado para tomar decisiones sobre el modelo se realiza de forma independiente en cada pliegue de la validación cruzada utilizada para la estimación del rendimiento. Esencialmente, la estimación del rendimiento debe estimar el rendimiento de todo el procedimiento de ajuste del modelo (ajuste del modelo, selección de características, selección de modelos, todo).
El otro enfoque es ser bayesiano. El riesgo de sobreajuste se introduce cada vez que optimiza un criterio basado en una muestra finita de datos, por lo que si marginaliza (integra) en lugar de optimizar, entonces el sobreajuste clásico es imposible. Sin embargo, tiene el problema de especificar los antecedentes.