Sé que realizar el ajuste de hiperparámetros fuera de la validación cruzada puede conducir a estimaciones sesgadas de validez externa, porque el conjunto de datos que usa para medir el rendimiento es el mismo que usó para ajustar las características.
Lo que me pregunto es qué tan grave es este problema . Puedo entender cómo sería realmente malo para la selección de funciones, ya que esto le brinda una gran cantidad de parámetros para ajustar. Pero, ¿qué sucede si está usando algo como LASSO (que tiene un solo parámetro, la intensidad de la regularización) o un bosque aleatorio sin selección de características (que puede tener algunos parámetros pero nada tan dramático como agregar / quitar características de ruido)?
En estos escenarios, ¿qué tan optimista podría esperar que sea su estimación del error de entrenamiento?
Agradecería cualquier información sobre esto: estudios de casos, documentos, anecdatos, etc. ¡Gracias!
EDIT: Para aclarar, estoy no hablar de estimar el rendimiento del modelo de datos de entrenamiento (es decir, no utilizando la validación cruzada en todos). Por "ajuste de hiperparámetro fuera de la validación cruzada" me refiero a usar la validación cruzada solo para estimar el rendimiento de cada modelo individual, pero sin incluir un segundo bucle de validación cruzada externo para corregir el sobreajuste dentro del procedimiento de ajuste de hiperparámetro (a diferencia de sobreajuste durante el procedimiento de entrenamiento). Ver, por ejemplo, la respuesta aquí .