Cuando se utiliza la validación cruzada para hacer la selección del modelo (como, por ejemplo, el ajuste de hiperparámetros) y para evaluar el rendimiento del mejor modelo, se debe usar la validación cruzada anidada . El ciclo externo es evaluar el rendimiento del modelo, y el ciclo interno es seleccionar el mejor modelo; el modelo se selecciona en cada conjunto de entrenamiento externo (utilizando el ciclo CV interno) y su rendimiento se mide en el conjunto de prueba externo correspondiente.
Esto ha sido discutido y explicado en muchos hilos (como por ejemplo aquí entrenamiento con el conjunto de datos completo después de la validación cruzada? , Ver la respuesta por @DikranMarsupial) y está del todo claro para mí. Hacer solo una validación cruzada simple (no anidada) tanto para la selección del modelo como para la estimación del rendimiento puede generar una estimación del rendimiento sesgada positivamente. @DikranMarsupial tiene un documento de 2010 sobre exactamente este tema ( Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento ) con la sección 4.3 llamada ¿El ajuste excesivo en la selección del modelo es realmente una preocupación genuina en la práctica? - y el documento muestra que la respuesta es sí.
Dicho todo esto, ahora estoy trabajando con la regresión de crestas múltiples multivariadas y no veo ninguna diferencia entre CV simple y anidado, por lo que el CV anidado en este caso particular parece una carga computacional innecesaria. Mi pregunta es: ¿en qué condiciones el CV simple generará un sesgo notable que se evitará con el CV anidado? ¿Cuándo importa el CV anidado en la práctica y cuándo no importa tanto? ¿Hay alguna regla general?
Aquí hay una ilustración que usa mi conjunto de datos real. El eje horizontal es para la regresión de cresta. El eje vertical es un error de validación cruzada. La línea azul corresponde a la validación cruzada simple (no anidada), con 50 divisiones aleatorias de entrenamiento / prueba de 90:10. La línea roja corresponde a la validación cruzada anidada con 50 divisiones de entrenamiento / prueba al azar 90:10, donde λ se elige con un bucle de validación cruzada interno (también 50 divisiones al azar 90:10). Las líneas son medias de más de 50 divisiones aleatorias, los sombreados muestran ± 1 desviación estándar.
Actualizar
En realidad es el caso :-) Es solo que la diferencia es pequeña. Aquí está el acercamiento:
(Ejecuté todo el procedimiento un par de veces, y sucede cada vez).
Mi pregunta es, ¿en qué condiciones podemos esperar que este sesgo sea minúsculo y en qué condiciones no deberíamos?