Permítanme agregar algunos puntos a las buenas respuestas que ya están aquí:
Pliegue en K anidado versus pliegue en K repetido: el pliegue en K anidado y repetido son cosas totalmente diferentes, que se utilizan para diferentes propósitos.
- Como ya sabe , anidado es bueno si desea utilizar el cv interno para la selección del modelo.
- repetido: en mi humilde opinión, siempre debe repetir el k-fold cv [ver más abajo].
Por lo tanto, recomiendo repetir cualquier validación cruzada k-fold anidada .
Mejor informe "Las estadísticas de nuestro estimador, por ejemplo, su intervalo de confianza, varianza, media, etc. en la muestra completa (en este caso, la muestra CV)". :
Seguro. Sin embargo, debe ser consciente del hecho de que no podrá (fácilmente) estimar el intervalo de confianza solo por los resultados de la validación cruzada. La razón es que, por mucho que muestree, el número real de casos que ve es finito (y generalmente bastante pequeño, de lo contrario no se molestaría por estas distinciones).
Véase, por ejemplo , Bengio, Y. y Grandvalet, Y .: No Estimador imparcial de la varianza de la validación cruzada K-Fold Journal of Machine Learning Research, 2004, 5, 1089-1105 .
Sin embargo, en algunas situaciones, sin embargo, puede hacer estimaciones de la varianza: con la validación cruzada repetida de k-fold, puede hacerse una idea de si la inestabilidad del modelo juega un papel importante. Y esta variación relacionada con la inestabilidad es en realidad la parte de la variación que puede reducir mediante la validación cruzada repetida. (Si sus modelos son perfectamente estables, cada repetición / iteración de la validación cruzada tendrá exactamente las mismas predicciones para cada caso. Sin embargo, todavía tiene una variación debido a la elección / composición real de su conjunto de datos). Por lo tanto, hay un límite para la varianza más baja de la validación cruzada repetida de k veces. Hacer más y más repeticiones / iteraciones no tiene sentido, ya que la variación causada por el hecho de que al final solo se probaron casos reales no se ve afectada. norte
La varianza causada por el hecho de que al final solo se probaron casos reales puede estimarse para algunos casos especiales, por ejemplo, el rendimiento de los clasificadores medidos por proporciones como la tasa de aciertos, la tasa de error, la sensibilidad, la especificidad, los valores predictivos, etc. : siguen distribuciones binomiales Desafortunadamente, esto significa que tienen una gran varianza con el verdadero valor de rendimiento del modelo, lo observado, el tamaño de la muestra en el denominador de la fracción. Esto tiene el máximo paraσ 2 ( p ) = 1nortep p np=0,5σ2( p^) = 1nortep ( 1 - p )pagspags^nortep = 0.5. También puede calcular intervalos de confianza a partir de la observación. (@Frank Harrell comentará que estas no son reglas de puntuación adecuadas, por lo que no debe usarlas, lo que está relacionado con la gran variación). Sin embargo, en mi humilde opinión, son útiles para derivar límites conservadores (hay mejores reglas de puntuación, y el mal comportamiento de estas fracciones es el límite de peor caso para las mejores reglas),
ver , por ejemplo, C. Beleites, R. Salzer y V. Sergo: Validación de modelos de clasificación blanda utilizando membresías de clase parcial: un concepto extendido de sensibilidad y compañía aplicado a la clasificación de tejidos de astrocitoma, Chemom. Intell. Laboratorio. Syst., 122 (2013), 12-22.
Así que esto me permite cambiar su argumentación contra la resistencia :
- Tampoco el muestreo solo (necesariamente) le da una buena estimación de la varianza,
- OTOH, si puede razonar sobre la variación de tamaño de muestra de prueba finita de la estimación de validación cruzada, eso también es posible para esperar.
Nuestro estimador para esta medición individual habría sido entrenado en un conjunto (por ejemplo, el conjunto de CV) que es más pequeño que nuestra muestra inicial, ya que tenemos que dejar espacio para el conjunto de retención. Esto da como resultado una estimación más sesgada (pesimista) en P1.
No necesariamente (si se compara con k-fold), pero debe intercambiar: pequeño conjunto de retención (por ejemplo, de la muestra => sesgo bajo (≈ igual que k-fold cv), alta varianza (> k-fold cv, aproximadamente por un factor de k).1k
Me parece que informar sobre el conjunto de pruebas de retención es una mala práctica ya que el análisis de la muestra de CV es más informativo.
Por lo general, si. Sin embargo, también es bueno tener en cuenta que existen tipos importantes de errores (como la deriva) que no se pueden medir / detectar mediante la validación de remuestreo.
Ver, por ejemplo , Esbensen, KH y Geladi, P. Principios de validación adecuada: uso y abuso del muestreo para la validación, Journal of Chemometrics, 2010, 24, 168-187.
pero me parece que para el mismo número de modelos totales entrenados (número total de pliegues) el pliegue en K repetido produciría estimadores menos sesgados y más precisos que el pliegue en K anidado. Para ver esto:
El pliegue en K repetido utiliza una fracción mayor de nuestra muestra total que el pliegue en K anidado para la misma K (es decir, conduce a un sesgo más bajo)
Yo diría que no a esto: no importa cómo el modelo de entrenamiento use sus muestras de entrenamiento, siempre que los modelos sustitutos y el modelo "real" los usen en el mismo camino. (Miro la validación cruzada interna / estimación de hiperparámetros como parte de la configuración del modelo).
Las cosas se ven diferentes si compara los modelos sustitutos que están entrenados, incluida la optimización de hiperparámetros con "el" modelo que está entrenado en hiperparámetros fijos. Pero en mi humilde opinión, se está generalizando de manzanas a 1 naranja.kk - 1knorte
k
100 iteraciones solo darían 10 mediciones de nuestro estimador en K-fold anidado (K = 10), pero 100 mediciones en K-fold (más mediciones conducen a una menor varianza en P2)
Si esto hace una diferencia depende de la inestabilidad de los modelos (sustitutos), ver arriba. Para modelos estables es irrelevante. Puede ser si haces 1000 o 100 repeticiones / iteraciones externas.
Y este documento definitivamente pertenece a la lista de lectura sobre este tema:
Cawley, GC y Talbot, NLC sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento, Journal of Machine Learning Research, 2010, 11, 2079-2107