El argumento que parece estar haciendo el periódico me parece extraño.
Según el documento, el objetivo de la solicitud es estimar , la predicción de rendimiento esperado del modelo en nuevos datos, dado que el modelo fue entrenado en el conjunto de datos observados S . Cuando llevamos a cabo k CV -fold, se obtiene una estimación A de este número. Debido a la partición aleatoria de S en k pliegues, esto es una variable aleatoria A ~ f ( A ) con media μ k y varianza σ 2 k . En contraste, el CV repetido n veces produce una estimación con la misma mediaα2SkA^SkA^∼f(A)μkσ2kn pero menor varianza σ 2 k / n .μkσ2k/n
Obviamente, . Este sesgo es algo que tenemos que aceptar.α2≠μk
Sin embargo, el error esperado será mayor para los pequeños n , y será la más grande para n = 1 , al menos bajo suposiciones razonables sobre f ( A ) , por ejemplo cuando A ˙ ~ N ( μ k , σ 2 k / n ) . En otras palabras, el CV repetido permite obtener una estimación más precisa de μ kE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μky es bueno porque da una estimación más precisa de .α2
Por lo tanto, el CV repetido es estrictamente más preciso que el CV no repetido.
¡Los autores no discuten con eso! En cambio, afirman, según las simulaciones, que
reducir la varianza [repitiendo CV] es, en muchos casos, poco útil y esencialmente un desperdicio de recursos computacionales.
Esto solo significa que en sus simulaciones fue bastante bajo; y, de hecho, el tamaño de muestra más bajo que usaron fue 200 , que probablemente sea lo suficientemente grande como para producir pequeños σ 2 k . (La diferencia en las estimaciones obtenidas con CV no repetido y CV repetido 30 veces es siempre pequeña.) Con tamaños de muestra más pequeños, uno puede esperar una mayor varianza entre repeticiones.σ2k200σ2k
CUEVA: ¡Intervalos de confianza!
Otro punto que los autores están haciendo es que
el informe de intervalos de confianza [en validación cruzada repetida] es engañoso.
Parece que se refieren a intervalos de confianza para la media en las repeticiones CV. ¡Estoy totalmente de acuerdo en que esto no tiene sentido informar! ¡Cuantas más veces se repita el CV, más pequeño será este IC, pero a nadie le interesa el IC en torno a nuestra estimación de ! Nos preocupamos por el IC en torno a nuestra estimación de α 2 .μkα2
Los autores también informan sobre los IC para el CV no repetido, y no estoy del todo claro para mí cómo se construyeron estos IC. Supongo que estos son los IC para las medias en los pliegues. ¡Yo diría que estos IC tampoco tienen mucho sentido!k
Eche un vistazo a uno de sus ejemplos: la precisión del adult
conjunto de datos con el algoritmo NB y el tamaño de 200 muestras. Obtienen 78.0% con CV no repetido, IC (72.26, 83.74), 79.0% (77.21, 80.79) con CV repetido 10 veces y 79.1% (78.07, 80.13) con CV repetido 30 veces. Todos estos IC son inútiles, incluido el primero. La mejor estimación de es 79.1%. Esto corresponde a 158 éxitos de 200. Esto produce un intervalo de confianza binomial del 95% de (72.8, 84.5), incluso más amplio que el primero reportado. Si quisiera informar un poco de CI, este es el que informaría.μk
MÁS AVISO GENERAL: varianza de CV.
Escribiste ese CV repetido
se ha convertido en una técnica popular para reducir la varianza de la validación cruzada.
Uno debe tener muy claro lo que quiere decir con la "varianza" de CV. El CV repetido reduce la varianza de la estimación de . Tenga en cuenta que en el caso de CV de dejar uno fuera (LOOCV), cuando k = N , esta varianza es igual a cero. Sin embargo, a menudo se dice que LOOCV tiene en realidad la mayor varianza de todos los CV de k- pliegues posibles . Ver, por ejemplo, aquí: Varianza y sesgo en la validación cruzada: ¿por qué el CV de dejar-fuera tiene una mayor varianza?μkk=Nk
¿Porqué es eso? Esto se debe a LOOCV tiene la mayor varianza como una estimación de , que es la predicción de rendimiento esperado del modelo en nuevos datos cuando se construyó en un nuevo conjunto de datos del mismo tamaño que S . Este es un tema completamente diferente.α1S