¿Debería usarse la validación cruzada repetida para evaluar los modelos predictivos?

Me encontré con este artículo de 2012 de Gitte Vanwinckelen y Hendrik Blockeel cuestionando la utilidad de la validación cruzada repetida, que se ha convertido en una técnica popular para reducir la variación de la validación cruzada.

Los autores demostraron que, si bien la validación cruzada repetida disminuye la varianza de las predicciones del modelo, dado que el mismo conjunto de datos de muestra se está volviendo a muestrear, la media de las estimaciones de validación cruzada muestreadas converge a una estimación sesgada de la verdadera precisión predictiva y, por lo tanto, no es útil.

¿Debería usarse la validación cruzada repetida a pesar de estas limitaciones?

cross-validation

— RobertF
fuente

En mi experiencia, la validación cruzada (repetida o no) no ofrece una muy buena estimación de la precisión predictiva. Pero es muy útil para comparar el rendimiento predictivo de diferentes modelos. Es una buena forma de elegir entre modelos, pero no es una buena forma de estimar el rendimiento de un solo modelo.

— Flounderer

@Flounderer Ese es un buen punto. Mi interpretación del artículo es que no podemos hacer comparaciones significativas de modelos basados en validación cruzada repetida versus validación cruzada no repetida. Estás tratando de exprimir una cantidad irrazonable de información de los datos. ¿O eso es incorrecto?

— RobertF

El argumento que parece estar haciendo el periódico me parece extraño.

Según el documento, el objetivo de la solicitud es estimar , la predicción de rendimiento esperado del modelo en nuevos datos, dado que el modelo fue entrenado en el conjunto de datos observados . Cuando llevamos a cabo CV -fold, se obtiene una estimación de este número. Debido a la partición aleatoria de en pliegues, esto es una variable aleatoria con media y varianza . En contraste, el CV repetido veces produce una estimación con la misma media $\alpha_2$ $S$ $k$ $\hat A$ $S$ $k$ $\hat A \sim f(A)$ $\mu_k$ $\sigma^2_k$ $n$ pero menor varianza . $\mu_k$ $\sigma^2_k/n$

Obviamente, . Este sesgo es algo que tenemos que aceptar. $\alpha_2\ne \mu_k$

Sin embargo, el error esperado será mayor para los pequeños , y será la más grande para , al menos bajo suposiciones razonables sobre , por ejemplo cuando . En otras palabras, el CV repetido permite obtener una estimación más precisa de $\mathbb E\big[|\alpha_2-\hat A|^2\big]$ $n$ $n=1$ $f(A)$ $\hat A\mathrel{\dot\sim} \mathcal N(\mu_k,\sigma^2_k/n)$ $\mu_k$ y es bueno porque da una estimación más precisa de . $\alpha_2$

Por lo tanto, el CV repetido es estrictamente más preciso que el CV no repetido.

¡Los autores no discuten con eso! En cambio, afirman, según las simulaciones, que

reducir la varianza [repitiendo CV] es, en muchos casos, poco útil y esencialmente un desperdicio de recursos computacionales.

Esto solo significa que en sus simulaciones fue bastante bajo; y, de hecho, el tamaño de muestra más bajo que usaron fue , que probablemente sea lo suficientemente grande como para producir pequeños . (La diferencia en las estimaciones obtenidas con CV no repetido y CV repetido 30 veces es siempre pequeña.) Con tamaños de muestra más pequeños, uno puede esperar una mayor varianza entre repeticiones. $\sigma^2_k$ $200$ $\sigma^2_k$

CUEVA: ¡Intervalos de confianza!

Otro punto que los autores están haciendo es que

el informe de intervalos de confianza [en validación cruzada repetida] es engañoso.

Parece que se refieren a intervalos de confianza para la media en las repeticiones CV. ¡Estoy totalmente de acuerdo en que esto no tiene sentido informar! ¡Cuantas más veces se repita el CV, más pequeño será este IC, pero a nadie le interesa el IC en torno a nuestra estimación de ! Nos preocupamos por el IC en torno a nuestra estimación de . $\mu_k$ $\alpha_2$

Los autores también informan sobre los IC para el CV no repetido, y no estoy del todo claro para mí cómo se construyeron estos IC. Supongo que estos son los IC para las medias en los pliegues. ¡Yo diría que estos IC tampoco tienen mucho sentido! $k$

Eche un vistazo a uno de sus ejemplos: la precisión del adultconjunto de datos con el algoritmo NB y el tamaño de 200 muestras. Obtienen 78.0% con CV no repetido, IC (72.26, 83.74), 79.0% (77.21, 80.79) con CV repetido 10 veces y 79.1% (78.07, 80.13) con CV repetido 30 veces. Todos estos IC son inútiles, incluido el primero. La mejor estimación de es 79.1%. Esto corresponde a 158 éxitos de 200. Esto produce un intervalo de confianza binomial del 95% de (72.8, 84.5), incluso más amplio que el primero reportado. Si quisiera informar un poco de CI, este es el que informaría. $\mu_k$

MÁS AVISO GENERAL: varianza de CV.

Escribiste ese CV repetido

se ha convertido en una técnica popular para reducir la varianza de la validación cruzada.

Uno debe tener muy claro lo que quiere decir con la "varianza" de CV. El CV repetido reduce la varianza de la estimación de . Tenga en cuenta que en el caso de CV de dejar uno fuera (LOOCV), cuando , esta varianza es igual a cero. Sin embargo, a menudo se dice que LOOCV tiene en realidad la mayor varianza de todos los CV de pliegues posibles . Ver, por ejemplo, aquí: Varianza y sesgo en la validación cruzada: ¿por qué el CV de dejar-fuera tiene una mayor varianza? $\mu_k$ $k=N$ $k$

¿Porqué es eso? Esto se debe a LOOCV tiene la mayor varianza como una estimación de , que es la predicción de rendimiento esperado del modelo en nuevos datos cuando se construyó en un nuevo conjunto de datos del mismo tamaño que . Este es un tema completamente diferente. $\alpha_1$ $S$

— ameba dice Reinstate Monica
fuente

Espero que @cbeleites note este hilo y comente aquí o deje su propia respuesta: Sé que está (o estaba) usando mucho el CV repetido y creo que abogó por la variabilidad informática sobre las repeticiones como una medida de la estabilidad del modelo. Pero no creo que ella calcule un CI sobre repeticiones.

— ameba dice Reinstate Monica

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

@RobertF: Estaba hablando (siguiendo el documento de V&B) sobre la estimación del rendimiento del modelo. Mi tesis es que el CV repetido es más preciso que el CV no repetido, y creo que es dudoso (V&R argumenta que la diferencia en la precisión tiende a no ser tan importante en la práctica). Comparar dos modelos es mucho más complicado, porque supongamos que ejecuta CV y obtiene el 70% para un modelo y el 71% para otro modelo. ¿Es una diferencia "significativa"? Bueno, ese es un problema complicado sin una respuesta definitiva. Y es independiente del problema repetido / no repetido.

— ameba dice Reinstate Monica

Alimento para el pensamiento: applypredictivemodeling.com/blog/2014/11/27/…

— shadowtalker

Buen trabajo. Recompensa otorgada. Supongo que resumiría la moraleja de la historia como: solo se puede esperar que la validación cruzada repetida sea útil cuando

σ_{k}

$\sigma_k$