Elegir el número K se pliega considerando la curva de aprendizaje
Me gustaría argumentar que elegir el número apropiado de pliegues depende mucho de la forma y posición de la curva de aprendizaje, principalmente debido a su impacto en el sesgo . Este argumento, que se extiende al CV de dejar uno afuera, está tomado en gran parte del libro "Elementos del aprendizaje estadístico", capítulo 7.10, página 243.K
Para discusiones sobre el impacto de en la varianza ver aquíK
En resumen, si la curva de aprendizaje tiene una pendiente considerable en el tamaño del conjunto de entrenamiento dado, la validación cruzada de cinco o diez veces sobreestimará el verdadero error de predicción. Si este sesgo es un inconveniente en la práctica depende del objetivo. Por otro lado, la validación cruzada de dejar uno fuera tiene un sesgo bajo pero puede tener una gran varianza.
Una visualización intuitiva con un ejemplo de juguete.
Para comprender este argumento visualmente, considere el siguiente ejemplo de juguete donde estamos ajustando un polinomio de grado 4 a una curva senoidal ruidosa:
Intuitivamente y visualmente, esperamos que este modelo funcione mal para pequeños conjuntos de datos debido al sobreajuste. Este comportamiento se refleja en la curva de aprendizaje donde graficamos error cuadrático medio frente al tamaño del entrenamiento junto con 1 desviación estándar. Tenga en cuenta que elegí trazar 1 - MSE aquí para reproducir la ilustración utilizada en ESL página 243±1−±
Discutiendo el argumento
El rendimiento del modelo mejora significativamente a medida que el tamaño del entrenamiento aumenta a 50 observaciones. Aumentar aún más el número a 200, por ejemplo, solo trae pequeños beneficios. Considere los siguientes dos casos:
Si nuestro conjunto de entrenamiento tuviera 200 observaciones, la validación cruzada veces estimaría el rendimiento sobre un tamaño de entrenamiento de 160, que es prácticamente el mismo que el rendimiento para el tamaño del conjunto de entrenamiento 200. Por lo tanto, la validación cruzada no sufriría demasiados sesgos y aumentaría a valores mayores no traerán mucho beneficio ( gráfico de la izquierda )K5K
Sin embargo, si el conjunto de entrenamiento tenía observaciones, la validación cruzada veces estimaría el rendimiento del modelo sobre conjuntos de entrenamiento de tamaño 40, y desde la curva de aprendizaje esto conduciría a un resultado sesgado. Por lo tanto, aumentar en este caso tenderá a reducir el sesgo. ( diagrama de la derecha ).5 K505K
[Actualización] - Comentarios sobre la metodología
Puede encontrar el código para esta simulación aquí . El enfoque fue el siguiente:
- Genere 50,000 puntos a partir de la distribución donde se conoce la verdadera varianza deϵsin(x)+ϵϵ
- Iterar veces (p. Ej. 100 o 200 veces). En cada iteración, cambie el conjunto de datos volviendo a muestrear puntos de la distribución originalNiN
- Para cada conjunto de datos :
i
- Realizar validación cruzada K-fold para un valor deK
- Almacene el error cuadrático medio (MSE) promedio en los pliegues K
- Una vez que se completa el ciclo sobre , calcule la media y la desviación estándar del MSE en los conjuntos de datos para el mismo valor dei KiiK
- Repita los pasos anteriores para todas las en el rango hasta LOOCV{ 5 , . . . , N }K{5,...,N}
Un enfoque alternativo es no volver a muestrear un nuevo conjunto de datos en cada iteración y, en su lugar, reorganizar el mismo conjunto de datos cada vez. Esto parece dar resultados similares.