Me preocupa que la precisión de la predicción calculada entre cada pliegue dependa de la superposición sustancial entre los conjuntos de entrenamiento (aunque los conjuntos de predicción son independientes).
En mi humilde opinión, la superposición entre los conjuntos de entrenamiento no tiene que ser una gran preocupación aquí. Es decir, es importante verificar si los modelos son estables. Estable implica que las predicciones de los modelos sustitutos de validación cruzada son equivalentes (es decir, un caso independiente obtendría la misma predicción para todos esos modelos) y, de hecho, la validación cruzada generalmente reclama equivalencia no solo entre los modelos sustitutos sino también con el modelo entrenado en todos casos. Entonces, esta dependencia es más bien una consecuencia de lo que queremos tener.
Esto se aplica a la pregunta típica: si entreno un modelo con estos datos, ¿cuáles son los intervalos de predicción? Si la pregunta es, en cambio, si entrenamos un modelo en casos de esta población, ¿cuáles son los intervalos de predicción ?, no podemos responderlo porque esa superposición en los conjuntos de entrenamiento significa que subestimamos la varianza en una cantidad desconocida.n
¿Cuáles son las consecuencias en comparación con las pruebas con un conjunto de pruebas independiente?
- Las estimaciones de validación cruzada pueden tener una varianza más alta que probar el modelo final con un conjunto de prueba independiente del mismo tamaño, porque además de la varianza debido a los casos de prueba, enfrentamos la varianza debido a la inestabilidad de los modelos sustitutos.
Sin embargo, si los modelos son estables, esta variación es pequeña / insignificante. Además, este tipo de estabilidad se puede medir.
Lo que no se puede medir es qué tan representativo se compara todo el conjunto de datos con la población de la que se extrajo. Esto incluye parte del sesgo del modelo final (sin embargo, también un pequeño conjunto de prueba independiente puede tener un sesgo) y significa que la varianza correspondiente no puede estimarse mediante validación cruzada.
En la práctica de la aplicación (rendimiento del modelo entrenado con estos datos), el cálculo del intervalo de predicción enfrentaría problemas que, en mi humilde opinión, son más importantes que qué parte de la validación cruzada de varianza no puede detectar: por ejemplo
- la validación cruzada no puede probar el rendimiento para casos que son independientes en el tiempo (generalmente se necesitan predicciones para casos que se miden en el futuro)
- los datos pueden contener grupos desconocidos y el rendimiento fuera del grupo puede ser importante. Los datos agrupados son en principio algo que puede tener en cuenta en la validación cruzada, pero necesita saber sobre la agrupación.
Estos son más que una simple validación cruzada frente a un conjunto de pruebas independientes: básicamente, necesitaría sentarse y diseñar un estudio de validación; de lo contrario, existe un alto riesgo de que el conjunto de pruebas "independiente" no sea tan independiente. Una vez hecho esto, uno puede pensar qué factores pueden ser de importancia práctica y cuáles pueden ser descuidados. Puede llegar a la conclusión de que después de una consideración exhaustiva, la validación cruzada es lo suficientemente buena y lo más sensato porque la validación independiente sería demasiado costosa en comparación con la posible ganancia de información.
En conjunto, usaría la fórmula habitual para la desviación estándar, la llamaría en analogía con e informaría en detalle cómo se realizaron las pruebas. R M S E C VsCVRMSECV