Tengo algunos datos y quiero construir un modelo (digamos un modelo de regresión lineal) a partir de estos datos. En el siguiente paso, quiero aplicar la validación cruzada Leave-One-Out (LOOCV) en el modelo, así que vea qué tan bien funciona.
Si entendí LOOCV correctamente, construyo un nuevo modelo para cada una de mis muestras (el conjunto de prueba) usando cada muestra excepto esta muestra (el conjunto de entrenamiento). Luego uso el modelo para predecir el conjunto de pruebas y calcular los errores .
En el siguiente paso, agrego todos los errores generados usando una función elegida, por ejemplo error cuadrático medio. Puedo usar estos valores para juzgar la calidad (o bondad de ajuste) del modelo.
Pregunta: ¿Qué modelo es el modelo para el que se aplican estos valores de calidad, entonces qué modelo debo elegir si considero que las métricas generadas por LOOCV son apropiadas para mi caso? LOOCV examinó modelos diferentes (donde es el tamaño de la muestra); ¿Cuál es el modelo que debo elegir?
- ¿Es el modelo que utiliza todas las muestras? ¡Este modelo nunca se calculó durante el proceso LOOCV!
- ¿Es el modelo que tiene el menor error?