En su artículo Linear Model Selection by Cross-Validation , Jun Shao muestra que para el problema de la selección de variables en la regresión lineal multivariante, el método de validación cruzada de dejar-fuera-fuera (LOOCV) es 'asintóticamente inconsistente'. En inglés simple, tiende a seleccionar modelos con demasiadas variables. En un estudio de simulación, Shao muestra que incluso con tan solo 40 observaciones, LOOCV puede tener un rendimiento inferior a otras técnicas de validación cruzada.
Este documento es algo controvertido y algo ignorado (10 años después de su publicación, mis colegas quimiométricos nunca habían oído hablar de él y estaban felizmente usando LOOCV para la selección de variables ...). También existe la creencia (soy culpable de esto) de que sus resultados se extienden un poco más allá del alcance limitado original.
La pregunta, entonces: ¿hasta dónde se extienden estos resultados? ¿Son aplicables a los siguientes problemas?
- Selección de variables para regresión logística / GLM?
- ¿Selección variable para la clasificación Fisher LDA?
- ¿Selección variable usando SVM con espacio de kernel finito (o infinito)?
- Comparación de modelos en clasificación, digamos SVM usando diferentes núcleos?
- Comparación de modelos en regresión lineal, por ejemplo, ¿comparar MLR con regresión de cresta?
- etc.