Recientemente he estado leyendo mucho en este sitio (@Aniko, @Dikran Marsupial, @Erik) y en otros lugares sobre el problema del sobreajuste que ocurre con la validación cruzada - (Smialowski et al 2010 Bioinformática, Hastie, Elementos de aprendizaje estadístico). La sugerencia es que cualquier selección de características supervisadas (utilizando la correlación con las etiquetas de clase) realizada fuera de la estimación del rendimiento del modelo utilizando la validación cruzada (u otro método de estimación del modelo, como bootstrapping) puede resultar en un sobreajuste.
Esto me parece poco intuitivo: seguramente si selecciona un conjunto de características y luego evalúa su modelo utilizando solo las características seleccionadas mediante validación cruzada, obtendrá una estimación imparcial del rendimiento generalizado del modelo en esas características (esto supone que la muestra en estudio es representativa de la población)?
Con este procedimiento, por supuesto, no se puede reclamar un conjunto de características óptimo, pero ¿se puede informar el rendimiento del conjunto de características seleccionado en datos invisibles como válido?
Acepto que la selección de características basadas en todo el conjunto de datos puede provocar cierta fuga de datos entre los conjuntos de prueba y de tren. Pero si el conjunto de características es estático después de la selección inicial, y no se está realizando ningún otro ajuste, ¿seguramente es válido informar las métricas de rendimiento con validación cruzada?
En mi caso, tengo 56 funciones y 259 casos, por lo que #cases> #características. Las características se derivan de los datos del sensor.
Disculpas si mi pregunta parece derivada, pero este parece un punto importante para aclarar.
Editar: Al implementar la selección de características dentro de la validación cruzada en el conjunto de datos detallado anteriormente (gracias a las respuestas a continuación), puedo confirmar que la selección de características antes de la validación cruzada en este conjunto de datos introdujo un significativoparcialidad. Este sesgo / sobreajuste fue mayor cuando se hizo para una formulación de 3 clases, en comparación con la formulación de 2 clases. Creo que el hecho de que utilicé la regresión gradual para la selección de características aumentó este sobreajuste; para fines de comparación, en un conjunto de datos diferente pero relacionado, comparé una rutina de selección de características directas secuenciales realizada antes de la validación cruzada con los resultados que había obtenido previamente con la selección de características dentro de CV. Los resultados entre ambos métodos no difirieron dramáticamente. Esto puede significar que la regresión paso a paso es más propensa a un sobreajuste que el FS secuencial o puede ser una peculiaridad de este conjunto de datos.