En principio:
Realice sus predicciones utilizando un solo modelo entrenado en todo el conjunto de datos (por lo que solo hay un conjunto de características). La validación cruzada solo se utiliza para estimar el rendimiento predictivo del modelo único entrenado en todo el conjunto de datos. Al utilizar la validación cruzada, es VITAL que en cada pliegue repita todo el procedimiento utilizado para ajustar el modelo primario, ya que de lo contrario puede terminar con un sesgo optimista sustancial en el rendimiento.
Para ver por qué sucede esto, considere un problema de clasificación binaria con 1000 características binarias pero solo 100 casos, donde los casos y las características son puramente aleatorios, por lo que no existe una relación estadística entre las características y los casos. Si entrenamos un modelo primario en el conjunto de datos completo, siempre podemos lograr un error cero en el conjunto de entrenamiento ya que hay más características que casos. Incluso podemos encontrar un subconjunto de características "informativas" (que están correlacionadas por casualidad). Si luego realizamos la validación cruzada utilizando solo esas características, obtendremos una estimación del rendimiento que es mejor que adivinar al azar. La razón es que en cada pliegue del procedimiento de validación cruzada hay alguna información sobre los casos retenidos utilizados para las pruebas, ya que las características se eligieron porque eran buenas para predecir, todas ellas, incluidos los que se presentaron. Por supuesto, la verdadera tasa de error será 0.5.
Si adoptamos el procedimiento adecuado y realizamos la selección de funciones en cada pliegue, ya no hay información sobre los casos retenidos en la elección de las funciones utilizadas en ese pliegue. Si utiliza el procedimiento adecuado, en este caso, obtendrá una tasa de error de aproximadamente 0,5 (aunque variará un poco para diferentes realizaciones del conjunto de datos).
Los buenos papeles para leer son:
Christophe Ambroise, Geoffrey J. McLachlan, "Sesgo de selección en la extracción de genes sobre la base de datos de expresión de genes de microarrays", PNAS http://www.pnas.org/content/99/10/6562.abstract
que es muy relevante para el OP y
Gavin C. Cawley, Nicola LC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", JMLR 11 (julio): 2079-2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
lo que demuestra que lo mismo puede ocurrir fácilmente en la selección del modelo (por ejemplo, sintonizar los hiperparámetros de un SVM, que también debe repetirse en cada iteración del procedimiento CV).
En la práctica:
Recomendaría usar Bagging y el error de fuera de bolsa para estimar el rendimiento. Obtendrá un modelo de comité con muchas características, pero eso es realmente algo bueno. Si solo usa un solo modelo, es probable que sobrepase el criterio de selección de características y termine con un modelo que ofrezca predicciones más pobres que un modelo que usa una mayor cantidad de características.
El libro de Alan Millers sobre selección de subconjuntos en regresión (monografías de Chapman y Hall sobre estadísticas y probabilidad aplicada, volumen 95) da el buen consejo (página 221) de que si el rendimiento predictivo es lo más importante, entonces no haga ninguna selección de características , solo use la regresión de cresta en su lugar. ¡Y eso está en un libro sobre selección de subconjuntos! ; o)