¿Se debe realizar la selección de características solo en los datos de entrenamiento (o todos los datos)? Revisé algunas discusiones y documentos como Guyon (2003) y Singhi y Liu (2006) , pero aún no estoy seguro de la respuesta correcta.
La configuración de mi experimento es la siguiente:
- Conjunto de datos: 50 controles sanos y 50 pacientes con enfermedades (características de aproximadamente 200 que pueden ser relevantes para la predicción de la enfermedad).
- La tarea es diagnosticar la enfermedad según las características disponibles.
Lo que hago es
- Tome todo el conjunto de datos y realice la selección de características (FS). Mantengo solo las funciones seleccionadas para su posterior procesamiento
- Dividir para probar y entrenar, clasificador de trenes usando datos de trenes y características seleccionadas. Luego, aplique el clasificador a los datos de prueba (nuevamente utilizando solo las características seleccionadas). Se utiliza la validación de dejar uno fuera.
- obtener precisión de clasificación
- Promedio: repita 1) -3) N veces. (100).
Estoy de acuerdo en que hacer FS en todo el conjunto de datos puede introducir algún sesgo, pero mi opinión es que se "promedia" durante el promedio (paso 4). ¿Es eso correcto? (La varianza de precisión es )
1 Guyon, I. (2003) "Introducción a la selección de variables y características", The Journal of Machine Learning Research, vol. 3, págs. 1157-1182
2 Singhi, SK y Liu, H. (2006) "Sesgo de selección de subconjunto de características para el aprendizaje de clasificación", Procedimientos ICML '06 Actas de la 23ª conferencia internacional sobre aprendizaje automático, págs. 849-856