En Los elementos del aprendizaje estadístico , he encontrado la siguiente declaración:
Hay una calificación: los pasos iniciales de detección no supervisada se pueden realizar antes de dejar muestras. Por ejemplo, podríamos seleccionar los 1000 predictores con la mayor varianza en las 50 muestras, antes de comenzar la validación cruzada. Dado que este filtrado no involucra las etiquetas de clase, no les da a los predictores una ventaja injusta.
¿Es esto realmente válido? Quiero decir, al filtrar los atributos de antemano, no estamos imitando los datos de entrenamiento / nuevo entorno de datos, entonces, ¿importa esto que el filtrado que estamos realizando no esté supervisado? ¿No es mejor hacer todos los pasos de preprocesamiento dentro del proceso de validación cruzada? Si ese no es el caso, significa que todo el preprocesamiento sin supervisión se puede realizar de antemano, incluida la normalización de funciones / PCA, etc. Pero al hacer esto en todo el conjunto de entrenamiento, en realidad estamos filtrando algunos datos al conjunto de entrenamiento. Estoy de acuerdo en que con un conjunto de datos relativamente estable, estas diferencias probablemente deberían ser muy pequeñas, pero eso no significa que no existan, ¿verdad? ¿Cuál es la forma correcta de pensar sobre esto?