No vi la conferencia, así que no puedo comentar sobre lo que se dijo.
Mis $ 0.02: si desea obtener buenas estimaciones de rendimiento utilizando el remuestreo, realmente debe realizar todas las operaciones durante el remuestreo en lugar de antes. Esto es realmente cierto para la selección de características [1], así como para operaciones no triviales como PCA. Si agrega incertidumbre a los resultados, inclúyalo en el remuestreo.
Piense en la regresión de componentes principales: PCA seguida de regresión lineal en algunos de los componentes. PCA estima los parámetros (con ruido) y también se debe elegir el número de componentes (valores diferentes darán como resultado resultados diferentes => más ruido).
Digamos que usamos 10 veces CV con el esquema 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
o esquema 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Debe quedar claro que el segundo enfoque debe producir estimaciones de error que reflejen la incertidumbre causada por PCA, la selección del número de componentes y la regresión lineal. En efecto, el CV en el primer esquema no tiene idea de lo que lo precedió.
Soy culpable de no siempre hacer todas las operaciones con el remuestreo, sino solo cuando realmente no me importan las estimaciones de rendimiento (lo cual es inusual).
¿Hay mucha diferencia entre los dos esquemas? Depende de los datos y el preprocesamiento. Si solo está centrando y escalando, probablemente no. Si tiene un montón de datos, probablemente no. A medida que disminuye el tamaño del conjunto de entrenamiento, aumenta el riesgo de obtener estimaciones pobres, especialmente si n está cerca de p.
Puedo decir con certeza por experiencia que no incluir la selección de funciones supervisadas dentro del remuestreo es una muy mala idea (sin grandes conjuntos de entrenamiento). No veo por qué el preprocesamiento sería inmune a esto (hasta cierto punto).
@mchangun: Creo que el número de componentes es un parámetro de ajuste y probablemente desee elegirlo utilizando estimaciones de rendimiento que sean generalizables. Puede elegir automáticamente K de manera que se explique al menos el X% de la varianza e incluir ese proceso dentro del remuestreo para que tengamos en cuenta el ruido en ese proceso.
Max
[1] Ambroise, C. y McLachlan, G. (2002). Sesgo de selección en la extracción de genes sobre la base de datos de expresión de genes de microarrays. Actas de la Academia Nacional de Ciencias, 99 (10), 6562-6566.