Ruego diferir en esta pregunta con la opinión de @ AmiTavory y con los Elementos del aprendizaje estadístico.
Al provenir de un campo aplicado con tamaños de muestra muy bajos, tengo la experiencia de que también los pasos de preprocesamiento sin supervisión pueden introducir un sesgo severo.
En mi campo, eso sería con mayor frecuencia PCA para la reducción de la dimensionalidad antes de entrenar a un clasificador. Si bien no puedo mostrar los datos aquí, he visto PCA + (LDA con validación cruzada) vs.validado cruzado (PCA + LDA) subestimando la tasa de error en aproximadamente un orden de magnitud . (Esto suele ser un indicador de que el PCA no es estable).
En cuanto a la argumentación de la "ventaja injusta" de los Elementos, si se examina la varianza de los casos de prueba + prueba, terminamos con características que funcionan bien tanto con la capacitación como con los casos de prueba. Por lo tanto, creamos una profecía autocumplida aquí, que es la causa del sesgo demasiado optimista. Este sesgo es bajo si tiene tamaños de muestra razonablemente cómodos.
Por lo tanto, recomiendo un enfoque que sea un poco más conservador que los Elementos:
- los cálculos de preprocesamiento que consideran más de un caso deben incluirse en la validación: es decir, se calculan solo en el conjunto de entrenamiento respectivo (y luego se aplican a los datos de la prueba)
- Los pasos de preprocesamiento que consideran cada caso por sí solo (soy espectroscopista: los ejemplos serían la corrección de la línea de base y la normalización de la intensidad, que es una normalización por filas) pueden extraerse de la validación cruzada siempre que estén antes del primer paso que calcula para múltiples casos.
Dicho esto, también la validación cruzada es solo un atajo para hacer un estudio de validación adecuado. Por lo tanto, puede argumentar con practicidad:
Puede verificar si el preprocesamiento en cuestión produce resultados estables (puede hacerlo, por ejemplo, mediante validación cruzada). Si ya lo encuentra perfectamente estable con tamaños de muestra más bajos, en mi humilde opinión, puede argumentar que no se introducirá mucho sesgo al sacarlo de la validación cruzada.
Sin embargo, para citar a un supervisor anterior: el tiempo de cálculo no es un argumento científico.
A menudo hago una "vista previa" de algunos pliegues y pocas iteraciones para la validación cruzada para asegurarme de que todo el código (incluido el resumen / gráficos de los resultados) y luego lo dejo durante la noche o durante el fin de semana más o menos en el servidor durante un validación cruzada más fina.