¿La normalización de datos (para tener una media de desviación estándar de unidad y cero) antes de realizar una validación cruzada repetida de k veces tiene alguna consecuencia negativa como el sobreajuste?
Nota: esto es para una situación donde #cases> total #características
Estoy transformando algunos de mis datos usando una transformación de registro, luego normalizo todos los datos como se indica arriba. Luego estoy realizando la selección de funciones. A continuación, aplico las características seleccionadas y los datos normalizados a una validación cruzada repetida de 10 veces para intentar estimar el rendimiento del clasificador generalizado y me preocupa que usar todos los datos para normalizar pueda no ser apropiado. ¿Debo normalizar los datos de prueba para cada pliegue utilizando los datos de normalización obtenidos de los datos de entrenamiento para ese pliegue?
Cualquier opinión recibida con gratitud! Disculpas si esta pregunta parece obvia.
Editar: Al probar esto (en línea con las sugerencias a continuación), descubrí que la normalización antes del CV no hizo mucha diferencia en cuanto al rendimiento en comparación con la normalización dentro del CV.