Tengo un conjunto de datos para el que tengo múltiples conjuntos de etiquetas binarias. Para cada conjunto de etiquetas, entreno a un clasificador, evaluándolo por validación cruzada. Quiero reducir la dimensionalidad utilizando el análisis de componentes principales (PCA). Mi pregunta es:
¿Es posible hacer el PCA una vez para todo el conjunto de datos y luego usar el nuevo conjunto de datos de menor dimensionalidad para la validación cruzada como se describió anteriormente? ¿O necesito hacer un PCA separado para cada conjunto de entrenamiento (lo que significaría hacer un PCA separado para cada clasificador y para cada pliegue de validación cruzada)?
Por un lado, el PCA no hace uso de las etiquetas. Por otro lado, utiliza los datos de prueba para realizar la transformación, por lo que me temo que podría sesgar los resultados.
Debo mencionar que, además de ahorrarme algo de trabajo, hacer el PCA una vez en todo el conjunto de datos me permitiría visualizar el conjunto de datos para todos los conjuntos de etiquetas a la vez. Si tengo un PCA diferente para cada conjunto de etiquetas, necesitaría visualizar cada conjunto de etiquetas por separado.
caret
paquete: PCA y validación cruzada k-fold en Caret .