Para una competencia reciente de Kaggle, definí (manualmente) 10 características adicionales para mi conjunto de entrenamiento, que luego se usarían para entrenar un clasificador aleatorio de bosques. Decidí ejecutar PCA en el conjunto de datos con las nuevas características, para ver cómo se comparaban entre sí. Descubrí que ~ 98% de la varianza fue transportada por el primer componente (el primer vector propio). Luego entrené al clasificador varias veces, agregando una característica a la vez, y utilicé la validación cruzada y el error RMS para comparar la calidad de la clasificación. Descubrí que las clasificaciones mejoraron con cada característica adicional, y que el resultado final (con las 10 nuevas características) fue mucho mejor que la primera ejecución con (digamos) 2 características.
Dado que PCA afirmó que ~ 98% de la variación estaba en el primer componente de mi conjunto de datos, ¿por qué mejoró tanto la calidad de las clasificaciones?
¿Sería esto cierto para otros clasificadores? RF escala a través de múltiples núcleos, por lo que es mucho más rápido entrenar que (digamos) SVM.
¿Qué pasaría si hubiera transformado el conjunto de datos en el espacio "PCA" y ejecute el clasificador en el espacio transformado? ¿Cómo cambiarían mis resultados?