Actualmente estoy usando el análisis de componentes principales para seleccionar variables para usar en el modelado. Por el momento, hago mediciones A, B y C en mis experimentos. Lo que realmente quiero saber es: ¿puedo hacer menos mediciones y dejar de registrar C y / o B para ahorrar tiempo y esfuerzo?
Encuentro que las 3 variables se cargan fuertemente en mi primer componente principal, que representa el 60% de la variación en mis datos. Los puntajes de los componentes me dicen que si agrego estas variables juntas en una cierta proporción (aA + bB + cC). Puedo obtener una puntuación en PC1 para cada caso en mi conjunto de datos y podría usar esta puntuación como una variable en el modelado, pero eso no me permite dejar de medir B y C.
Si cuadro las cargas de A y B y C en PC1, encuentro que la variable A representa el 65% de la varianza en PC1 y la variable B representa el 50% de la varianza en PC1 y la variable C también 50%, es decir, algunos de la varianza en PC1 explicada por cada variable A, B y C se comparte con otra variable, pero A aparece en la parte superior y representa un poco más.
¿Es incorrecto pensar que podría elegir la variable A o posiblemente (aA + bB, si es necesario) para usar en el modelado porque esta variable describe una gran proporción de la varianza en PC1 y esto a su vez describe una gran proporción de la varianza en ¿los datos?
¿Qué enfoque has seguido en el pasado?
- ¿Variable única que carga más pesado en PC1 incluso si hay otros cargadores pesados?
- ¿Puntaje de componente en PC1 usando todas las variables, incluso si son todos cargadores pesados?