PCA es una de las muchas formas de analizar la estructura de una matriz de correlación dada. Por construcción, el primer eje principal es el que maximiza la varianza (reflejada por su valor propio) cuando los datos se proyectan en una línea (que representa una dirección en el espacio -dimensional, suponiendo que tenga variables) y el segundo es ortogonal a él y todavía maximiza la varianza restante. Esta es la razón por la cual el uso de los dos primeros ejes debería producir una mejor aproximación del espacio de variables original (por ejemplo, una matriz de dim ) cuando se proyecta en un plano.p X n × ppagspagsXn × p
Los componentes principales son solo combinaciones lineales de las variables originales. Por lo tanto, graficar los puntajes de los factores individuales (definidos como , donde es el vector de las cargas de cualquier componente principal) puede ayudar a resaltar grupos de individuos homogéneos, por ejemplo, o para interpretar el puntaje general de uno al considerar todas las variables al mismo tiempo. En otras palabras, esta es una forma de resumir la ubicación de uno con respecto a su valor en elXtup r ( x 1 , x 2 ) = cos 2 ( x 1 , x 2 )tupagsvariables, o una combinación de las mismas. En su caso, la Fig. 13.3 en HSAUR muestra que Joyner-Kersee (Jy-K) tiene una puntuación alta (negativa) en el 1er eje, lo que sugiere que tuvo un desempeño bastante bueno en todos los eventos. La misma línea de razonamiento se aplica para interpretar el segundo eje. Echo un vistazo muy breve a la figura para no entrar en detalles y mi interpretación es ciertamente superficial. Supongo que encontrará más información en el libro de texto de HSAUR. Aquí vale la pena señalar que tanto las variables como los individuos se muestran en el mismo diagrama (esto se llama biplot), que ayuda a interpretar los ejes factoriales mientras se observa la ubicación de las personas. Por lo general, graficamos las variables en un llamado círculo de correlación (donde el ángulo formado por cualquiera de las dos variables, representadas aquí como vectores, refleja su correlación real en pares, ya que ).r(x1,x2)=cos2(x1,x2)
Sin embargo, creo que es mejor que comience a leer un libro introductorio sobre análisis multivariado para obtener una visión profunda de los métodos basados en PCA. Por ejemplo, BS Everitt escribió un excelente libro de texto sobre este tema, una R y S-Plus ® compañero de Análisis Multivariante , y se puede comprobar el sitio web complementario para la ilustración. Existen otros excelentes paquetes R para el análisis de datos multivariados aplicados, como ade4 y FactoMineR .