Interpretación de biplots en el análisis de componentes principales.

30

Me encontré con este bonito tutorial: Un manual de análisis estadísticos con R. Capítulo 13. Análisis de componentes principales: El hepttatón olímpico sobre cómo hacer PCA en lenguaje R. No entiendo la interpretación de la figura 13.3:

biplot

Así que estoy trazando el primer vector propio frente al segundo vector propio. Qué significa eso? Supongamos que el valor propio correspondiente al primer vector propio explica el 60% de la variación en el conjunto de datos y el segundo vector propio explica el 20% de la variación. ¿Qué significa trazar estos uno contra el otro?

— usuario862
fuente

1

Consulte también stats.stackexchange.com/q/73286/3277 , stats.stackexchange.com/q/147671/3277 , stats.stackexchange.com/q/137240/3277 .

— ttnphns

22

PCA es una de las muchas formas de analizar la estructura de una matriz de correlación dada. Por construcción, el primer eje principal es el que maximiza la varianza (reflejada por su valor propio) cuando los datos se proyectan en una línea (que representa una dirección en el espacio -dimensional, suponiendo que tenga variables) y el segundo es ortogonal a él y todavía maximiza la varianza restante. Esta es la razón por la cual el uso de los dos primeros ejes debería producir una mejor aproximación del espacio de variables original (por ejemplo, una matriz de dim ) cuando se proyecta en un plano. $p$ $p$ $X$ $n \times p$

Los componentes principales son solo combinaciones lineales de las variables originales. Por lo tanto, graficar los puntajes de los factores individuales (definidos como , donde es el vector de las cargas de cualquier componente principal) puede ayudar a resaltar grupos de individuos homogéneos, por ejemplo, o para interpretar el puntaje general de uno al considerar todas las variables al mismo tiempo. En otras palabras, esta es una forma de resumir la ubicación de uno con respecto a su valor en el $Xu$ $u$ $p$ variables, o una combinación de las mismas. En su caso, la Fig. 13.3 en HSAUR muestra que Joyner-Kersee (Jy-K) tiene una puntuación alta (negativa) en el 1er eje, lo que sugiere que tuvo un desempeño bastante bueno en todos los eventos. La misma línea de razonamiento se aplica para interpretar el segundo eje. Echo un vistazo muy breve a la figura para no entrar en detalles y mi interpretación es ciertamente superficial. Supongo que encontrará más información en el libro de texto de HSAUR. Aquí vale la pena señalar que tanto las variables como los individuos se muestran en el mismo diagrama (esto se llama biplot), que ayuda a interpretar los ejes factoriales mientras se observa la ubicación de las personas. Por lo general, graficamos las variables en un llamado círculo de correlación (donde el ángulo formado por cualquiera de las dos variables, representadas aquí como vectores, refleja su correlación real en pares, ya que ). $r(x_1,x_2)=\cos^2(x_1,x_2)$

Sin embargo, creo que es mejor que comience a leer un libro introductorio sobre análisis multivariado para obtener una visión profunda de los métodos basados en PCA. Por ejemplo, BS Everitt escribió un excelente libro de texto sobre este tema, una R y S-Plus ^® compañero de Análisis Multivariante , y se puede comprobar el sitio web complementario para la ilustración. Existen otros excelentes paquetes R para el análisis de datos multivariados aplicados, como ade4 y FactoMineR .

— chl
fuente

Podría estar equivocado, pero ¿no es la correlación por pares entre dos vectores no ?

r (x_{1}, x_{2}) = \cos (x_{1}, x_{2})

$r(x_1, x_2) = \cos(x_1, x_2)$

\cos^{2} (x_{1}, x_{2})

$\cos^2(x_1, x_2)$

— hlinee

21

La trama muestra:

la puntuación de cada caso (es decir, atleta) en los dos primeros componentes principales
la carga de cada variable (es decir, cada evento deportivo) en los dos primeros componentes principales.

Los ejes izquierdo e inferior muestran puntajes de componentes principales [normalizados]; los ejes superior y derecho muestran las cargas.

En general, se supone que dos componentes explican una cantidad suficiente de la varianza para proporcionar una representación visual significativa de la estructura de casos y variables.

Puedes mirar para ver qué eventos están muy juntos en el espacio. Cuando esto aplica, esto puede sugerir que los atletas que son buenos en un evento probablemente también lo sean en los otros eventos proximales. Alternativamente, puede usar la trama para ver qué eventos están distantes. Por ejemplo, la jabalina parece ser un caso atípico y un evento importante que define el segundo componente principal. Quizás un tipo diferente de atleta es bueno en jabalina que en la mayoría de los otros eventos.

Por supuesto, se podría decir más sobre la interpretación sustantiva.

— Jeromy Anglim
fuente

2

Ver también: ¿Cuáles son los cuatro ejes en el biplot PCA?

— ameba dice Reinstate Monica

2

Ver también: Posicionar las flechas en un biplot PCA .

— ameba dice Reinstate Monica