¿Qué son los puntajes de los componentes principales (puntajes de PC, puntajes de PCA)?
¿Qué son los puntajes de los componentes principales (puntajes de PC, puntajes de PCA)?
Respuestas:
Primero, definamos un puntaje.
John, Mike y Kate obtienen los siguientes porcentajes para los exámenes de matemáticas, ciencias, inglés y música de la siguiente manera:
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
En este caso hay 12 puntajes en total. Cada puntaje representa los resultados del examen de cada persona en un tema en particular. Entonces, una puntuación en este caso es simplemente una representación de dónde se cruzan una fila y una columna.
Ahora definamos informalmente un Componente Principal.
En la tabla anterior, ¿puede trazar fácilmente los datos en un gráfico 2D? No, porque hay cuatro materias (lo que significa cuatro variables: matemáticas, ciencias, inglés y música), es decir:
Pero, ¿cómo trazarías 4 temas?
Por el momento tenemos cuatro variables que representan cada una solo un tema. Entonces, un método alrededor de esto podría ser combinar de alguna manera los temas en quizás solo dos nuevas variables que luego podemos trazar. Esto se conoce como escalamiento multidimensional .
El análisis de componentes principales es una forma de escalamiento multidimensional. Es una transformación lineal de las variables en un espacio dimensional inferior que retiene la cantidad máxima de información sobre las variables. Por ejemplo, esto significaría que podríamos ver los tipos de asignaturas para las que cada alumno es más adecuado.
Por lo tanto, un componente principal es una combinación de las variables originales después de una transformación lineal. En R, esto es:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
Lo que le dará algo como esto (los dos primeros Componentes principales solo por simplicidad):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
La primera columna aquí muestra los coeficientes de combinación lineal que define el componente principal # 1, y la segunda columna muestra los coeficientes para el componente principal # 2.
Entonces, ¿qué es un puntaje de componente principal?
Es una puntuación de la tabla al final de esta publicación (ver más abajo).
El resultado anterior de R significa que ahora podemos trazar el puntaje de cada persona en todas las materias en un gráfico 2D de la siguiente manera. Primero, necesitamos centrar las variables originales que significa mi columna de resta:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
Y luego para formar combinaciones lineales para obtener puntajes de PC1 y PC2 :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
Lo que se simplifica a:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
Hay seis puntajes de componentes principales en la tabla anterior. Ahora puede trazar los puntajes en un gráfico 2D para tener una idea del tipo de asignaturas para las que cada estudiante es quizás más adecuado.
La misma salida se puede obtener en R escribiendo prcomp(DF, scale = FALSE)$x
.
EDITAR 1: Hmm, probablemente podría haber pensado un mejor ejemplo, y hay más de lo que he puesto aquí, pero espero que entiendas la idea.
EDIT 2: crédito total a @drpaulbrewer por su comentario en la mejora de esta respuesta.
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
resultados. Antes no lo hizo.
El análisis de componentes principales (PCA) es un enfoque popular que analiza la varianza cuando se trata de datos multivariados. Tiene variables aleatorias X1, X2, ... Xn que están todas correlacionadas (positiva o negativamente) en diversos grados, y desea obtener una mejor comprensión de lo que está sucediendo. PCA puede ayudar.
Lo que PCA le brinda es un cambio de variable en Y1, Y2, ..., Yn (es decir, el mismo número de variables) que son combinaciones lineales de las Xs. Por ejemplo, puede tener Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3 ...
El Y es la buena propiedad de que cada uno de estos tiene correlación cero entre sí. Mejor aún, los obtienes en orden decreciente de variación. Entonces, Y1 "explica" una gran parte de la varianza de las variables originales, Y2 un poco menos y así sucesivamente. Por lo general, después de las primeras Y, las variables dejan de tener sentido. El puntaje de PCA para cualquiera de los Xi es solo su coeficiente en cada una de las Ys. En mi ejemplo anterior, la puntuación para X2 en el primer componente principal (Y1) es 1.76.
La forma en que PCA hace esta magia es computando vectores propios de la matriz de covarianza.
Para dar un ejemplo concreto, imagine que X1, ... X10 son cambios en los rendimientos de los bonos del Tesoro a 1 año, 2 años, ..., durante un período de tiempo. Cuando calcula PCA, generalmente encuentra que el primer componente tiene puntajes para cada enlace del mismo signo y sobre el mismo signo. Esto le indica que la mayor parte de la variación en el rendimiento de los bonos proviene de que todo se mueve de la misma manera: "desplazamientos paralelos" hacia arriba o hacia abajo. El segundo componente típicamente muestra "inclinación" y "aplanamiento" de la curva y tiene signos opuestos para X1 y X10.
PC1 > PC2 > ... > PCn
y la suma de sus variaciones es igual a la suma de las variaciones del conjunto de variables inicial, ya que la PCA se calcula sobre la matriz de covarianza, es decir, las variables están estandarizadas (SD = 1, VAR = 1).
Supongamos que tiene una nube de N puntos en, digamos, 3D (que se puede enumerar en una matriz de 100x3). Luego, el análisis de componentes principales (PCA) ajusta un elipsoide orientado arbitrariamente en los datos. La puntuación del componente principal es la longitud de los diámetros del elipsoide.
En la dirección en que el diámetro es grande, los datos varían mucho, mientras que en la dirección en que el diámetro es pequeño, los datos varían poco. Si desea proyectar datos Nd en un diagrama de dispersión 2-d, debe trazarlos a lo largo de los dos componentes principales más grandes, porque con ese enfoque muestra la mayor parte de la varianza en los datos.
Me gusta pensar que los puntajes de los componentes principales son "básicamente sin sentido" hasta que realmente les dé algún significado. Interpretar los puntajes de la PC en términos de "realidad" es un negocio complicado, y realmente no puede haber una forma única de hacerlo. Depende de lo que sepa sobre las variables particulares que entran en el PCA y de cómo se relacionan entre sí en términos de interpretaciones.
En lo que respecta a las matemáticas, me gusta interpretar los puntajes de PC como las coordenadas de cada punto, con respecto a los ejes componentes principales. Entonces, en las variables en bruto que tienes
Por lo tanto, puede pensar en los vectores propios como una descripción de dónde están las "líneas rectas" que describen las PC. Luego, los puntajes de los componentes principales describen dónde se encuentra cada punto de datos en cada línea recta, en relación con el "centro" de los datos. También puede pensar en las puntuaciones de PC en combinación con los pesos / vectores propios como una serie de predicciones de rango 1 para cada uno de los puntos de datos originales, que tienen la forma:
Los componentes principales de una matriz de datos son los pares vector propio-valor propio de su matriz de varianza-covarianza. En esencia, son las piezas relacionadas con la decoración de la variación. Cada una es una combinación lineal de las variables para una observación; suponga que mide w, x, y, z en cada uno de los temas. Su primera PC podría funcionar para ser algo así como
0.5w + 4x + 5y - 1.5z
Las cargas (vectores propios) aquí son (0.5, 4, 5, -1.5). El puntaje (valor propio) para cada observación es el valor resultante cuando sustituye en el observado (w, x, y, z) y calcula el total.
Esto es útil cuando proyecta cosas en sus componentes principales (para, por ejemplo, detección de valores atípicos) porque simplemente traza los puntajes en cada uno como lo haría con cualquier otro dato. Esto puede revelar mucho acerca de sus datos si gran parte de la variación está correlacionada (== en las primeras PC).
Una salida de R en PCA (un ejemplo falso) se ve así. PC1, PC2 ... son componentes principales 1, 2 ... El siguiente ejemplo muestra solo los primeros 8 componentes principales (de 17). También puede extraer otros elementos de PCA, como cargas y puntajes.
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
Los puntajes de los componentes principales son un grupo de puntajes que se obtienen después de un análisis de componentes principales (PCA). En PCA, las relaciones entre un grupo de puntajes se analizan de manera tal que se crea un número igual de nuevas variables "imaginarias" (también conocidas como componentes principales). La primera de estas nuevas variables imaginarias está correlacionada al máximo con todo el grupo original de variables. El siguiente está algo menos correlacionado, y así sucesivamente hasta el punto en que si usara todos los puntajes de los componentes principales para predecir cualquier variable dada del grupo inicial, podría explicar toda su varianza. La forma en que procede la PCA es compleja y tiene ciertas restricciones. Entre ellas está la restricción de que la correlación entre dos componentes principales (es decir, variables imaginarias) es cero; por lo tanto no