Cargas vs autovectores en PCA: ¿cuándo usar uno u otro?


67

En el análisis de componentes principales (PCA), obtenemos vectores propios (vectores unitarios) y valores propios. Ahora, definamos las cargas como

Cargas=Vectores propiosValores propios.

Sé que los vectores propios son solo direcciones y las cargas (como se definió anteriormente) también incluyen la variación a lo largo de estas direcciones. Pero para mi mejor comprensión, ¿me gustaría saber dónde debo usar cargas en lugar de vectores propios? ¡Un ejemplo sería perfecto!

En general, solo he visto personas que usan vectores propios, pero de vez en cuando usan cargas (como se definió anteriormente) y luego me siento como si realmente no entendiera la diferencia.

Respuestas:


66

En PCA, divide la matriz de covarianza (o correlación) en parte de escala (valores propios) y parte de dirección (vectores propios). Entonces puede dotar a los vectores propios con la escala: cargas . Por lo tanto, las cargas se vuelven comparables por magnitud con las covarianzas / correlaciones observadas entre las variables, porque lo que se había extraído de la covarianza de las variables ahora regresa, en forma de covarianza entre las variables y los componentes principales. En realidad, las cargas son las covarianzas / correlaciones entre las variables originales y los componentes a escala unitaria . Esta respuesta muestra geométricamente qué son las cargas y cuáles son los coeficientes que asocian componentes con variables en PCA o análisis factorial.

Cargas :

  1. Ayudarlo a interpretar los componentes o factores principales; Porque son los pesos de combinación lineal (coeficientes) mediante los cuales los componentes o factores a escala unitaria definen o "cargan" una variable .

    (El vector propio es solo un coeficiente de transformación o proyección ortogonal , carece de "carga" dentro de su valor. "Carga" es (información de la cantidad de) varianza, magnitud. Las PC se extraen para explicar la varianza de las variables. las variaciones de (= explicado por) PC. Cuando multiplicamos el vector propio por la raíz cuadrada del valor eiven "cargamos" el coeficiente desnudo por la cantidad de varianza. Por esa virtud hacemos que el coeficiente sea la medida de asociación , variabilidad.)

  2. Las cargas a veces se "giran" (por ejemplo, varimax) después para facilitar la interpretación ( ver también );

  3. Son las cargas las que "restauran" la matriz de covarianza / correlación original (ver también este hilo que discute los matices de PCA y FA a ese respecto);

  4. Mientras que en PCA puede calcular valores de componentes tanto de vectores propios como de cargas, en el análisis factorial calcula las puntuaciones de los factores a partir de las cargas .

  5. Y, sobre todo, la matriz de carga es informativa: sus sumas verticales de cuadrados son los valores propios, las variaciones de los componentes, y sus sumas horizontales de cuadrados son porciones de las variaciones de las variables que los componentes "explican".

  6. La carga reescalada o estandarizada es la carga dividida por el st de la variable. desviación; Es la correlación. (Si su PCA es PCA basada en correlación, la carga es igual a la reescalada, porque la PCA basada en correlación es la PCA en variables estandarizadas). La carga cuadrada reescalada tiene el significado de la contribución de un pr. componente en una variable; si es alto (cercano a 1) la variable está bien definida por ese componente solo.

Un ejemplo de cálculos realizados en PCA y FA para que los vea .

Los vectores propios son cargas a escala unitaria; y son los coeficientes (los cosenos) de la transformación ortogonal (rotación) de variables en componentes principales o hacia atrás. Por lo tanto, es fácil calcular los valores de los componentes (no estandarizados) con ellos. Además de eso, su uso es limitado. El valor del vector propio al cuadrado tiene el significado de la contribución de una variable en un pr. componente; si es alto (cercano a 1), el componente está bien definido solo por esa variable.

Aunque los vectores propios y las cargas son simplemente dos formas diferentes de normalizar las coordenadas de los mismos puntos que representan columnas (variables) de los datos en un biplot , no es una buena idea mezclar los dos términos. Esta respuesta explica por qué. Ver también .


3
miyosolminortevunaltumis

1
Nota al margen: en la quimiometría, el cálculo de las puntuaciones a partir de los datos originales es de gran importancia, ya que muchos modelos predictivos utilizan la rotación PCA (!) Para el preprocesamiento, por lo que el uso limitado de las cargas es, en mi humilde opinión, nuestro uso principal para PCA.
cbeleites apoya a Monica el

2
@cbeleites, no solo es posible que las convenciones terminológicas de PCA / FA puedan diferir en diferentes campos (o en diferentes programas o libros): afirmo que sí difieren. En psicología y comportamiento humano, las "cargas" suelen ser lo que etiqueto por el nombre (las cargas son muy importantes en esos campos porque la interpretación de los latentes está pendiente, mientras que los puntajes pueden reducirse, estandarizarse y a nadie le importa). Por otro lado, muchos Rusuarios en este sitio han llamado "cargas" de los vectores propios de PCA que probablemente podrían provenir de la documentación de la función.
ttnphns

(cont.) Lo peor de todo es que las palabras "cargas" se están utilizando en otras técnicas (LDA, correlaciones canónicas, etc.) no exactamente en el mismo significado que en PCA. Entonces, la palabra misma está comprometida. Estoy de acuerdo con @amoeba, quien supone que se descarta por completo y se reemplaza por términos estadísticamente precisos como "correlaciones" o "coeficientes". Por otro lado, los "vectores propios" parecen estar confinados a la descomposición svd / eigen, y algunos métodos de atenuación. reducción no realice en absoluto o en su forma clásica.
ttnphns

1
Debes estar confundiéndote. Cuando calcula correctamente los puntajes de la PC con la ayuda de cargas, termina con componentes simplemente estandarizados. No calcula estas puntuaciones con la misma fórmula que con los vectores propios; más bien, debe usar las fórmulas descritas en el enlace de mi # 4.
ttnphns

3

Parece haber una gran confusión sobre las cargas, los coeficientes y los vectores propios. La carga de palabras proviene del análisis factorial y se refiere a los coeficientes de la regresión de la matriz de datos sobre los factores. No son los coeficientes que definen los factores. Véase, por ejemplo, Mardia, Bibby y Kent u otros libros de texto de estadísticas multivariantes.

En los últimos años, la carga de palabras se ha utilizado para indicar los coeficientes de las PC. Aquí parece que solía indicar los coeficientes multiplicados por el sqrt de los valores propios de la matriz. Estas no son cantidades comúnmente utilizadas en PCA. Los componentes principales se definen como la suma de las variables ponderadas con coeficientes de norma unitaria. De esta manera, las PC tienen una norma igual al valor propio correspondiente, que a su vez es igual a la varianza explicada por el componente.

Es en el Análisis Factorial donde se requiere que los factores tengan la norma de la unidad. Pero FA y PCA son completamente diferentes. La rotación del coeficiente de las PC rara vez se realiza porque destruye la optimización de los componentes.

En FA, los factores no están definidos de manera única y pueden estimarse de diferentes maneras. Las cantidades importantes son las cargas (las verdaderas) y las comunalidades que se utilizan para estudiar la estructura de la matriz de covarianza. PCA o PLS deben usarse para estimar componentes.


2
Esta respuesta, correcta en aspectos particulares (+1), pasa por alto que se pueden ver tanto FA como PCA y son comparables (aunque son distintas) como predicción de variables manifiestas por los factores / componentes (este último tomado a escala unitaria). Las cargas son los coeficientes de esa predicción. Por lo tanto, se utilizan cargas y son términos válidos, lo que significa lo mismo, tanto en FA como en campos de PCA.
ttnphns

3
Además, es una pena que algunas fuentes (en particular, la documentación de R) llamen descuidadamente "coeficientes" a los vectores propios - no contienen carga en ellos.
ttnphns

Es solo que FA y PCA están estimando un modelo diferente. En FA, los errores son ortogonales en PCA, no lo son. No veo mucho sentido comparar los resultados, a menos que uno esté buscando un modelo. Las cargas son las columnas de la matriz Lque se usa para escribir la matriz de covarianza como S = LL' + Cdonde Cestá una matriz diagonal. no tienen nada que ver con los coeficientes de las PC.
Marco Stamazza

they have nothing to do with the PCs' coefficientsCalculamos cargas en PCA como lo hacemos en FA. Los modelos son diferentes, pero el significado de las cargas es similar en ambos métodos.
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Cargas = Eigenvectores ortonormales⋅ Raíz cuadrada de (valores Eigen absolutos) Aquí los vectores eigen ortonormales (es decir, el término Eigenvector orthonormal) proporciona una dirección y el término Raíz cuadrada de (valores Eigen absolutos) proporciona el valor.

Por lo general, la gente dice que los signos en las cargas no son importantes, pero su magnitud es importante. Pero si invertimos la dirección de uno de los vectores propios (manteniendo el signo de otros vectores propios tal como son), los puntajes de los factores cambiarán. Por lo tanto, el análisis posterior se verá afectado significativamente.

No pude obtener una solución satisfactoria a esta ambigüedad hasta ahora.


0

Parece haber cierta confusión sobre este asunto, por lo que proporcionaré algunas observaciones y un indicador de dónde se puede encontrar una excelente respuesta en la literatura.

En primer lugar, PCA y Factor Analysis (FA) están relacionados. En general, los componentes principales son ortogonales por definición, mientras que los factores, la entidad análoga en FA, no lo son. En pocas palabras, los componentes principales abarcan el espacio de factores de una manera arbitraria pero no necesariamente útil debido a que se derivan del análisis propio puro de los datos. Los factores, por otro lado, representan entidades del mundo real que son solo ortogonales (es decir, no correlacionadas o independientes) por coincidencia.

Digamos que tomamos s de observaciones de cada uno de l sujetos. Estos se pueden organizar en una matriz de datos D que tiene s filas y l columnas. D puede descomponerse en una matriz de puntuación S y una matriz de carga L de modo que D = SL . S tendrá s filas, y L tendrá l columnas, siendo la segunda dimensión de cada una el número de factores n . El propósito del análisis factorial es descomponer Dde tal manera que revele los puntajes y factores subyacentes. Las cargas de L nos dicen que la proporción de cada puntuación que componen las observaciones en D .

En PCA, L tiene los vectores propios de la matriz de correlación o covarianza de D como sus columnas. Estos están dispuestos convencionalmente en orden descendente de los valores propios correspondientes. El valor de n , es decir, el número de componentes principales significativos para retener en el análisis y, por lo tanto, el número de filas de L , generalmente se determina mediante el uso de un gráfico de pantalla de los valores propios o uno de los muchos otros métodos que se encuentran en la literatura. Las columnas de S en PCA forman los n abstractos principales componentes propios. El valor de n es la dimensionalidad subyacente del conjunto de datos.

El objeto del análisis factorial es transformar los componentes abstractos en factores significativos mediante el uso de una matriz de transformación T tal que D = STT -1 L . ( ST ) es la matriz de puntuación transformada y ( T -1 L ) es la matriz de carga transformada.

La explicación anterior sigue aproximadamente la notación de Edmund R. Malinowski de su excelente Factor Analysis en Química . Recomiendo los capítulos iniciales como introducción al tema.


Esta respuesta parece tener varios problemas. Primero, verifique sus fórmulas, por favor, no son correctas. En segundo lugar, está tratando de discutir las diferencias entre FA y PCA. Tenemos un hilo largo separado en CV para eso, mientras que el hilo actual se trata de cargas vs vectores propios, por lo que la respuesta está fuera de lugar. Tercero, su imagen de FA está distorsionada, especialmente en frases como "el propósito de FA es descomponer D" o "el objeto de FA es transformar los componentes abstractos en factores significativos".
ttnphns

Considero que el material que publiqué es relevante para la discusión en este hilo, y ofrece una explicación de la relación entre cargas y vectores propios.
Matt Wenham

Mi investigación sobre el tema se resume en este artículo: onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
Matt Wenham

De acuerdo, tal vez su cuenta sea especial, aún válida. No puedo decir sin leer las fuentes que ofrece. Sin embargo, quisiera señalar que la "relación" entre cargas y vectores propios en PCA está en su fórmula puesta en la pregunta; así que casi no hay nada que "explicar" (explicado debería ser la diferente utilidad de ellos). Otra cosa a destacar es que la Q se trata principalmente de PCA, no de FA. Y, al final, no todos los métodos de FA tratan con vectores propios, mientras que necesariamente tratan con cargas.
ttnphns

Disculpas, no creo que haya una versión pública de mi artículo, aunque puede obtener acceso a través de Deepdyve.com con una prueba de dos semanas. El primer capítulo del libro de Malinowski está disponible en el enlace de arriba. Esto cubre lo básico sin mencionar el análisis propio. Debo admitir que no sabía que el análisis factorial podría hacerse sin análisis propio, como lo hace la variante que he usado, el análisis factorial objetivo.
Matt Wenham

-1

Estoy un poco confundido por esos nombres, y busqué en el libro llamado "Métodos estadísticos en la ciencia atmosférica", y me dio un resumen de la variada terminología de PCA, aquí están las capturas de pantalla en el libro, espero que ayude.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.