¿Cuál es la medida de asociación adecuada de una variable con un componente PCA (en un diagrama biplot / carga)?

Estoy usando FactoMineRpara reducir mi conjunto de datos de mediciones a las variables latentes.

El mapa de la variable anterior es claro para mí de interpretar, pero estoy confundido cuando se trata de las asociaciones entre las variables y el componente 1. Mirando el mapa variables, ddpy covestá muy cerca de la componente en el mapa, y ddpAbses un poco más lejos lejos. Pero esto no es lo que muestran las correlaciones:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Luego está la sin2cantidad, que es la altura para rpvi(por ejemplo), pero esa medida no es la variable más cercana al primer componente.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Entonces, ¿qué debo mirar cuando se trata de la asociación entre una variable y el primer componente?

— Fredrik Karlsson
fuente

Si bien los puntos en su mapa (que se ve como el diagrama de carga) están desordenados, yo diría que el diagrama corresponde muy bien a la salida de "correlaciones". Esas "correlaciones" son las coordenadas en Dim1. Ellos, las cargas, son correlaciones entre un factor y variables (cuando basó su análisis en datos estandarizados = en correlaciones b / w las variables).

— ttnphns

Además de las respuestas a continuación, marque esta con más enlaces allí.

— ttnphns

Explicación de una gráfica de carga de PCA o análisis factorial.

La gráfica de carga muestra variables como puntos en el espacio de componentes principales (o factores). Las coordenadas de las variables son, generalmente, las cargas. (Si combina correctamente el diagrama de carga con el diagrama de dispersión correspondiente de los casos de datos en el mismo espacio de componentes, eso sería biplot).

Tengamos 3 variables correlacionadas de alguna manera, , , . Los centramos y realizamos PCA , extrayendo 2 primeros componentes principales de tres: y . Usamos cargas como coordenadas para hacer el diagrama de carga a continuación. Las cargas son los elementos de los vectores propios no estandarizados, es decir, los vectores propios dotados de las correspondientes variaciones de componentes o valores propios. $V$ $W$ $U$ $F_1$ $F_2$

enter image description here

La trama de carga es el plano de la imagen. Consideremos única variable . La flecha que habitualmente se dibuja en un diagrama de carga es lo que aquí se etiqueta ; las coordenadas , son las cargas de con y $V$ $h'$ $a_1$ $a_2$ $V$ $F_1$ $F_2$ , respectivamente (tenga en cuenta que terminológicamente es más correcto decir "el componente carga una variable", no viceversa).

Arrow es la proyección, sobre el plano de componente, de la vector que es la verdadera posición de la variable en las variables' espacio abarcado por , , . La longitud al cuadrado del vector, , es la varianza de . Mientras que es la porción de esa varianza explicada por los dos componentes. $h'$ $h$ $V$ $V$ $W$ $U$ $h^2$ $\bf^a$ $V$ $h'^2$

Carga, correlación, correlación proyectada . Como las variables se centraron antes de la extracción de los componentes, es la correlación de Pearson entre y el componente . Eso no debe confundirse con en la gráfica de carga, que es otra cantidad: es la correlación de Pearson entre el componente y la variable vectorizada aquí como . Como una variable, es la predicción de por los componentes (normalizadas), en la regresión lineal (comparar con el dibujo de la geometría de regresión lineal aquí $\cos \phi$ $V$ $F_1$ $\cos \alpha$ $F_1$ $h'$ $h'$ $V$ ) donde las cargas son los coeficientes de regresión (cuando los componentes se mantienen ortogonales, como se extrae). $a$

Más lejos. Podemos recordar (trigonometría) que . Se puede entender como el producto escalar entre el vector y el vector de longitud unitaria : . se establece ese vector de varianza unitaria porque no tiene su propia varianza aparte de la varianza de que explica (por la cantidad ): es decir, $a_1 = h \cdot \cos \phi$ $V$ $F_1$ $h \cdot 1 \cdot \cos \phi$ $F_1$ $V$ $h'$ $F_1$ es una entidad extraída de V, W, U y no una entidad invitada desde fuera. Entonces, claramente, es lacovarianzaentreyestandarizado, a escala unitaria(para establecer $a_1 = \sqrt{var_{V} \cdot var_{F_1}} \cdot r = h \cdot 1 \cdot \cos \phi$ $V$ $\bf^b$ ) componente. Esta covarianza es directamente comparable con las covarianzas entre las variables de entrada; por ejemplo, la covarianza entreyserá el producto de sus longitudes vectoriales multiplicadas por el coseno entre ellas. $s_1=\sqrt{var_{F_1}}=1$ $F_1$ $V$ $W$

Para resumir: cargar puede verse como la covarianza entre el componente estandarizado y la variable observada, , o de manera equivalente entre el componente estandarizado y la imagen explicada (por todos los componentes que definen la gráfica) variable, . Ese podría llamarse correlación V-F1 proyectada en el subespacio componente F1-F2. $a_1$ $h \cdot 1 \cdot \cos \phi$ $h' \cdot 1 \cdot \cos \alpha$ $\cos \alpha$

La correlación mencionada anteriormente entre una variable y un componente, , también se denomina carga estandarizada o reescalada . Es conveniente en la interpretación de componentes porque está en el rango [-1,1]. $\cos \phi = a_1/h$

Relación con los vectores propios . Carga reescalado debería no ser confundido con el vector propio elemento que - tal como la conocemos - es el coseno del ángulo entre una variable y un componente principal. Recuerde que la carga es un elemento vector propio ampliado por el valor singular del componente (raíz cuadrada del valor propio). Es decir, para la variable de nuestra gráfica: , donde es el st. desviación (no sino original, es decir, el valor singular) de $\cos \phi$ $V$ $a_1= e_1s_1$ $s_1$ $1$ $F_1$ variable latente. Luego viene ese elemento vector propio , no elsí. La confusión en torno a dos palabras "coseno" se disuelve cuando recordamos en qué tipo de representación espacial estamos. El valor del vector propioes elcosenodel ángulo de rotaciónde una variable como eje en pr. componente como eje dentro del espacio variable (también conocido como vista de diagrama de dispersión),como aquí. Mientras queen nuestro gráfico de cargaes la medida de similitud de cosenoentre una variable como vector y una pr. componente como ... bueno ... como vector también, si lo desea (aunque se dibuja como eje en la trama), porque actualmente estamos en elespacio temático $e_1= \frac{a_1}{s_1}=\frac{h}{s_1}\cos \phi$ $\cos \phi$ $\cos \phi$ (qué gráfico de carga es) donde las variables correlacionadas son abanicos de vectores, no son ejes ortogonales, y los ángulos vectoriales son la medida de la asociación, y no de la rotación de la base espacial.

Mientras que la carga es la medida de asociación angular (es decir, tipo de producto escalar) entre una variable y un componente escalado por unidad, y la carga reescalada es la carga estandarizada donde la escala de la variable se reduce a la unidad, pero el coeficiente del vector propio es la carga donde el componente está "sobre estandarizado", es decir, fue llevado a escala (en lugar de 1); alternativamente, puede considerarse como una carga reescalada donde la escala de la variable se llevó a (en lugar de 1). $1/s$ $h/s$

Entonces, ¿qué son las asociaciones entre una variable y un componente? Puedes elegir lo que quieras. Puede ser la carga (covarianza con el componente escalado unitario) ; el carga reescalado (= correlación de componente variable); correlación entre la imagen (predicción) y el componente (= correlación proyectada ). Incluso puede elegir el coeficiente de vector propio si lo necesita (aunque me pregunto cuál podría ser el motivo). O inventa tu propia medida. $a$ $\cos \phi$ $\cos \alpha$ $e= a/s$

El valor del vector propio al cuadrado tiene el significado de la contribución de una variable en un pr. componente. La carga al cuadrado reescalada tiene el significado de la contribución de un pr. componente en una variable.

Relación con PCA basada en correlaciones. Si analizáramos con PCA no solo las variables centradas sino estandarizadas (centradas y luego en escalas de varianza unitaria), entonces los tres vectores variables (no sus proyecciones en el plano) serían de la misma longitud unitaria. Luego se deduce automáticamente que una carga es correlación , no covarianza, entre una variable y un componente. Pero esa correlación no será igual a la "carga estandarizada" de la imagen de arriba (basada en el análisis de variables centradas), porque PCA de variables estandarizadas (PCA basada en correlaciones) produce componentes diferentes que PCA de variables centradas ( PCA basado en covarianzas). En PCA basado en correlación $\cos \phi$ porque , pero los componentes principalesnosonlos mismoscomponentes principales que obtenemos de PCA basado en covarianzas (lectura,lectura). $a_1= \cos \phi$ $h=1$

En el análisis factorial , el diagrama de carga tiene básicamente el mismo concepto e interpretación que en PCA. La única (pero importante ) diferencia es la sustancia de . En el análisis factorial, , llamada entonces "comunalidad" de la variable, es la parte de su varianza que se explica por factores comunes que son responsables específicamente de las correlaciones entre las variables. Mientras que en PCA la porción explicada $h'$ $h'$ $h'$ es una "mezcla" grosera: en parte representa la correlación y en parte la falta de relación entre las variables. Con el análisis factorial, el plano de cargas en nuestra imagen se orientaría de manera diferente (en realidad, incluso se extenderá fuera del espacio de nuestras variables 3d a la 4ta dimensión, que no podemos dibujar; el plano de cargas no será un subespacio de nuestro Espacio 3d atravesado por y las otras dos variables), y la proyección será de otra longitud y con otro ángulo . (La diferencia teórica entre PCA y el análisis factorial se explica geométricamente aquí a través de la representación del espacio temático y aquí a través de la representación del espacio variable). $V$ $h'$ $\alpha$

Una respuesta a la solicitud de @Antoni Parellada en los comentarios. Es equivalente si prefiere hablar en términos devarianzao en términos dedispersión(SS de desviación): varianza = dispersión, dondees el tamaño de la muestra. Debido a que estamos tratando con un conjunto de datos con el mismo, la constante no cambia nada en las fórmulas. Sison los datos (con las variables V, W, U centradas), entonces la descomposición propia de su matriz de covarianza (A) produce los mismos valores propios (varianzas de componentes) y vectores propios que la descomposición propia de la matriz de dispersión (B) $\bf^{a,b}$ $/(n-1)$ $n$ $n$ $\bf X$ $\bf X'X$ obtenido después de la división inicial de por $\bf X$ factor. Después de eso, en la fórmula de una carga (ver la sección central de la respuesta),, el términoesst. desviación $\sqrt{n-1}$ $a_1 = h \cdot s_1 \cdot \cos \phi$ $h$ en (A) pero dispersión raíz (es decir, norma)en (B). El término, que equivale a,eselstestandarizado delcomponente. desviación $\sqrt{var_{V}}$ $\Vert V \Vert$ $s_1$ $1$ $F_1$ en (A) pero dispersión raízen (B). Finalmente,es la correlación quees insensibleal uso deen sus cálculos. Por lo tanto, simplementehablamosconceptualmente de las variaciones (A) o de las dispersiones (B), mientras que los valores mismos permanecen iguales en la fórmula en ambos casos. $\sqrt{var_{F_1}}$ $\Vert F_1 \Vert$ $\cos \phi = r$ $n-1$

— ttnphns
fuente

α

$\alpha$

@ssdecontrol, agregué una línea al respecto.

— ttnphns

a_{1} = \sqrt{v a r_{V} \cdot v a r_{F 1}} \cdot r = h \cdot 1 \cdot \cos ϕ

$a_1 = \sqrt{var_{V} \cdot var_{F1}} \cdot r = h \cdot 1 \cdot \cos \phi$

r = c o s ϕ

$r=cos\phi$

\sqrt{v a r F 1} = 1

$\sqrt{var{F1}}=1$

\sqrt{v a r_{V}} = h

$\sqrt{var_V}=h$

h = ‖ V ‖ = \sqrt{\sum x^{2}}

$h=\Vert V\Vert= \sqrt{\sum x^2}$

\sqrt{v a r_{V}} = \sqrt{\frac{\sum x^{2}}{n - 1}}

$\sqrt{var_V}=\sqrt{\frac{\sum x^2}{n-1}}$

@AntoniParellada, por favor revise la nota al pie.

— ttnphns

F_{1}

$F_1$