Hay muchas formas diferentes de producir un biplot PCA y, por lo tanto, no hay una respuesta única a su pregunta. Aquí hay una breve descripción general.
Suponemos que la matriz de datos tiene n puntos de datos en filas y está centrada (es decir, las medias de columna son todas cero). Por ahora, no suponemos que esté estandarizado, es decir, consideramos PCA en la matriz de covarianza (no en la matriz de correlación). PCA equivale a una descomposición de valor singular X = U S V ⊤ , puede ver mi respuesta aquí para más detalles: Relación entre SVD y PCA. ¿Cómo usar SVD para realizar PCA?Xn
X=USV⊤,
En un biplot PCA, dos primeros componentes principales se trazan como un diagrama de dispersión, es decir, la primera columna de se traza contra su segunda columna. Pero la normalización puede ser diferente; Por ejemplo, uno puede usar:U
- Columnas de : estos son componentes principales escalados a la unidad de suma de cuadrados;U
- Columnas de : estos son componentes principales estandarizados (varianza unitaria);n−1−−−−−√U
- Columnas de : estos son componentes principales "en bruto" (proyecciones en direcciones principales).US
Además, las variables originales se trazan como flechas; es decir, coordenadas de una i -ésima flecha punto final están dados por la i valor-ésimo en la primera y segunda columna de V . Pero de nuevo, uno puede elegir diferentes normalizaciones, por ejemplo:(x,y)iiV
- Columnas de : No sé qué interpretación podría ser aquí;VS
- Columnas de : estas son cargas;VS/n−1−−−−−√
- Columnas de : estos son ejes principales (también conocidos como direcciones principales, también conocidos como vectores propios).V
Así es como se ve todo eso para el conjunto de datos de Fisher Iris:
9XUSαβVS(1−α)/β9 son "biplots apropiados": es decir, una combinación de cualquier subtrama de arriba con la que está directamente debajo.
[Cualquiera sea la combinación que se use, podría ser necesario escalar las flechas por algún factor constante arbitrario para que tanto las flechas como los puntos de datos aparezcan aproximadamente en la misma escala.]
VS/n−1−−−−−√Un−1−−−−−√
Es probable que esta [opción particular] proporcione la ayuda gráfica más útil para interpretar matrices de observaciones multivariadas, siempre que, por supuesto, se puedan aproximar adecuadamente en el rango dos.
USV
US
biplot
UVSbiplot
0.8biplot
n/(n−1)1Flechas de variables subyacentes en PCA biplot en R. )
PCA en matriz de correlación
X1
1R=1
Otras lecturas: