Déjame comenzar con PCA. Suponga que tiene n puntos de datos compuestos de d números (o dimensiones) cada uno. Si centra estos datos (resta el punto medio de datos de cada vector de datos ) puede apilar los datos para hacer una matrizμxi
X=⎛⎝⎜⎜⎜⎜⎜⎜xT1−μTxT2−μT⋮xTn−μT⎞⎠⎟⎟⎟⎟⎟⎟.
La matriz de covarianza
S=1n−1∑i=1n(xi−μ)(xi−μ)T=1n−1XTX
medidas en qué grado las diferentes coordenadas en las que se proporcionan sus datos varían juntas. Por lo tanto, tal vez no sea sorprendente que PCA, que está diseñado para capturar la variación de sus datos, se pueda dar en términos de la matriz de covarianza. En particular, la descomposición del valor propio de resulta serS
S=VΛVT=∑i=1rλivivTi,
donde es el -ésimo componente principal , o PC, y es el -ésimo valor propio de y también es igual a la varianza de los datos a lo largo de la -ésima PC. Esta descomposición proviene de un teorema general de álgebra lineal, y algunos trabajos no tienen que hacer para motivar al relatino a PCA.viiλiiSi
SVD es una forma general de entender una matriz en términos de su espacio de columna y espacio de fila. (Es una forma de reescribir cualquier matriz en términos de otras matrices con una relación intuitiva con el espacio de filas y columnas). Por ejemplo, para la matriz podemos encontrar direcciones y en el dominio y rango para queA=(1021)uivi
Puede encontrarlos considerando cómo como transformación lineal transforma una esfera de unidad en su dominio en una elipse: los semiejes principales de la elipse se alinean con y son sus preimágenes.ASuivi
En cualquier caso, para la matriz de datos anterior (realmente, solo configure ), SVD nos permite escribirXA=X
X=∑i=1rσiuivTj,
donde y son conjuntos de vectores ortonormales. Una comparación con la descomposición del valor propio de revela que los "vectores singulares derechos" son iguales a las PC, los "vectores singulares derechos" son{ v i } S v i{ui}{vi}Svi
ui=1(n−1)λi−−−−−−−−√Xvi,
y los "valores singulares" están relacionados con la matriz de datos a través deσi
σ2i=(n−1)λi.
Es un hecho general de que los vectores singulares derecha abarcan todo el espacio de la columna de . En este caso específico, nos da una proyección a escala de los datos en la dirección del -ésimo componente principal. Los vectores singulares izquierdos en general abarcan el espacio de filas de , lo que nos da un conjunto de vectores ortonormales que abarcan los datos de manera muy similar a las PC. X u i X i v i XuiXuiXiviX
Entro en más detalles y beneficios de la relación entre PCA y SVD en este artículo más largo .