Sin tratar de dar una cartilla completa sobre PCA, desde el punto de vista de la optimización, la función objetivo principal es el cociente de Rayleigh . La matriz que figura en el cociente es (algún múltiplo de) la matriz de covarianza de muestra
, donde cada es un vector de características y es la matriz de tal manera que el -ésimo renglón es .
S=1n∑i=1nxixTi=XTX/n
xipXixTi
PCA busca resolver una secuencia de problemas de optimización. El primero en la secuencia es el problema sin restricciones
maximizeuTSuuTu,u∈Rp.
Desde, el problema sin restricciones anterior es equivalente al problema restringido
uTu=∥u∥22=∥u∥∥u∥
maximizesubject touTSuuTu=1.
Aquí es donde entra el álgebra matricial. Dado que es una matriz semidefinida positiva simétrica (¡por construcción!) Tiene una descomposición de valor propio de la forma
donde es un matriz ortogonal (entonces ) y es una matriz diagonal con entradas no negativas tal que .S
S=QΛQT,
QQQT=IΛλiλ1≥λ2≥⋯≥λp≥0
Por lo tanto, . Como está limitado en el problema a tener una norma de uno, entonces también lo está ya que , en virtud de que es ortogonal.uTSu=uTQΛQTu=wTΛw=∑pi=1λiw2iuw∥w∥2=∥QTu∥2=∥u∥2=1Q
Pero, si queremos maximizar la cantidad bajo las restricciones que , entonces lo mejor que podemos hacer es set , es decir, y para .∑pi=1λiw2i∑pi=1w2i=1w=e1w1=1wi=0i>1
Ahora, retrocediendo el correspondiente , que es lo que buscamos en primer lugar, obtenemos que
donde denota la primera columna de , es decir, el vector propio que corresponde al valor propio más grande de . El valor de la función objetivo también se ve fácilmente como .u
u⋆=Qe1=q1
q1QSλ1
Los restantes vectores componentes principales se encuentran resolviendo la secuencia (indexada por ) de los problemas de optimización
Entonces, el problema es el mismo, excepto que agregamos la restricción adicional de que la solución debe ser ortogonal a todas las soluciones anteriores en la secuencia. No es difícil extender el argumento anterior inductivamente para demostrar que la solución de la ésimo problema es, de hecho, , el ésimo vector propio de .i
maximizesubject touTiSuiuTiui=1uTiuj=0∀1≤j<i.
iqiiS
La solución PCA también se expresa a menudo en términos de la descomposición del valor singular de . Para ver por qué, vamos a . Entonces y así (estrictamente hablando, hasta firmar flips) y .XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n
Los componentes principales se encuentran proyectando en los vectores de componentes principales. De la formulación SVD recién dada, es fácil ver que
X
XQ=XV=UDVTV=UD.
La simplicidad de la representación de los vectores componentes principales y los componentes principales en sí mismos en términos de la SVD de la matriz de características es una de las razones por las cuales la SVD se destaca tan prominentemente en algunos tratamientos de PCA.