Lo que se entiende por varianza en varias dimensiones ("varianza total") es simplemente una suma de varianzas en cada dimensión. Matemáticamente, es un rastro de la matriz de covarianza: el rastro es simplemente una suma de todos los elementos diagonales. Esta definición tiene varias propiedades agradables, por ejemplo, la traza es invariante bajo transformaciones lineales ortogonales, lo que significa que si gira sus ejes de coordenadas, la varianza total permanece igual.
Lo que se prueba en el libro de Bishop (sección 12.1.1), es que el vector propio líder de la matriz de covarianza da la dirección de la varianza máxima. El segundo vector propio proporciona la dirección de la varianza máxima bajo una restricción adicional de que debe ser ortogonal al primer vector propio, etc. (creo que esto constituye el ejercicio 12.1). Si el objetivo es maximizar la varianza total en el subespacio 2D, entonces este procedimiento es una maximización codiciosa: primero elija un eje que maximice la varianza, luego otro.
Su pregunta es: ¿por qué este codicioso procedimiento obtiene un máximo global?
Aquí hay un buen argumento que @whuber sugirió en los comentarios. Primero alineemos el sistema de coordenadas con los ejes PCA. La matriz de covarianza se convierte en diagonal: . Para simplificar, consideraremos el mismo caso 2D, es decir, ¿cuál es el plano con la varianza total máxima? Queremos demostrar que es el plano dado por los dos primeros vectores básicos (con varianza total ).Σ=diag(λi)λ1+λ2
Considere un plano atravesado por dos vectores ortogonales y . La varianza total en este plano esPor lo tanto, es una combinación lineal de valores propios con coeficientes que son todos positivos, no exceden (ver más abajo) y suman . Si es así, es casi obvio que el máximo se alcanza en .uv
u⊤Σu+v⊤Σv=∑λiu2i+∑λiv2i=∑λi(u2i+v2i).
λi12λ1+λ2
Solo queda mostrar que los coeficientes no pueden exceder . Observe que , donde es el -ésimo vector base. Esta cantidad es una longitud al cuadrado de una proyección de en el plano atravesado por y . Por lo tanto, debe ser menor que la longitud al cuadrado de que es igual a , QED.1u2k+v2k=(u⋅k)2+(v⋅k)2kkkuvk|k|2=1
Ver también la respuesta de @ cardinal a ¿Cuál es la función objetivo de PCA? (Sigue la misma lógica).