Respuestas:
PCA viene dada por la misma descomposición de valores singulares cuando los datos están centrados. son componentes principales, son ejes principales, es decir, vectores propios de la matriz de covarianza, y la reconstrucción de con solo los componentes principales correspondientes a los valores singulares más grandes está dada por .
El teorema de Eckart-Young dice que es la matriz que minimiza la norma del error de reconstrucciónentre todas las matrices de rango . Esto es cierto tanto para la norma Frobenius como para el operador -norm. Como señaló @cardinal en los comentarios, Schmidt (de la fama de Gram-Schmidt) demostró por primera vez en 1907 para el caso Frobenius. Más tarde fue redescubierto por Eckart y Young en 1936 y ahora está asociado principalmente con sus nombres. Mirsky generalizó el teorema en 1958 a todas las normas que son invariables bajo transformaciones unitarias, y esto incluye el operador 2-norma.
Este teorema a veces se llama teorema de Eckart-Young-Mirsky. Stewart (1993) lo llama teorema de aproximación de Schmidt. Incluso lo he visto llamado teorema de Schmidt-Eckart-Young-Mirsky.
Deje ser de rango completo . Como es de rango , su espacio nulo tiene dimensiones. El espacio que abarcan los vectores singulares derechos de correspondientes a los valores singulares más grandes tiene dimensiones. Entonces estos dos espacios deben cruzarse. Sea un vector unitario desde la intersección. Luego obtenemos: QED.
Queremos encontrar la matriz de rango que minimice . Podemos factorizar , donde tiene columnas ortonormales. Minimizar para fijo es un problema de regresión con la solución . Al enchufarlo, vemos que ahora necesitamos minimizar donde es la matriz de covarianza de , es decir,
Es bien sabido que estos son los primeros vectores propios de la matriz de covarianza. De hecho, si , entonces . Escribiendo que también tiene columnas ortonormales, obtenemos con el máximo alcanzado cuando . El teorema entonces sigue inmediatamente.
Consulte los siguientes tres hilos relacionados:
Esta prueba la encontré en algún lugar en línea pero está mal (contiene un vacío), como explica @cardinal en los comentarios.
La norma de Frobenius es invariante bajo transformaciones unitarias, porque no cambian los valores singulares. Entonces obtenemos: donde . Continuando:Esto se minimiza cuando todos los elementos fuera de la diagonal de son cero y todos los términos diagonales cancelan los valores singulares más grandes [espacio aquí: esto no es obvio] , es decir, y, por lo tanto, .