Am×nm≥nvAv1=argmaxv∈Rn∥Av∥2subject to ∥v∥2=1.(1)
v1Av2=argmaxv∈Rn∥Av∥2subject to ⟨v1,v⟩=0,∥v∥2=1.
v1,…,vnRnRnA
Sea (entonces cuantifica el poder explosivo de en la dirección ). Suponga que los vectores unitarios están definidos de modo que
Las ecuaciones (2) se pueden expresar de manera concisa usando la notación matricial como
donde es la matriz cuya th columna es , es la matriz cuyo La columna es yσi=∥Avi∥2σiAviuiAvi=σiuifor i=1,…,n.(2)
AV=UΣ,(3)
Vn×niviUm×niuiΣes la matriz diagonal cuya entrada diagonal es . La matriz es ortogonal, por lo que podemos multiplicar ambos lados de (3) por para obtener
Puede parecer que ahora hemos derivado la SVD de con casi cero esfuerzo. Ninguno de los pasos hasta ahora ha sido difícil. Sin embargo, falta una parte crucial de la imagen: todavía no sabemos si es ortogonal.n×niσiVVTA=UΣVT.
AU
Aquí está el hecho crucial, la pieza que falta: resulta que es ortogonal a :
Afirmo que si esto no fuera cierto, entonces no sería óptimo para el problema (1). De hecho, si (4) no estuviera satisfecho, entonces sería posible mejorar perturbándolo un poco en la dirección .Av1Av2⟨Av1,Av2⟩=0.(4)
v1 v1v2
Suponga (por contradicción) que (4) no está satisfecho. Si se perturba ligeramente en la dirección ortogonal , la norma de no cambia (o al menos, el cambio en la norma de es insignificante). Cuando camino sobre la superficie de la tierra, mi distancia desde el centro de la tierra no cambia. Sin embargo, cuando se perturba en la dirección , el vector se perturba en la dirección no ortogonal , por lo que el cambio en la norma de no es despreciable . La norma dev1v2v1v1v1v2Av1Av2Av1Av1se puede aumentar en una cantidad no despreciable. Esto significa que no es óptimo para el problema (1), lo cual es una contradicción. Me encanta este argumento porque: 1) la intuición es muy clara; 2) la intuición puede convertirse directamente en una prueba rigurosa.v1
Un argumento similar muestra que es ortogonal a y , y así sucesivamente. Los vectores son ortogonales por pares. Esto significa que los vectores unitarios se pueden elegir para ser ortogonales por pares, lo que significa que la matriz anterior es una matriz ortogonal. Esto completa nuestro descubrimiento de la SVD.Av3Av1Av2Av1,…,Avnu1,…,unU
Para convertir el argumento intuitivo anterior en una prueba rigurosa, debemos confrontar el hecho de que si se perturba en la dirección , el vector perturbado
no es realmente un vector unitario. (Su norma es .) Para obtener una prueba rigurosa, defina
El vector es realmente un vector unitario. Pero como puede mostrar fácilmente, si (4) no está satisfecho, entonces para valores suficientemente pequeños de tenemos
(suponiendo que el signo dev1v2v~1=v1+ϵv2
1+ϵ2−−−−−√v¯1(ϵ)=1−ϵ2−−−−−√v1+ϵv2.
v¯1(ϵ)ϵf(ϵ)=∥Av¯1(ϵ)∥22>∥Av1∥22
ϵse elige correctamente). Para mostrar esto, simplemente verifique que . Esto significa que no es óptimo para el problema (1), lo cual es una contradicción.f′(0)≠0v1
(Por cierto, recomiendo leer la explicación de Qiaochu Yuan de la SVD aquí . En particular, eche un vistazo al "Lema clave # 1", que es lo que discutimos anteriormente. Como dice Qiaochu, el lema clave # 1 es "el corazón técnico de descomposición de valor singular ".)