El estimador imparcial de la matriz de covarianza muestral dado n puntos de datos xi∈Rd es donde ˉ x =∑xi/nes el promedio de todos los puntos. Denotemos(xi- ˉ x )comozi. El1
C=1n−1∑i=1n(xi−x¯)(xi−x¯)⊤,
x¯=∑xi/n(xi−x¯)zi factor
n - 1 no cambia el rango, y cada término en la suma tiene (por definición) el rango
1, por lo que el núcleo de la pregunta es el siguiente:
1n−11
¿Por qué tengo rango n - 1 y no rango n , como parece porque estamos sumando n Rank- 1 matrices?∑ziz⊤in−1nn1
La respuesta es que sucede porque no es independiente. Por construcción, ∑ z i = 0 . Entonces, si conoce n - 1 de z i , entonces el último z n restante está completamente determinado; no estamos sumando n independientes Rank- 1 matrices, estamos sumando solamente n - 1 independientes Rank- 1 matrices y luego la adición de uno más Rank- 1 matriz que está totalmente determinado linealmente por el resto. Esta última adición no cambia el rango general.zi∑zi=0n−1ziznn1n−111
Podemos ver esto directamente si reescribimos como z n = - n - 1 ∑ i = 1 z i , y ahora lo conectamos a la expresión anterior: n ∑ i = 1 z i z ⊤ i = n - 1 ∑ i = 1 z i z ⊤ i + ( - n - 1 ∑ i = 1∑zi=0
zn=−∑i=1n−1zi,
Ahora solo quedan n - 1 términos en la suma y queda claro que toda la suma puede tener como máximo el rango n - 1 .∑i=1nziz⊤i=∑i=1n−1ziz⊤i+(−∑i=1n−1zi)z⊤n=∑i=1n−1zi(zi−zn)⊤.
n−1n−1
Este resultado, por cierto, sugiere por qué el factor en el estimador imparcial de covarianza es y no11n−1 .1n
La intuición geométrica a la que aludí en los comentarios anteriores es que siempre se puede ajustar una línea 1D a dos puntos en 2D y siempre se puede ajustar un plano 2D a tres puntos en 3D, es decir, la dimensionalidad del subespacio siempre es ; esto solo funciona porque suponemos que esta línea (y plano) se puede "mover" para ajustar nuestros puntos. "Posicionar" esta línea (o plano) de modo que pase a través de ˉ x es equivalente a centrarse en el argumento algebraico anterior.n−1x¯