¿Por qué la traza de


13

En el modelo y=Xβ+ϵ , podríamos estimar β utilizando la ecuación normal:

β^=(XX)1Xy,
y podríamos obtener y =X β .
y^=Xβ^.

El vector de residuos se estima por

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ,

donde

Q=IX(XX)1X.

Mi pregunta es cómo obtener la conclusión de

tr(Q)=np.

Respuestas:


12

La conclusión simplemente cuenta las dimensiones de los espacios vectoriales. Sin embargo, generalmente no es cierto.

Las propiedades más básicas de la multiplicación de matrices muestran que la transformación lineal representada por la matriz satisfaceH=X(XX)X

H2=(X(XX)X)2=X(XX)(XX)(XX)X=H,

exponiéndolo como operador de proyección . Por eso su complemento

Q=1H

(como se indica en la pregunta) también es un operador de proyección. El rastro de es su rango h (ver abajo), de donde el rastro de Q es igual a n - h .HhQnh

A partir de su fórmula misma, es evidente que es la matriz asociada con la composición de dos transformaciones lineales J = ( X ' X ) - X ' y X en sí. El primero ( J ) transforma el n -vector y en el p -vector β . El segundo ( X ) es una transformación de R p a R n dado por Y = X βH

J=(XX)X
XJnypβ^XRpRny^=Xβ^. Su rango no puede exceder la menor de esas dos dimensiones, que en una configuración de mínimos cuadrados siempre es (pero podría ser menor que p , siempre que J no sea de rango completo). En consecuencia, el rango de la composición H = X J no puede exceder el rango de X . La conclusión correcta , entonces, esppJH=XJX

si y solo si J es de rango completo; y en general n tr ( Q ) n - p . En el primer caso, se dice que el modelo es "identificable" (para los coeficientes de β ).tr(Q)=npJntr(Q)npβ

será de rango completo si y solo si X X es invertible.JXX


Interpretación geométrica

representa la proyección ortogonal de n -vectores y (que representa la "respuesta" o "variable dependiente") en el espacio atravesado por las columnas de X (que representa las "variables independientes" o "covariables"). La diferencia Q = 1 - H muestra cómo descomponer cualquiervector n y en una suma de vectores y = H ( y ) + Q ( y ) , donde el primero se puede "predecir" a partir de X y el segundo es perpendicular a él . Cuando el pHnyXQ=1Hny

y=H(y)+Q(y),
Xplas columnas de generan un espacio p -dimensional (es decir, no son colineales), el rango de H es p y el rango de Q es n - p , lo que refleja las dimensiones adicionales de variación n - p en la respuesta que no están representadas dentro de las variables independientes. La traza da una fórmula algebraica para estas dimensiones.XpHpQnpnp

Fondo de álgebra lineal

Un operador de proyección en un espacio vectorial (tal como R n ) es una transformación lineal P : V V (es decir, un endomorfismo de V ) de tal manera que P 2 = P . Esto hace que su complemento Q = 1 - P sea un operador de proyección, también, porqueVRnP:VVVP2=PQ=1P

Q2=(1P)2=12P+P2=12P+P=Q.

Todas las proyecciones fijar cada elemento de sus imágenes, para cada vez que podemos escribir v = P ( w ) para algunos w V , de donde w = P ( v ) = P 2 ( v ) = P ( P ( v ) ) = P ( w ) .vIm(P)v=P(w)wV

w=P(v)=P2(v)=P(P(v))=P(w).

Asociados con cualquier endomorfismo de V hay dos subespacios: su kernel ker ( P ) = { v vPV y suimagen Im ( P ) = { v v

ker(P)={vv|P(v)=0}
Cada vector v V puede escribirse en la forma v = w + u donde w Im ( P ) y u Ker ( P ) . Por lo tanto, podemos construir una base E F para V para la cual E Ker ( P ) y F (
Im(P)={vv|wVP(w)=v}.
vV
v=w+u
wIm(P)uKer(P)EFVEKer(P) . Cuando V es de dimensión finita, la matriz de P en esta base estará, por lo tanto, en forma de bloque diagonal, con un bloque (correspondiente a la acción de P sobre E ) todos ceros y el otro (correspondiente a la acción de P sobre F ) igual a lamatriz de identidad f por f , donde la dimensión de F es f . La traza de P es la suma de los valores en la diagonal y, por lo tanto, debe ser igual a f × 1 = f . Este número es elrangode PFIm(P)VPPEPFffFfPf×1=fP: la dimensión de su imagen.

La traza de es igual a la traza de 1 (igual a n , la dimensión de V ) menos el rastro de P .1P1nVP

Estos resultados pueden resumirse con la afirmación de que la traza de una proyección es igual a su rango.


Muchas gracias. Aprendí mucho conocimiento extendido de tu respuesta.
zhushun0008

19

@Dougal ya ha dado una respuesta, pero aquí hay otra, un poco más simple.

tr(AB)=tr(A)tr(B)

tr(Q)=tr(I)tr(X(XX)1X).
In×ntr(I)=ntr(AB)=tr(BA)
tr(Q)=ntr((XX)1(XX)).
(XX)-1 con (XX), tenemos un pag×pag matriz de identidad, cuyo rastro es pag. Entonces, obtenemos:
tr(Q)=np.

6

Assume that np and that X is full-rank.

Consider the compact singular value decomposition X=UΣVT, where ΣRp×p is diagonal and URn×p,VRp×p have UTU=VTV=VVT=Ip (but note UUT is rank at most p so it cannot be In). Then

X(XTX)1XT=UΣVT(VΣUTUΣVT)1VΣUT=UΣVT(VΣ2VT)1VΣUT=UΣVTVΣ2VTVΣUT=UUT.

Now, there exists a matrix U2Rn×np such that Un=[UU2] is unitary. We can write

IX(XTX)1XT=UnUnTUUT=Un(In[Ip000])UnT=Un[000Inp]UnT.
This form shows that Q is positive semidefinite, and since it is a valid svd and the singular values are the square of the eigenvalues for a square symmetric matrix, also tells us that Q has eigenvalues 1 (of multiplicity np) and 0 (of multiplicity p). Thus the trace of Q is np.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.