Podemos probar esto para un caso más general de variables utilizando la "matriz de sombreros" y algunas de sus propiedades útiles. Estos resultados suelen ser mucho más difíciles de establecer en términos no matriciales debido al uso de la descomposición espectral.p
Ahora en la versión matricial de mínimos cuadrados, la matriz del sombrero es donde tiene filas y columnas (columna de unos para ). Asuma el rango completo de la columna por conveniencia; de lo contrario, podría reemplazar por el rango de la columna de a continuación. Podemos escribir los valores ajustados como o en notación matricial . Usando esto, podemos escribir la suma de cuadrados como:H=X(XTX)−1XTXnp+1β0p+1XY^i=∑nj=1HijYjY^=HY
∑i=1(Y−Yi^)2σ2=(Y−Y^)T(Y−Y^)σ2=(Y−HY)T(Y−HY)σ2
=YT(In−H)Yσ2
Donde es una matriz de identidad de orden . El último paso se deduce del hecho de que es una matriz idepotente, comoInnH
H2=[X(XTX)−1XT][X(XTX)−1XT]=X(XTX)−1XT=H=HHT=HTH
Ahora, una propiedad clara de las matrices idepotentes es que todos sus valores propios deben ser iguales a cero o uno. Dejando que denote un vector propio normalizado de con valor propio , podemos probar esto de la siguiente manera:eHl
He=le⟹H(He)=H(le)
LHS=H2e=He=leRHS=lHe=l2e
⟹le=l2e⟹l=0 or 1
(tenga en cuenta que no puede ser cero ya que debe satisfacer ) Ahora porque es idepotente, también lo es, porqueeeTe=1HIn−H
(In−H)(In−H)=I−IH−HI+H2=In−H
También tenemos la propiedad de que la suma de los valores propios es igual a la traza de la matriz, y
tr(In−H)=tr(In)−tr(H)=n−tr(X(XTX)−1XT)=n−tr((XTX)−1XTX)
=n−tr(Ip+1)=n−p−1
Por lo tanto, debe tener valores propios iguales a y valores propios iguales a .I−Hn−p−11p+10
Ahora podemos usar la descomposición espectral de donde y es ortogonal (porque es simétrica). Una propiedad adicional que es útil es que . Esto ayuda a reducir la matrizI−H=ADATD=(In−p−10[p+1]×[n−p−1]0[n−p−1]×[p+1]0[p+1]×[p+1])AI−HHX=XA
HX=X⟹(I−H)X=0⟹ADATX=0⟹DATX=0
⟹(ATX)ij=0i=1,…,n−p−1j=1,…,p+1
y obtenemos:
∑i=1(Y−Yi^)2σ2=YTADATYσ2=∑n−p−1i=1(ATY)2iσ2
Ahora, bajo el modelo tenemos y usando la teoría normal estándar tenemos que muestra que los componentes de son independientes. Ahora, usando el resultado útil, tenemos que para . La distribución de chi-cuadrado con grados de libertad para la suma de los errores al cuadrado sigue inmediatamente.Y∼N(Xβ,σ2I)ATY∼N(ATXβ,σ2ATA)∼N(ATXβ,σ2I)ATY(ATY)i∼N(0,σ2)i=1,…,n−p−1n−p−1