Esta es una pregunta interesante. Sorprendentemente, es posible hacer algo bajo ciertos supuestos, pero existe una posible pérdida de información sobre la varianza residual. Depende de X cuánto se pierde.
Consideremos la siguiente descomposición de valores singulares X=UDVt de X con U una matriz n×p con columnas ortonormales, D una matriz diagonal con valores singulares positivos d1≥d2≥...≥dp>0 en la diagonal y V a p×p matriz ortogonal. Luego, las columnas de U forman una base ortonormal para el espacio de columnas de Xy
Z=UtY=D−1VtVDUtY=D−1VtXtY
es el vector de coeficientes para la proyección de
Y en este espacio de columna cuando se expande en la base de la columna
UDe la fórmula vemos que
Z es computable a partir del conocimiento de
X y
XtY solamente.
Dado que el predictor cresta de regresión para un determinado puede calcularse como
Y = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z
vemos que los coeficientes para el predictor de regresión de cresta en elλ
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
base -column son
Z = D ( D 2 + λ I ) - 1 D Z .
Ahora hacemos la suposición distributiva de que
Y tiene unamedia
n- dimensional
ξ y una matriz de covarianza
σ 2 I n . Entonces
Z tiene
p -dimensional media
U t ξ y matriz de covarianza
σ 2 I p . Si imaginamos una
Y nueva independiente
UZ^=D(D2+λI)−1DZ.
Ynξσ2InZpUtξσ2IpYNewcon la misma distribución que
(todo condicionalmente en
X a partir de aquí) el
Z New correspondiente
= U t Y New tiene la misma distribución que
Z y es independiente y
E | El | Y Nueva - Y | El | 2YXZNew=UtYNewZ
Aquí la tercera igualdad sigue por la ortogonalidad de
YNueva-UZNuevay
TZNueva-U Z y el cuarto por el hecho de que
Ttiene columnas ortonormales. La cantidad
Err0es un error sobre el que no podemos obtener información, pero no depende de
λE||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^UErr0λya sea. Para minimizar el error de predicción en el lado izquierdo, tenemos que minimizar el segundo término en el lado derecho.
Por un cálculo estándar
Aquídf(λ)se conoce como los grados efectivos de libertad para la regresión de crestas con el parámetroλ. Un estimador imparcial deE| El | Z-Z| El | 2es
err(λ)=| El | Z-Z| El | 2=p∑i=1(1
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
σ2
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
Thus if it is possible to choose
λ so small that the squared bias can be ignored we can try to estimate
σ2 as
σ^2=1p−d(λ)||Z−Z^||2.
If this will work depends a lot on
X.
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.