La pregunta parece pedir una demostración de que la Regresión de Ridge reduce las estimaciones de coeficientes hacia cero, utilizando una descomposición espectral. La descomposición espectral se puede entender como una consecuencia fácil de la descomposición del valor singular (SVD). Por lo tanto, esta publicación comienza con SVD. Lo explica en términos simples y luego lo ilustra con aplicaciones importantes. Luego proporciona la demostración solicitada (algebraica). (El álgebra, por supuesto, es idéntico a la demostración geométrica; simplemente está redactado en un idioma diferente).
La fuente original de esta respuesta se puede encontrar en mis notas del curso de regresión . Esta versión corrige algunos errores menores.
¿Qué es la SVD?
Cualquier matriz , con , se puede escribir dondeX p ≤ n X = U D V ′n×pXp≤n
X=UDV′
n × pU es una matriz .n×p
- Las columnas de tienen longitud .1U1
- Las columnas de son mutuamente ortogonales.U
- Se llaman los principales componentes de .X
p × pV es una matriz .p×p
- Las columnas de tienen longitud .1V1
- Las columnas de son mutuamente ortogonales.V
- Esto hace que sea una rotación de .R pVRp
p × pD es una matriz diagonal .p×p
- Los elementos diagonales no son negativos. Estos son los valores singulares de . Xd11,d22,…,dppX
- Si lo deseamos, podemos ordenarlos de mayor a menor.
Los criterios (1) y (2) afirman que tanto como son matrices ortonormales . Pueden resumirse perfectamente por las condicionesVUV
U′U=1p, V′V=1p.
Como consecuencia (que representa una rotación), también. Esto se usará en la derivación de Regresión de cresta a continuación.V V ′ = 1 pVVV′=1p
Lo que hace por nosotros
Puede simplificar fórmulas. Esto funciona tanto algebraicamente como conceptualmente. Aquí hay unos ejemplos.
Las ecuaciones normales
Considere la regresión donde, como de costumbre, los son independientes e idénticamente distribuidos de acuerdo con una ley que tiene expectativa cero y varianza finita . La solución de mínimos cuadrados a través de las Ecuaciones normales es Aplicar la SVD y simplificar el desorden algebraico resultante (que es fácil) proporciona una buena idea:varepsilon sigma 2 β = ( X ' X ) - 1 X ' y .y=Xβ+εεσ2
β^=(X′X)−1X′y.
(X′X)−1X′=((UDV′)′(UDV′))−1(UDV′)′=(VDU′UDV′)−1(VDU′)=VD−2V′VDU′=VD−1U′.
¡La única diferencia entre esto y es que se usan los recíprocos de los elementos de ! En otras palabras, la "ecuación" se resuelve "invirtiendo" : esta pseudoinversión deshace las rotaciones y (simplemente transponiéndolas) y deshace la multiplicación (representada por ) por separado en cada dirección principal.X′=VDU′Dy=XβXUV′D
Para referencia futura, observe que las estimaciones "rotadas" son combinaciones lineales de respuestas "rotadas" . Los coeficientes son inversos de los elementos diagonales (positivos) de , iguales a .V′β^U′yDd−1ii
Covarianza de las estimaciones de coeficientes.
Recuerde que la covarianza de las estimaciones es Usando el SVD, esto se convierte en En otras palabras, la covarianza actúa como la de variables ortogonales , cada una con varianzas , que se han rotado en .
Cov(β^)=σ2(X′X)−1.
σ2(VD2V′)−1=σ2VD−2V′.
k d2iiRk
La matriz del sombrero
La matriz del sombrero esPor medio del resultado anterior podemos reescribirlo como¡Sencillo!
H=X(X′X)−1X′.
H=(UDV′)(VD−1U′)=UU′.
Análisis propio (descomposición espectral)
Dado que y es inmediato que
X′X=VDU′UDV′=VD2V′
XX′=UDV′VDU′=UD2U′,
- Los valores propios de y son los cuadrados de los valores singulares.X′XXX′
- Las columnas de son los vectores propios de .VX′X
- Las columnas de son algunos de los vectores propios de . (Existen otros vectores propios pero corresponden a valores propios cero).UXX′
SVD puede diagnosticar y resolver problemas de colinealidad.
Aproximando los regresores
Cuando reemplace los valores singulares más pequeños con ceros, cambiará el producto solo ligeramente. Ahora, sin embargo, los ceros eliminan las columnas correspondientes de , reduciendo efectivamente el número de variables. Siempre que esas columnas eliminadas tengan poca correlación con , esto puede funcionar efectivamente como una técnica de reducción variable.UDV′Uy
Regresión de cresta
Deje que las columnas de sean estandarizadas, así como la propia . (Esto significa que ya no necesitamos una columna constante en ). Para el estimador de cresta es XyXλ>0
β^R=(X′X+λ)−1X′y=(VD2V′+λ1p)−1VDU′y=(VD2V′+λVV′)−1VDU′y=(V(D2+λ)V′)−1VDU′y=V(D2+λ)−1V′VDU′y=V(D2+λ)−1DU′y.
La diferencia entre este y es la sustitución de por . β^D−1=D−2D(D2+λ)−1DEn efecto, esto multiplica el original por la fracción . Debido a que (cuando ) el denominador es obviamente mayor que el numerador, el parámetro estima "reducir hacia cero".D2/(D2+λ)λ>0
Este resultado debe entenderse en el sentido algo sutil aludido anteriormente: las estimaciones rotadas siguen siendo combinaciones lineales de los vectores , pero cada coeficiente, que solía ser ha multiplicado por un factor de . Como tal, los coeficientes rotados deben reducirse, pero es posible, cuando es suficientemente pequeño, para que algunos de los realmente aumenten de tamaño.V′β^RU′yd−1iid2ii/(d2ii+λ)λβ^R
Para evitar distracciones, se excluyó el caso de uno de más valores singulares cero en esta discusión. En tales circunstancias, si convencionalmente tomamos " " como cero,d−1ii entonces todo sigue funcionando. Esto es lo que sucede cuando se usan inversas generalizadas para resolver las ecuaciones normales.