Sea la matriz predictora centrada y considere su descomposición en valores singulares con siendo una matriz diagonal con elementos diagonales . n × p X = U S V ⊤ S s iXn×pX=USV⊤Ssi
Los valores ajustados de la regresión de mínimos cuadrados ordinarios (MCO) están dados porLos valores ajustados de la regresión de cresta están dados porLos valores ajustados de la regresión PCA (PCR) con componentes están dados porY ridge=Xβridge=X(X⊤X+λI)-1X⊤y=U
y^OLS=XβOLS=X(X⊤X)−1X⊤y=UU⊤y.
k y PCR=XPCAβPCR=Uy^r i d g e= X βr i d g e= X ( X⊤X +λ I )- 1X⊤y = Ud i a g { s2yos2yo+ λ} U⊤y .
ky^P C R= XP C AβP C R= Ud i a g { 1 , ... , 1 , 0 , ... 0 } U⊤Y ,
donde hay unos seguidos de ceros.
k
Desde aquí podemos ver que:
Si entonces .λ = 0y^r i d g e= y^O L S
Si , cuanto mayor sea el valor singular , menos será penalizado en la regresión de cresta. Los valores singulares pequeños ( y menores) son los más penalizados.λ > 0syos2yo≈ λ
En contraste, en la regresión de PCA, los valores singulares grandes se mantienen intactos, y los pequeños (después de cierto número ) se eliminan por completo. Esto correspondería a para los primeros unos y para el resto.kλ = 0kλ = ∞
Esto significa que la regresión de cresta puede verse como una "versión suave" de PCR.
(Esta intuición es útil pero no siempre se cumple; por ejemplo, si todos los son aproximadamente iguales, entonces la regresión de cresta solo podrá penalizar todos los componentes principales de aproximadamente por igual y puede ser muy diferente de la PCR).syoX
La regresión de crestas tiende a tener un mejor desempeño en la práctica (por ejemplo, tener un mayor rendimiento de validación cruzada).
Responde ahora su pregunta específicamente: si , entonces . No veo cómo puede corresponder eliminar el más pequeño . Creo que esto está mal.λ → 0y^r i d g e→ y^O L Ssyo
Una buena referencia es The Elements of Statistical Learning , Sección 3.4.1 "Regresión de cresta".
Vea también este hilo: Interpretación de la regularización de crestas en regresión y, en particular, la respuesta de @BrianBorchers.