Esto se refiere a la varianza
OLS proporciona lo que se llama el mejor estimador imparcial lineal (AZUL) . Eso significa que si toma cualquier otro estimador imparcial, seguramente tendrá una mayor varianza que la solución OLS. Entonces, ¿por qué deberíamos considerar algo más que eso?
Ahora el truco con la regularización, como el lazo o la cresta, es agregar un sesgo a su vez para tratar de reducir la varianza. Porque cuando usted estima que su error de predicción, es una combinación de tres cosas :
E [ ( y- f^( x ) )2] = Sesgo [ f^( x ) ) ]2+ Var [ f^( x ) ) ] + σ2
La última parte es el error irreducible, por lo que no tenemos control sobre eso. Usando la solución OLS, el término de sesgo es cero. Pero puede ser que el segundo término sea grande. Podría ser una buena idea (
si queremos buenas predicciones ) agregar un sesgo y, con suerte, reducir la varianza.
Entonces, ¿qué es esto ? Es la varianza introducida en las estimaciones para los parámetros en su modelo. El modelo lineal tiene la forma
y = X β + ϵ ,Var [ f^( x ) ) ]
Para obtener la solución OLS resolvemos el problema de minimización
arg min β | El | y - X β | El | 2
Esto proporciona la solución
β OLS = ( X T X ) - 1 X T y
el problema de minimización para la regresión cresta es similar:
arg min β | El | y - X β | El |
y = X β+ ϵ ,ϵ ∼ N( 0 , σ2yo)
argminβEl | El | y - X βEl | El |2
β^OLS= ( XTX )- 1XTy
Ahora la solución se vuelve
β de Ridge = ( X T X + λ I ) - 1 X T y
Entonces estamos añadiendo esta
λ I (llamado la cresta) en la diagonal de la matriz que invertido. El efecto que esto tiene en la matriz
X T X es que "
tira" el determinante de la matriz lejos de cero. Por lo tanto, cuando lo inviertes, no obtienes valores propios enormes. Pero eso lleva a otro hecho interesante, a saber, que la varianza de las estimaciones de los parámetros se vuelve más baja.
argminβEl | El | y - X βEl | El |2+ λ | El | βEl | El |2λ > 0
β^Cresta= ( XTX +λI)- 1XTy
λ IXTX
No estoy seguro si puedo proporcionar una respuesta más clara que esta. Todo esto se reduce a la matriz de covarianza para los parámetros en el modelo y la magnitud de los valores en esa matriz de covarianza.
Tomé la regresión de cresta como ejemplo, porque eso es mucho más fácil de tratar. El lazo es mucho más difícil y todavía hay una investigación activa en curso sobre ese tema.
Estas diapositivas proporcionan más información y este blog también tiene información relevante.
EDIT: ¿Qué quiero decir que mediante la adición de la cresta el determinante se " retiró " lejos de cero?
XTX
det ( XTX -tI) = 0
tdet ( XTX +λI- t I) = 0
det ( XTX -(t-λ)I) = 0
Entonces podemos resolver esto por
( t - λ )y obtener los mismos valores propios que para el primer problema. Supongamos que un valor propio es
tyo. Entonces el valor propio para el problema de la cresta se convierte en
tyo+ λ. Se desplaza por
λ. Esto le sucede a todos los valores propios, por lo que todos se alejan de cero.
Aquí hay un código R para ilustrar esto:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Lo que da los resultados:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Entonces, todos los valores propios se desplazan exactamente 3.
También puede probar esto en general utilizando el teorema del círculo de Gershgorin . Allí, los centros de los círculos que contienen los valores propios son los elementos diagonales. Siempre puede agregar "suficiente" al elemento diagonal para hacer todos los círculos en el semiplano real positivo. Ese resultado es más general y no es necesario para esto.