¿Por qué la regresión de cresta no reducirá algunos coeficientes a cero como el lazo?


16

Cuando se explica la regresión de LASSO, a menudo se usa el diagrama de un diamante y un círculo. Se dice que debido a que la forma de la restricción en LASSO es un diamante, la solución de mínimos cuadrados obtenida podría tocar la esquina del diamante de modo que conduzca a una contracción de alguna variable. Sin embargo, en la regresión de crestas, debido a que es un círculo, a menudo no tocará el eje. No podía entender por qué no puede tocar el eje o tal vez tener una probabilidad menor que LASSO para reducir ciertos parámetros. Además de eso, ¿por qué LASSO y la cresta tienen una varianza menor que los mínimos cuadrados ordinarios? Lo anterior es mi comprensión de Ridge y LASSO y podría estar equivocado. ¿Alguien puede ayudarme a entender por qué estos dos métodos de regresión tienen una varianza menor?



1
Ok, la parte de la varianza en negrita no está duplicada, al menos de esta pregunta; entonces tal vez esta pregunta podría ser editada para enfocarse en eso.
Juho Kokkala

Esto se explica bien en la figura 3.11 de web.stanford.edu/~hastie/local.ftp/Springer/OLD/…

@ fcop leí el libro pero no entiendo las matemáticas
user10024395

¿Pero para entender la imagen no necesitas las matemáticas?

Respuestas:


26

Esto se refiere a la varianza

OLS proporciona lo que se llama el mejor estimador imparcial lineal (AZUL) . Eso significa que si toma cualquier otro estimador imparcial, seguramente tendrá una mayor varianza que la solución OLS. Entonces, ¿por qué deberíamos considerar algo más que eso?

Ahora el truco con la regularización, como el lazo o la cresta, es agregar un sesgo a su vez para tratar de reducir la varianza. Porque cuando usted estima que su error de predicción, es una combinación de tres cosas :

mi[(y-F^(X))2]=Parcialidad[F^(X))]2+Var[F^(X))]+σ2
La última parte es el error irreducible, por lo que no tenemos control sobre eso. Usando la solución OLS, el término de sesgo es cero. Pero puede ser que el segundo término sea grande. Podría ser una buena idea ( si queremos buenas predicciones ) agregar un sesgo y, con suerte, reducir la varianza.

Entonces, ¿qué es esto ? Es la varianza introducida en las estimaciones para los parámetros en su modelo. El modelo lineal tiene la forma y = X β + ϵ ,Var[F^(X))] Para obtener la solución OLS resolvemos el problema de minimización arg min β | El | y - X β | El | 2 Esto proporciona la solución β OLS = ( X T X ) - 1 X T y el problema de minimización para la regresión cresta es similar: arg min β | El | y - X β | El |

y=Xβ+ϵ,ϵnorte(0 0,σ2yo)
argminβEl |El |y-XβEl |El |2
β^OLS=(XTX)-1XTy
Ahora la solución se vuelve β de Ridge = ( X T X + λ I ) - 1 X T y Entonces estamos añadiendo esta λ I (llamado la cresta) en la diagonal de la matriz que invertido. El efecto que esto tiene en la matriz X T X es que "tira" el determinante de la matriz lejos de cero. Por lo tanto, cuando lo inviertes, no obtienes valores propios enormes. Pero eso lleva a otro hecho interesante, a saber, que la varianza de las estimaciones de los parámetros se vuelve más baja.
argminβEl |El |y-XβEl |El |2+λEl |El |βEl |El |2λ>0 0
β^Cresta=(XTX+λyo)-1XTy
λyoXTX

No estoy seguro si puedo proporcionar una respuesta más clara que esta. Todo esto se reduce a la matriz de covarianza para los parámetros en el modelo y la magnitud de los valores en esa matriz de covarianza.

Tomé la regresión de cresta como ejemplo, porque eso es mucho más fácil de tratar. El lazo es mucho más difícil y todavía hay una investigación activa en curso sobre ese tema.

Estas diapositivas proporcionan más información y este blog también tiene información relevante.

EDIT: ¿Qué quiero decir que mediante la adición de la cresta el determinante se " retiró " lejos de cero?

XTX

det(XTX-tyo)=0 0
t
det(XTX+λyo-tyo)=0 0
det(XTX-(t-λ)yo)=0 0
Entonces podemos resolver esto por (t-λ)y obtener los mismos valores propios que para el primer problema. Supongamos que un valor propio estyo. Entonces el valor propio para el problema de la cresta se convierte entyo+λ. Se desplaza porλ. Esto le sucede a todos los valores propios, por lo que todos se alejan de cero.

Aquí hay un código R para ilustrar esto:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Lo que da los resultados:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Entonces, todos los valores propios se desplazan exactamente 3.

También puede probar esto en general utilizando el teorema del círculo de Gershgorin . Allí, los centros de los círculos que contienen los valores propios son los elementos diagonales. Siempre puede agregar "suficiente" al elemento diagonal para hacer todos los círculos en el semiplano real positivo. Ese resultado es más general y no es necesario para esto.


¿Puede explicar cómo "saca" el determinante de cero (matemáticamente)? Gracias
user10024395

@ user2675516 He editado mi respuesta.
Gumeo

"Eso significa que si toma cualquier otro estimador imparcial, seguramente tendrá una mayor varianza que la solución OLS". ¿Te refieres a un mayor sesgo que OLS? Pensé que OLS tiene menos sesgo, por lo que cualquier otra cosa tendría un sesgo más alto. Por
favor

@ML_Pro OLS tiene sesgo cero, y de todos los estimadores insesgados, tiene la varianza más pequeña. Este es un teorema . Entonces, si elige cualquier otro, la varianza aumentará. Pero si te regularizas, introduces un sesgo.
Gumeo

¡Gracias! Tu respuesta me hizo sentir curiosidad. ¿Puedes responder esta nueva pregunta que creé? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF

2

Regresión de cresta

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Resolverá esta ecuación solo para un β por ahora y luego puede generalizar esto:

Entonces, (y-xβ) ^ 2 + λβ ^ 2 esta es nuestra ecuación para un β.

Nuestro objetivo es minimizar la ecuación anterior, para poder hacer esto, igualaremos esto a cero y tomaremos las derivadas wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Usando (ab) ^ 2 expansión

Derivados parciales wrt

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

Finalmente

β = xy / (x ^ 2 + λ)

Si observa el denominador, nunca se convertirá en cero, ya que estamos agregando algún valor de λ (es decir, hiperparámetro). Y, por lo tanto, el valor de β será lo más bajo posible pero no será cero.

Regresión LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Resolverá esta ecuación solo para un β por ahora y luego puede generalizar esto a más β:

Entonces, (y-xβ) ^ 2 + λβ esta es nuestra ecuación para un β, aquí he considerado el valor + ve de β.

Nuestro objetivo es minimizar la ecuación anterior, para poder hacer esto, igualaremos esto a cero y tomaremos las derivadas wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Usando (ab) ^ 2 expansión

Derivados parciales wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

Finalmente

β = (2xy-λ) / (2X ^ 2)

Si observa el numerador, se convertirá en cero, ya que estamos restando algún valor de λ (es decir, hiperparámetro). Y, por lo tanto, el valor de β se establecerá como cero.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.