¿Por qué la pena de Lasso es equivalente al doble exponencial (Laplace) anterior?


27

He leído en varias referencias que la estimación de Lasso para el vector de parámetro de regresión es equivalente al modo posterior de en el que la distribución previa para cada es una distribución exponencial doble (también conocida como distribución de Laplace).BB iBBi

He estado tratando de probar esto, ¿alguien puede desarrollar los detalles?


@ user777 Hoy estuve hojeando ese libro. No se pudo encontrar nada relevante.
Wintermute

Respuestas:


30

Para simplificar, consideremos una sola observación de una variable tal que Y

Y|μ,σ2N(μ,σ2),

f ( σ ) 1 σ > 0μLaplace(λ) y el anterior incorrecto .f(σ)1σ>0

Entonces la densidad conjunta de es proporcional a Y,μ,σ2

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

Tomar un registro y descartar términos que no involucren , μ

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

Por lo tanto, el máximo de (1) será una estimación MAP y, de hecho, es el problema de Lazo después de que reparametricemos λ~=λσ2 .

La extensión de la regresión es clara: reemplace con en la probabilidad Normal, y establezca el anterior en para que sea una secuencia de distribuciones independientes de Laplace .X β β ( λ )μXββ(λ)


25

Esto es obvio al inspeccionar la cantidad que el LASSO está optimizando.

Tome lo anterior para como Laplace independiente con media cero y algo de escala . τβiτ

Entonces .p(β|τ)e12τi|βi|

El modelo para los datos es el supuesto de regresión habitual .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Ahora menos dos veces el registro de la parte posterior es de la forma

1k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Deje y obtenemos -posterior de- 2 logλ=σ2/τ2log

1k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

El estimador MAP para minimiza lo anterior, lo que minimizaβ

S=(yXβ)T(yXβ)+λi|βi|

Entonces el estimador MAP para es LASSO.β

(Aquí traté a como solucionado de manera efectiva, pero puedes hacer otras cosas con él y aún así aparece LASSO).σ2

Editar: Eso es lo que obtengo por componer una respuesta fuera de línea; No vi una buena respuesta ya fue publicada por Andrew. El mío realmente no hace nada que el suyo ya no haga. Dejaré el mío por ahora porque da un par de detalles más del desarrollo en términos de .β


1
Parece haber una diferencia en su respuesta y la de Andrew. Su respuesta tiene la forma correcta del regularizador: , mientras que Andrew tiene, donde en regresión lineal, obtenemos . λ | μ | μ = X βλβ1λ|μ|μ=Xβ
Alex R.

2
@AlexR Creo que estás malinterpretando el μ en la respuesta de Andrew. El μ allí corresponde a a en una regresión con solo una intersección, no a en una regresión múltiple; el mismo argumento sigue para el caso más grande (tenga en cuenta los paralelos con mi respuesta) pero es más fácil de seguir en el caso simple. La respuesta de Andrew es esencialmente correcta, pero no conecta todos los puntos con la pregunta original, dejando una pequeña cantidad para que el lector la complete. Creo que nuestras respuestas son consistentes (hasta algunas diferencias menores relacionadas con σ que pueden explicarse) y que se merecía totalmente la garrapata X ββ0Xβ
Glen_b -Reinstate a Monica el
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.