Comprender la regresión de cresta negativa


12

Estoy buscando literatura sobre regresión de cresta negativa .

En resumen, es una generalización de la regresión lineal de crestas usando negativa en la fórmula del estimador:El caso positivo tiene una buena teoría: como una función de pérdida, como una restricción, como un Bayes anterior ... pero me siento perdido con la versión negativa con solo la fórmula anterior. Resulta útil para lo que estoy haciendo, pero no lo interpreto claramente.λ

β^=(XX+λI)1Xy.

¿Conoces algún texto introductorio serio sobre la cresta negativa? ¿Cómo se puede interpretar?


1
No conozco ningún texto introductorio que hable sobre él, pero esta fuente puede ser esclarecedora, especialmente la discusión al final de la página 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents
Ryan Simmons

1
En caso de que ese enlace muera en el futuro, la cita completa es: Björkström, A. & Sundberg, R. "Una visión generalizada sobre la regresión continua". Scandinavian Journal of Statistics, 26: 1 (1999): pp.17-30
Ryan Simmons

2
Muchas gracias. Esto proporciona una interpretación clara de la cresta a través de CR cuando . ( propio más grande de la matriz de covarianza). Todavía buscando una interpretación con ...λ<λ1λ>λ1
Benoit Sanchez

Tenga en cuenta en este desarrollo de regresión de cresta de la regularización de Tikhonov que la regularización de Tikhonov convierte en para la regresión de cresta. Posteriormente, generalmente se reemplaza por . La única forma de hacer que esto sea negativo es que sea ​​imaginario, es decir, un múltiplo de . OK, ahora que? ¿A dónde quieres ir con eso? α 2 I α 2 λ α i = ΓTΓα2Iα2λαi=1
Carl

Cresta negativa mencionada aquí: stats.stackexchange.com/questions/328630/… con algunos enlaces
kjetil b halvorsen

Respuestas:


12

Aquí hay una ilustración geométrica de lo que está sucediendo con la cresta negativa.

Consideraré estimadores de la forma que surge de la función de pérdidaAquí hay una ilustración bastante estándar de lo que sucede en un caso bidimensional con . La lambda cero corresponde a la solución OLS, la lambda infinita reduce la beta estimada a cero:

β^λ=(XX+λI)1Xy
Lλ=yXβ2+λβ2.
λ[0,)

ingrese la descripción de la imagen aquí

Consideremos ahora lo que sucede cuando , donde es el valor singular más grande de . Para lambdas negativas muy grandes, es, por supuesto, cercano a cero. Cuando lambda se aproxima a , el término obtiene un valor singular cercano a cero, lo que significa que el inverso tiene un valor singular que va a menos infinito. Este valor singular corresponde al primer componente principal de , por lo que en el límite se obtiene apuntando en la dirección de PC1 pero con un valor absoluto que crece hasta el infinito.λ(,smax2)smaxXβ^λsmax2(XX+λI)Xβ^λ

Lo que es realmente agradable es que uno puede dibujarlo en la misma figura de la misma manera: las betas están dadas por puntos donde los círculos tocan las elipses desde adentro :

ingrese la descripción de la imagen aquí

Cuando , se aplica una lógica similar, que permite continuar la ruta de cresta en el otro lado del estimador OLS. Ahora los círculos tocan las elipses desde el exterior. En el límite, las betas se acercan a la dirección de PC2 (pero sucede muy lejos de este boceto):λ(smin2,0]

ingrese la descripción de la imagen aquí

El rango es una especie de brecha energética : los estimadores allí no viven en la misma curva.(smax2,smin2)

ACTUALIZACIÓN: En los comentarios, @MartinL explica que para la pérdida no tiene un mínimo, pero tiene un máximo. Y este máximo viene dado por . Es por eso que la misma construcción geométrica con el círculo / elipse tocando sigue funcionando: todavía estamos buscando puntos de gradiente cero. Cuando , la pérdida tiene un mínimo y está dada por , exactamente como en la normalidad caso.λ<smax2Lλβ^λsmin2<λ0Lλβ^λλ>0

Pero cuando , la pérdida no tiene ni máximo ni mínimo; correspondería a un punto de silla de montar. Esto explica la "brecha energética".smax2<λ<smin2Lλβ^λ


El surge naturalmente de una regresión de cresta restringida particular, vea El límite del estimador de regresión de cresta "unidad-varianza" cuando . Esto está relacionado con lo que se conoce en la literatura de quimiometría como "regresión continua", vea mi respuesta en el hilo vinculado.λ(,smax2)λ

La puede tratarse exactamente de la misma manera que : la función de pérdida permanece igual y el estimador de cresta proporciona su mínimo.λ(smin2,0]λ>0


1
Gracias por los interesantes gráficos. Cuando , la solución que ha graficado es el máximo global de la función de costo, no un mínimo global. De manera similar, cuando , el punto que ha graficado debe ser un punto de referencia de la función de costo. λ<smax2smax2<λ<0
Martin L

1
Considere solo los términos cuadráticos en la función de costo. Se pueden escribir como Deje , entonces la matriz entre paréntesis solo tiene valores propios negativos. Deje , y la matriz tiene valores propios positivos y negativos. Estos valores propios influyen en si el punto es un punto de silla, mínimo o máximo de la función de costo.
βT(XTX+λI)β.
λ<smax2smax2<λ<0
Martin L

1
Eso es muy útil, muchas gracias. Hice una actualización de mi respuesta.
ameba dice Reinstate Monica

1
Gracias. En particular, para darse cuenta de que el punto de silla solo se cumple cuando . Cuando , la solución sigue siendo un mínimo global desde entonces, es positivo definitivo. Mi comentario anterior fue, por lo tanto, parcialmente incorrecto. smax2<λ<smin2λ>smin2XTX+λI
Martin L
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.