Después de leer el Capítulo 3 en los Elementos del aprendizaje estadístico (Hastie, Tibshrani y Friedman), me preguntaba si era posible implementar los famosos métodos de contracción citados en el título de esta pregunta dada una estructura de covarianza, es decir, minimizar el (quizás más general ) cantidad
en lugar del habitual Esto fue motivado principalmente por el hecho de que en mi aplicación particular, tenemos diferentes variaciones para → y
Ahora me estaba preparando para tratar de implementar el LASSO a través de la regresión de ángulo mínimo, pero para hacerlo tengo que demostrar primero que todas sus propiedades agradables siguen siendo válidas al minimizar lugar de ( 2 ) . Hasta ahora, no he visto ningún trabajo que realmente haga todo esto, pero hace algún tiempo también leí una cita que decía algo así como " aquellos que no conocen las estadísticas están condenados a redescubrirlo " (¿quizás por Brad Efron? ), por eso pregunto aquí primero (dado que soy relativamente nuevo en la literatura estadística): ¿Ya se ha hecho esto en algún lugar para estos modelos? ¿Se implementa en R de alguna manera? (incluida la solución e implementación de la cresta minimizando ( 1 )en lugar de , ¿qué es lo que se implementa en el código lm.ridge en R)?
¡Gracias de antemano por sus respuestas!