Interpretación de la regularización de crestas en regresión

25

Tengo varias preguntas sobre la penalización de cresta en el contexto de mínimos cuadrados:

β_{r i d g e} = (λ I_{D} + X^{'} X)^{- 1} X^{'} y

$\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y$

1) La expresión sugiere que la matriz de covarianza de X se reduce hacia una matriz diagonal, lo que significa que (suponiendo que las variables estén estandarizadas antes del procedimiento) se reducirá la correlación entre las variables de entrada. ¿Es correcta esta interpretación?

2) Si se trata de una aplicación de contracción, ¿por qué no se formula en las líneas de , suponiendo que de alguna manera podamos restringir lambda al rango [0,1] con una normalización . $(\lambda I_D + (1-\lambda)X'X)$

3) ¿Qué puede ser una normalización para para que pueda restringirse a un rango estándar como [0,1]. $\lambda$

4) Agregar una constante a la diagonal afectará a todos los valores propios. ¿Sería mejor atacar solo los valores singulares o casi singulares? ¿Es esto equivalente a aplicar PCA a X y retener los componentes principales N principales antes de la regresión o tiene un nombre diferente (ya que no modifica el cálculo de covarianza cruzada)?

5) ¿Podemos regularizar la covarianza cruzada, o tiene algún uso, lo que significa

β_{r i d g e} = (λ I_{D} + X^{'} X)^{- 1} (γ X^{'} y)

$\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y)$

donde una pequeña $\gamma$ reducirá la covarianza cruzada. Obviamente, esto reduce todos $\beta$ s por igual, pero tal vez haya una forma más inteligente como el umbral duro / blando dependiendo del valor de covarianza.

— Cagdas Ozgenc
fuente

Iirc la penalización de cresta proviene de una restricción que

\sum β^{2} \leq T

$\sum \beta^2 \leq T$ , por medio de un multiplicador de Lagrange en la función objetivo MSE. LASSO es igual pero con

| β |

$|\beta|$ en lugar. Estoy en mi teléfono, así que no puedo publicar fácilmente una derivación en este momento. Pero estas son buenas preguntas

— shadowtalker

19

¡Buena pregunta!

Sí, esto es exactamente correcto. Puede ver la penalización de cresta como una forma posible de lidiar con el problema de multicolinealidad que surge cuando muchos predictores están altamente correlacionados. La introducción de la penalización por cresta reduce efectivamente estas correlaciones.
Creo que esto es en parte tradición, en parte el hecho de que la fórmula de regresión de crestas como se indica en su primera ecuación se deriva de la siguiente función de costo:Si , el segundo término puede descartarse, y minimizar el primer término ("error de reconstrucción") conduce a la fórmula estándar de OLS para . Mantener el segundo término lleva a la fórmula para . Esta función de costo es matemáticamente muy conveniente de manejar, y esta podría ser una de las razones para preferir la lambda "no normalizada".
$L = ‖ y - X β ‖^{2} + λ ‖ β ‖^{2} .$ $L=\| \mathbf y - \mathbf X \beta \|^2 + \lambda \|\beta\|^2.$ $\lambda=0$ $\beta$ $\beta_\mathrm{ridge}$
Una posible forma de normalizar es escalarlo por la varianza total , es decir, usar lugar de . Esto no limitaría necesariamente a , pero lo haría "adimensional" y probablemente resultaría en óptimo en menos de en todos los casos prácticos (NB: ¡esto es solo una suposición!). $\lambda$ $\mathrm{tr}(\mathbf X^\top \mathbf X)$ $\lambda \mathrm{tr}(\mathbf X^\top \mathbf X)$ $\lambda$ $\lambda$ $[0,1]$ $\lambda$ $1$
"Atacar solo valores propios pequeños" tiene un nombre diferente y se llama regresión de componentes principales. La conexión entre la PCR y la regresión de cresta es que en la PCR usted efectivamente tiene una "penalización escalonada" que corta todos los valores propios después de un cierto número, mientras que la regresión de cresta aplica una "penalización blanda", penalizando todos los valores propios, y los más pequeños son penalizados más. Esto se explica muy bien en Los elementos del aprendizaje estadístico de Hastie et al. (disponible gratuitamente en línea), sección 3.4.1. Vea también mi respuesta en Relación entre la regresión de cresta y la regresión de PCA .
Nunca he visto esto hecho, pero tenga en cuenta que podría considerar una función de costo en la formaEsto reduce su no a cero, sino a algún otro valor predefinido . Si uno resuelve las matemáticas, llegará a la óptima dada por que tal vez se pueda ver como "regularización de covarianza cruzada"?
$L = ‖ y - X β ‖^{2} + λ ‖ β - β_{0} ‖^{2} .$ $L=\| \mathbf y - \mathbf X \beta \|^2 + \lambda \|\beta-\beta_0\|^2.$ $\beta$ $\beta_0$ $\beta$ $β = (X^{⊤} X + λ I)^{- 1} (X^{⊤} y + λ β_{0}),$ $\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} (\mathbf X^\top \mathbf y + \lambda \beta_0),$

— ameba dice Reinstate Monica
fuente

1

¿Podría explicar por qué agregar a significa que la matriz de covarianza de se reduce a una matriz diagonal? Esta es una pregunta de álgebra puramente lineal, supongo.

λ I_{D}

$\lambda I_D$

X^{'} X

$X'X$

X

$X$

— Heisenberg

3

@Heisenberg, bueno, es la matriz de covarianza de (hasta un factor de escala de ). La computación requiere invertir esta matriz de covarianza. En la regresión de cresta, invertimos , por lo que se puede ver como una estimación regularizada de la matriz de covarianza. Ahora el término es una matriz diagonal con en la diagonal. Imagine que es muy grande; entonces la suma está dominada por el término diagonal , por lo que la covarianza regularizada se vuelve más y más diagonal a medida que crece .

X^{⊤} X

$X^\top X$

X

$X$

1 / N

$1/N$

β

$\beta$

X^{⊤} X + λ I

$X^\top X + \lambda I$

X^{⊤} X + λ I

$X^\top X + \lambda I$

λ I

$\lambda I$

λ

$\lambda$

λ

$\lambda$

λ I

$\lambda I$

λ

$\lambda$

— ameba dice Reinstate Monica

wrt Q5, Elementos del aprendizaje estadístico analiza las restricciones de suavidad para las aplicaciones de procesamiento de imágenes (PDA - página 447)

— seanv507

10

Un comentario adicional sobre la pregunta 4. En realidad, la regresión de cresta trata de manera bastante efectiva con los valores propios pequeños de dejando en su mayoría solo los valores propios grandes. $X^{T}X$

Para ver esto, exprese el estimador de regresión de cresta en términos de la descomposición del valor singular de , $X$

X = \sum_{i = 1}^{n} σ_{i} u_{i} v_{i}^{T}

$X=\sum_{i=1}^{n} \sigma_{i}u_{i}v_{i}^{T}$

donde los son mutuamente ortogonales y los vectores también son mutuamente ortogonales. Aquí los valores propios de son , . $u_{i}$ $v_{i}$ $X^{T}X$ $\sigma_{i}^{2}$ $i=1, 2, \ldots, n$

Entonces puedes demostrar que

β_{ridge} = \sum_{i = 1}^{n} \frac{σ_{i}^{2}}{σ_{i}^{2} + λ} \frac{1}{σ_{i}} (u_{i}^{T} y) v_{i} .

$\beta_{\mbox{ridge}}=\sum_{i=1}^{n} \frac{\sigma_{i}^{2}}{\sigma_{i}^{2}+\lambda}\frac{1}{\sigma_{i}} (u_{i}^{T}y) v_{i}.$

Ahora, considere los "factores de filtro" . Si , entonces los factores de filtro son 1, y obtenemos la solución convencional de mínimos cuadrados. Si y , entonces el factor de filtro es esencialmente 1. Si , entonces este factor es esencialmente 0. Por lo tanto, los términos correspondientes a los valores propios pequeños se eliminan efectivamente, mientras que los correspondientes a los valores propios más grandes se retienen. $\sigma_{i}^{2}/(\sigma_{i}^{2}+\lambda)$ $\lambda=0$ $\lambda > 0$ $\sigma_{i}^{2} \gg \lambda$ $\sigma_{i}^{2} \ll \lambda$

En comparación, la regresión de componentes principales simplemente usa factores de 1 (para los valores propios más grandes) o 0 (para los valores propios más pequeños que se descartan) en esta fórmula.

— Brian Borchers
fuente

1

Eso es exactamente a lo que me referí brevemente en mi respuesta, pero es muy agradable tenerlo elaborado y demostrado matemáticamente, +1.

— ameba dice Reinstate Monica

5

Las preguntas 1, 2 y 3 están vinculadas. Me gusta pensar que sí, la introducción de una pena de Ridge en un modelo de regresión lineal puede ser interpretado como una contracción en los valores eigen de . Para hacer esta interpretación, primero hay que suponer que está centrado. Esta interpretación se basa en la siguiente equivalencia: con y . Si , inmediatamente se deduce que . $X$ $X$

λ x + y = κ (α x + (1 - α) y),

$\lambda x + y = \kappa \left( \alpha x + (1-\alpha) y\right),$

α = \frac{λ}{1 + λ}

$\alpha=\frac{\lambda}{1+\lambda}$

κ = 1 + λ

$\kappa = 1+\lambda$

0 \leq λ < + \infty

$0 \leq \lambda < + \infty$

0 < α \leq 1

$0 < \alpha \leq 1$

La técnica que usted describe como "atacar solo los valores singulares o casi singulares" también se conoce como Análisis de Espectro Singular (para el propósito de la regresión lineal) (ver Ec. 19), si por "atacar", quiere decir "eliminar ". La covarianza cruzada no cambia.

La eliminación de valores singulares bajos también se realiza mediante Regresión de componentes principales . En la PCR, se realiza un PCA en y se aplica una regresión lineal en una selección de los componentes obtenidos. La diferencia con SSA es que tiene un impacto en la covarianza cruzada. $X$

— Vincent Guillemot
fuente

Gracias. En la PCR, la covarianza con y se calcula después de realizar la reducción de la dimensión, ¿no? ¿Es esa la diferencia entre PCR y SSA? Tu gamma (no la mía), ¿cómo seleccionas eso para que alfa esté limitado [0,1]?

— Cagdas Ozgenc

1

Perdón por esta confusa , la estoy reemplazando por una .

γ

$\gamma$

κ

$\kappa$

— Vincent Guillemot

Creo que tiene razón sobre la diferencia entre SSA y PCR, sin embargo, debemos anotarlo para estar seguros.

— Vincent Guillemot