¿Cómo derivar la solución de regresión de cresta?

41

Tengo algunos problemas con la derivación de la solución para la regresión de crestas.

Sé la solución de regresión sin el término de regularización:

β = (X^{T} X)^{- 1} X^{T} y .

$\beta = (X^TX)^{-1}X^Ty.$

Pero después de agregar el término L2 a la función de costo, ¿cómo es que la solución se convierte en $\lambda\|\beta\|_2^2$

β = (X^{T} X + λ I)^{- 1} X^{T} y .

$\beta = (X^TX + \lambda I)^{-1}X^Ty.$

— usuario34790
fuente

24

Es suficiente modificar la función de pérdida agregando la penalización. En términos de matriz, la función de pérdida cuadrática inicial se convierte en

(Y - X β)^{T} (Y - X β) + λ β^{T} β .

$(Y - X\beta)^{T}(Y-X\beta) + \lambda \beta^T\beta.$ Derivar con respecto a

β

$\beta$ conduce a la ecuación normal

X^{T} Y = (X^{T} X + λ I) β

$X^{T}Y = \left(X^{T}X + \lambda I\right)\beta$ que conduce al estimador de Ridge.

— johnny
fuente

1

¿Cómo es que la derivada de

λ β^{T} β

$\lambda \beta^T \beta$ es igual a

λ I β

$\lambda I \beta$

— user34790

44

@ user34790 No lo es. Es igual a

2 λ β

$2\lambda\beta$ . Pero el 2 cancela con 2 similares en los otros términos. Por supuesto, el factor

I

$I$ es como un factor de 1 en álgebra "regular", puede multiplicarlo en cualquier lugar que desee sin cambiar nada.

— Bill

44

@bill: aquí necesitas el para obtener una matriz de la dimensión correcta para que la suma funcione con : es solo un escalar

I

$I$

X^{T} X

$X^TX$

λ

$\lambda$

— Henry

48

Construyamos sobre lo que sabemos, que es que cada vez que la matriz del modelo es , la respuesta -vector es , y el parámetro -vector es , la función objetivo $n\times p$ $X$ $n$ $y$ $p$ $\beta$

f (β) = (y - X β)^{'} (y - X β)

$f(\beta) = (y - X\beta)^\prime(y - X\beta)$

(que es la suma de los cuadrados de los residuos) se minimiza cuando resuelve las ecuaciones normales $\beta$

(X^{'} X) β = X^{'} y .

$(X^\prime X)\beta = X^\prime y.$

La regresión de cresta agrega otro término a la función objetivo (generalmente después de estandarizar todas las variables para ponerlas en una base común), pidiendo minimizar

(y - X β)^{'} (y - X β) + λ β^{'} β

$(y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta$

para alguna constante no negativa . Es la suma de cuadrados de los residuos más un múltiplo de la suma de cuadrados de los coeficientes mismos (lo que hace obvio que tiene un mínimo global). Como , tiene una raíz cuadrada positiva . $\lambda$ $\lambda\ge 0$ $\nu^2 = \lambda$

Considere la matriz aumentada con filas correspondientes a veces la matriz de identidad : $X$ $\nu$ $p\times p$ $I$

X_{*} = (\begin{matrix} X \\ ν I \end{matrix})

$X_{*} = \pmatrix{X \\ \nu I}$

Cuando el vector se extiende de manera similar con ceros al final de , el producto matricial en la función objetivo agrega términos adicionales de la forma al objetivo original. Por lo tanto $y$ $p$ $y_{*}$ $p$ $(0 - \nu \beta_i)^2 = \lambda \beta_i^2$

(y_{*} - X_{*} β)^{'} (y_{*} - X_{*} β) = (y - X β)^{'} (y - X β) + λ β^{'} β .

$(y_{*} - X_{*}\beta)^\prime(y_{*} - X_{*}\beta) = (y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta.$

De la forma de la expresión de la mano izquierda, es inmediato que las ecuaciones normales son

(X_{*}^{'} X_{*}) β = X_{*}^{'} y_{*} .

$(X_{*}^\prime X_{*})\beta = X_{*}^\prime y_{*}.$

Como unimos ceros al final de , el lado derecho es el mismo que . En el lado izquierdo se agrega a la . Por lo tanto, las nuevas ecuaciones normales se simplifican a $y$ $X^\prime y$ $\nu^2 I=\lambda I$ $X^\prime X$

(X^{'} X + λ I) β = X^{'} y .

$(X^\prime X + \lambda I)\beta = X^\prime y.$

Además de ser conceptualmente económico, no se necesitan nuevas manipulaciones para obtener este resultado, también es computacionalmente económico: su software para hacer mínimos cuadrados ordinarios también hará una regresión de cresta sin ningún cambio. (Sin embargo, puede ser útil en grandes problemas usar un software diseñado para este propósito, ya que explotará la estructura especial de para obtener resultados de manera eficiente durante un intervalo densamente espaciado de , lo que le permitirá explorar cómo varían las respuestas con .) $X_{*}$ $\lambda$ $\lambda$

Otra belleza de esta forma de ver las cosas es cómo puede ayudarnos a comprender la regresión de crestas. Cuando realmente queremos entender la regresión, casi siempre ayuda pensar en ella geométricamente: las columnas de constituyen vectores en un espacio vectorial real de dimensión . Al unir a , prolongándolos de -vectores a -vectores, estamos incrustando en un espacio más grande al incluir "imaginario", direcciones mutuamente ortogonales. La primera columna de $X$ $p$ $n$ $\nu I$ $X$ $n$ $n+p$ $\mathbb{R}^n$ $\mathbb{R}^{n+p}$ $p$ $X$ se le da un pequeño componente imaginario de tamaño , alargándolo y sacándolo del espacio generado por las columnas originales . La segunda, tercera, ..., columnas se alargan de manera similar y se mueven fuera del espacio original en la misma cantidad , pero todas en diferentes direcciones nuevas. En consecuencia, cualquier colinealidad presente en las columnas originales se resolverá inmediatamente . Además, cuanto mayor hace, más se acercan estos nuevos vectores al individual $\nu$ $p$ $p^\text{th}$ $\nu$ $\nu$ $p$ direcciones imaginarias: se vuelven cada vez más ortonormales. En consecuencia, la solución de las ecuaciones normales será posible de inmediato y rápidamente se volverá numéricamente estable a medida que aumente de . $\nu$ $0$

Esta descripción del proceso sugiere algunos enfoques novedosos y creativos para abordar los problemas que Ridge Regression fue diseñado para manejar. Por ejemplo, utilizando cualquier medio (como la descomposición de la varianza descrita por Belsley, Kuh y Welsch en su libro de 1980 sobre Diagnóstico de regresión , Capítulo 3), puede identificar subgrupos de columnas casi colineales de , donde cada subgrupo Es casi ortogonal a cualquier otro. Solo necesita unir tantas filas a (y ceros a ) como haya elementos en el grupo más grande, dedicando una nueva dimensión "imaginaria" para desplazar cada elemento de un grupo lejos de sus hermanos: no necesita imaginario dimensiones para hacer esto. $X$ $X$ $y$ $p$

— whuber
fuente

2

El último autor del libro es galés, no galés.

— Mark L. Stone

1

Whoa, esto me dejó alucinado. ¿Hay alguna discusión sobre lo que sucede cuando esto se generaliza fuera de los modelos lineales, es decir, a los glm? La penalización no debería alinearse para ser la misma que la regresión de cresta ... ¡pero esta interpretación implica que aún sería un estimador útil potencial!

— Cliff AB

2

@ Cliff Esa es una sugerencia muy interesante. Sin embargo, dado que las estimaciones de GLM dependen de una manera más complicada de y sus estimadores generalmente no se pueden factorizar en la forma como lo son para OLS (donde y ), puede ser difícil establecer una relación útil entre la imposición de una función de penalización y la modificación de las columnas de . En particular, no está claro cómo los valores en tendrían que aumentarse para que esto funcione.

X

$X$

\hat{β} = g (X) \cdot h (y)

$\hat\beta = g(X)\cdot h(y)$

g (X) = (X^{'} X)^{- 1} X^{'}

$g(X)=(X^\prime X)^{-1}X^\prime$

h (y) = y

$h(y)=y$

X

$X$

y

$y$

— whuber

1

Sí, tomaría un poco de tiempo tratar de establecer cuál es la penalización, pero no estoy tan preocupado por eso. La idea de qué usar tampoco es generalmente fácil ... excepto quizás en el caso de regresión logística, donde podríamos agregar dos 's; uno de 0 y uno de 1. Este aumento sería una versión más general del "estimador binomial +2" (hay un nombre más apropiado para este estimador que estoy suprimiendo, que es básicamente cuando estás estimando partir de una distribución binomial usando la media posterior como la estimación con un uniforme previo en ).

y_{*}

$y_*$

y_{*}

$y_*$

p

$p$

p

$p$

— Cliff AB

@ Mark Gracias por la corrección. Se nota que iba de memoria ... :-).

— whuber

20

La derivación incluye cálculo matricial, que puede ser bastante tedioso. Nos gustaría resolver el siguiente problema:

min_{β} (Y - β^{T} X)^{T} (Y - β^{T} X) + λ β^{T} β

$\begin{equation} \min_\beta (Y-\beta^T X)^T(Y-\beta^T X)+\lambda \beta^T \beta \end{equation}$

Ahora tenga en cuenta que y Juntos llegamos a la condición de primer orden aislamiento produce la solución:

\frac{\partial (Y - β^{T} X)^{T} (Y - β^{T} X)}{\partial β} = - 2 X^{T} (Y - β^{T} X)

$\begin{equation} \frac{\partial (Y-\beta^T X)^T (Y-\beta^T X)}{\partial \beta}=-2X^T(Y-\beta^T X) \end{equation}$

\frac{\partial λ β^{T} β}{\partial β} = 2 λ β .

$\begin{equation} \frac{\partial \lambda \beta^T \beta}{\partial \beta}=2\lambda\beta. \end{equation}$

X^{T} Y = X^{T} X β + λ β .

$\begin{equation} X^TY = X^TX\beta + \lambda\beta. \end{equation}$

β

$\beta$

β = (X^{T} X + λ I)^{- 1} X^{T} Y .

$\begin{equation} \beta = (X^TX+ \lambda I )^{-1}X^T Y. \end{equation}$

— pthesling
fuente

9

Recientemente me he topado con la misma pregunta en el contexto de P-Splines y como el concepto es el mismo, quiero dar una respuesta más detallada sobre la derivación del estimador de cresta.

Comenzamos con una función de criterio penalizado que difiere de la función de criterio OLS clásica por su término de penalización en el último sumando:

$Criterion_{Ridge} = \sum_{i=1}^{n}(y_i-x_i^T\beta)^2 + \lambda \sum_{j=1}^p\beta_j^2$

dónde

$p=$ la cantidad de covariables utilizadas en el modelo
$x_i^T\beta =$ su predictor lineal estándar
el primer sumando representa el MSE (divergencia al cuadrado de la predicción del valor real) que queremos minimizar como de costumbre
el segundo sumando representa la penalización que aplicamos en los coeficientes. Aquí estamos en el contexto de Ridge que implica una Medida de distancia euclidiana y, por lo tanto, el grado de 2 en el término de penalización. En el caso de una penalización por lazo, aplicaríamos un grado de 1 y obtendríamos un estimador totalmente diferente.

Podemos reescribir este criterio en notación matricial y desglosarlo aún más:

$Criterion_{Ridge} = (y-X\beta)^T(y-X\beta) + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - y^TX\beta+ \beta^Tx^TX\beta + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - \beta^TX^Ty + \beta^TX^TX\beta + \beta^T\lambda I\beta$ siendo la matriz de identidad $I$

$= y^Ty - 2\beta^TX^Ty + \beta^T(X^TX + \lambda I)\beta$

Ahora buscamos la que minimiza nuestro criterio. Entre otros, utilizamos la regla de diferenciación de matrices que podemos aplique aquí como : $\beta$ $\frac{\partial x^TAx}{\partial x} = (A+A^T)x \overset{\text{A symmetric}}{=} 2Ax$ $(X^TX + \lambda I) \in \mathbb{R}^{n \times n}$

$\frac{\partial Criterion_{Ridge} }{\partial\beta} = -2X^Ty + 2(X^TX + \lambda I)\beta \overset{!}{=}0$

$(X^TX + \lambda I)\beta = X^Ty$

$\overset{\text{et voilà}}{\Rightarrow} \hat\beta = (X^TX + \lambda I)^{-1} X^Ty$

— Jann Goschenhofer
fuente

@Jahn, ¿puedes explicar cómo convirtió en ? Creo que acabas de aplicar la transposición, cierto. Pero, no puede simplemente aplicar la transposición en un término sin aplicarla en todas las ecuaciones. ¿Que me estoy perdiendo aqui?

y^{T} X β

$y^TX\beta$

β^{T} X^{T} y

$\beta ^TX^Ty$

— teatral el

1

@theateist Un escalar transpuesto es el mismo escalar.

— Konstantin

2

Hay algunas cosas importantes que faltan en las respuestas dadas.

$\beta$ $\frac{\partial f_{ridge}(\beta, \lambda)}{\partial \beta} = 0$ $\beta = (X^TX+ \lambda I )^{-1}X^T Y$ $f_{ridge}(\beta, \lambda)$
$f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta) = (Y-\beta^T X)^T(Y-\beta^T X)$ $||\beta||^2_2 \leq t$ $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta)$ $||\beta||^2_2$

$\beta$

— Davor Josipovic
fuente