Construyamos sobre lo que sabemos, que es que cada vez que la matriz del modelo es , la respuesta -vector es , y el parámetro -vector es , la función objetivoX n y p βn × pXnorteypagsβ
F( β) = ( y- Xβ)′( y- Xβ)
(que es la suma de los cuadrados de los residuos) se minimiza cuando resuelve las ecuaciones normalesβ
( X′X) β= X′y.
La regresión de cresta agrega otro término a la función objetivo (generalmente después de estandarizar todas las variables para ponerlas en una base común), pidiendo minimizar
( y- Xβ)′( y- Xβ) + λ β′β
para alguna constante no negativa . Es la suma de cuadrados de los residuos más un múltiplo de la suma de cuadrados de los coeficientes mismos (lo que hace obvio que tiene un mínimo global). Como , tiene una raíz cuadrada positiva .λλ≥0ν2=λ
Considere la matriz aumentada con filas correspondientes a veces la matriz de identidad :Xp × p Iνp×pI
X∗=(XνI)
Cuando el vector se extiende de manera similar con ceros al final de , el producto matricial en la función objetivo agrega términos adicionales de la forma al objetivo original. Por lo tantop y ∗ p ( 0 - ν β i ) 2 = λ β 2 iypy∗p(0−νβi)2=λβ2i
(y∗−X∗β)′(y∗−X∗β)=(y−Xβ)′(y−Xβ)+λβ′β.
De la forma de la expresión de la mano izquierda, es inmediato que las ecuaciones normales son
(X′∗X∗)β=X′∗y∗.
Como unimos ceros al final de , el lado derecho es el mismo que . En el lado izquierdo se agrega a la . Por lo tanto, las nuevas ecuaciones normales se simplifican aX ′ y ν 2 I = λ I X ′ XyX′yν2I=λIX′X
(X′X+λI)β=X′y.
Además de ser conceptualmente económico, no se necesitan nuevas manipulaciones para obtener este resultado, también es computacionalmente económico: su software para hacer mínimos cuadrados ordinarios también hará una regresión de cresta sin ningún cambio. (Sin embargo, puede ser útil en grandes problemas usar un software diseñado para este propósito, ya que explotará la estructura especial de para obtener resultados de manera eficiente durante un intervalo densamente espaciado de , lo que le permitirá explorar cómo varían las respuestas con .) λ λX∗λλ
Otra belleza de esta forma de ver las cosas es cómo puede ayudarnos a comprender la regresión de crestas. Cuando realmente queremos entender la regresión, casi siempre ayuda pensar en ella geométricamente: las columnas de constituyen vectores en un espacio vectorial real de dimensión . Al unir a , prolongándolos de -vectores a -vectores, estamos incrustando en un espacio más grande al incluir "imaginario", direcciones mutuamente ortogonales. La primera columna dep n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0XpnνIXnn+pRnRn+ppXse le da un pequeño componente imaginario de tamaño , alargándolo y sacándolo del espacio generado por las columnas originales . La segunda, tercera, ..., columnas se alargan de manera similar y se mueven fuera del espacio original en la misma cantidad , pero todas en diferentes direcciones nuevas. En consecuencia, cualquier colinealidad presente en las columnas originales se resolverá inmediatamente . Además, cuanto mayor hace, más se acercan estos nuevos vectores al individualνppthννpdirecciones imaginarias: se vuelven cada vez más ortonormales. En consecuencia, la solución de las ecuaciones normales será posible de inmediato y rápidamente se volverá numéricamente estable a medida que aumente de .ν0
Esta descripción del proceso sugiere algunos enfoques novedosos y creativos para abordar los problemas que Ridge Regression fue diseñado para manejar. Por ejemplo, utilizando cualquier medio (como la descomposición de la varianza descrita por Belsley, Kuh y Welsch en su libro de 1980 sobre Diagnóstico de regresión , Capítulo 3), puede identificar subgrupos de columnas casi colineales de , donde cada subgrupo Es casi ortogonal a cualquier otro. Solo necesita unir tantas filas a (y ceros a ) como haya elementos en el grupo más grande, dedicando una nueva dimensión "imaginaria" para desplazar cada elemento de un grupo lejos de sus hermanos: no necesita imaginario dimensiones para hacer esto.X y pXXyp