+1 en la ilustración de Glen_b y los comentarios de estadísticas en el estimador de Ridge. Solo me gustaría agregar un punto de vista puramente matemático (álgebra lineal) en la regresión de Ridge que responde a las preguntas OP 1) y 2).
Primero tenga en cuenta que es una matriz semidefinida positiva simétrica - veces la matriz de covarianza de la muestra. Por lo tanto tiene la descomposición propia.X′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Ahora, dado que la inversión matricial corresponde a la inversión de los valores propios, el estimador OLS requiere (tenga en cuenta que ). Obviamente, esto solo funciona si todos los valores propios son estrictamente mayores que cero, . Para esto es imposible; para es en general cierto: esto es donde generalmente nos preocupa la multicolinealidad .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Como estadísticos, también queremos saber cómo pequeñas perturbaciones en los datos cambian las estimaciones. Está claro que un pequeño cambio en cualquier conduce a una gran variación en si es muy pequeño.Xdi1/didi
Entonces, lo que hace la regresión de Ridge es mover todos los valores propios más lejos de cero como
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
que ahora tiene valores propios . Es por eso que elegir un parámetro de penalización positiva hace que la matriz sea invertible, incluso en el caso . Para la regresión de Ridge, una pequeña variación en los datos ya no tiene el efecto extremadamente inestable que tiene sobre la inversión de la matriz.
di+λ≥λ≥0p≫nX
La estabilidad numérica está relacionada con la contracción a cero, ya que ambos son una consecuencia de agregar una constante positiva a los valores propios: lo hace más estable porque una pequeña perturbación en no cambia demasiado el inverso; lo reduce cerca de ya que ahora el término se multiplica por que está más cerca de cero que la solución OLS con valores propios inversos .0 V - 1 X ′ y 1 / ( d i + λ ) 1 / dX0V−1X′y1/(di+λ)1/d