- Si nuestro término de penalización será infinito para cualquier no sea , entonces ese es el que obtendremos. No hay otro vector que nos dé un valor finito de la función objetivo.λ→∞ββ=0
(Actualización: consulte la respuesta de Glen_b. ¡Esta no es la razón histórica correcta!)
- Esto proviene de la solución de regresión de crestas en notación matricial. La solución resulta ser
El término agrega una "cresta" a la diagonal principal y garantiza que la matriz resultante sea invertible. Esto significa que, a diferencia de OLS, siempre obtendremos una solución.
β^=(XTX+λI)−1XTY.
λI
La regresión de cresta es útil cuando los predictores están correlacionados. En este caso, los OLS pueden dar resultados descabellados con coeficientes enormes, pero si son penalizados podemos obtener resultados mucho más razonables. En general, una gran ventaja de la regresión de crestas es que la solución siempre existe, como se mencionó anteriormente. Esto se aplica incluso al caso donde , para el cual OLS no puede proporcionar una solución (única).n<p
La regresión de cresta también es el resultado cuando se coloca un previo normal en el vector .β
Aquí está la regresión bayesiana de la cresta: supongamos que nuestro anterior para es . Entonces porque [por supuesto] tenemos que
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
Busquemos el modo posterior (podríamos ver la media posterior u otras cosas también, pero para esto veamos el modo, es decir, el valor más probable). Esto significa que queremos
que es equivalente a
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
porque es estrictamente monótono y esto a su vez es equivalente a
logminβ∈Rp||y−Xβ||2+λβTβ
que debería parecer bastante familiar.
Así vemos que si ponemos un previo normal con media 0 y varianza en nuestro vector , el valor de que maximiza el posterior es el estimador de cresta. Tenga en cuenta que esto trata a más como un parámetro frecuenta porque no hay antecedentes, pero no se conoce, por lo que no es completamente bayesiano.σ2λββσ2
Editar: usted preguntó sobre el caso donde . Sabemos que un hiperplano en está definido por exactamente puntos. Si estamos ejecutando una regresión lineal entonces exactamente interpolamos nuestros datos y obtenemos . Esta es una solución, pero es terrible: nuestro rendimiento en los datos futuros probablemente será abismal. Ahora suponga que : ya no hay un hiperplano único definido por estos puntos. Podemos ajustar una multitud de hiperplanos, cada uno con 0 suma residual de cuadrados.n<pRppn=p||y−Xβ^||2=0n<p
Un ejemplo muy simple: supongamos que . Luego, obtendremos una línea entre estos dos puntos. Ahora suponga que pero . Imagina un avión con estos dos puntos. Podemos rotar este plano sin cambiar el hecho de que estos dos puntos están en él, por lo que hay innumerables modelos, todos con un valor perfecto de nuestra función objetivo, por lo que incluso más allá del tema del sobreajuste, no está claro cuál elegir.n=p=2n=2p=3
Como comentario final (según la sugerencia de @ gung), el LASSO (que usa una penalización ) se usa comúnmente para problemas de alta dimensión porque realiza automáticamente la selección de variables (establece algunos ). Deliciosamente, resulta que el LASSO es equivalente a encontrar el modo posterior cuando se usa un doble exponencial (también conocido como Laplace) antes en el vector . El LASSO también tiene algunas limitaciones, tales como la saturación en predictores y no grupos de predictores correlacionados necesariamente la manipulación de una manera ideal, a lo que la red elástica (combinación convexa de y sanciones) puede ser llevado a soportar.L1βj=0βnL1L2