En la regresión de Ridge y LASSO, ¿por qué más pequeño?


8

¿Alguien puede proporcionar una visión intuitiva de por qué es mejor tener una versión beta más pequeña?

Para LASSO puedo entender que hay un componente de selección de características aquí. Menos características hacen que el modelo sea más simple y, por lo tanto, menos probable que se ajuste demasiado.

Sin embargo, para cresta, todas las características (factores) se mantienen. Solo los valores son más pequeños (en sentido norma L2). ¿Cómo simplifica esto el modelo?

¿Alguien puede proporcionar una visión intuitiva sobre esto?


más pequeño no es necesariamente mejor: encogerse hacia cualquier espacio reduce el riesgo, especialmente en las cercanías de ese espacio. Estos estimadores que menciona simplemente toman ese espacio para ser el origen.
user795305

Respuestas:


9

TL; DR: el mismo principio se aplica tanto a LASSO como a Ridge

Menos características hacen que el modelo sea más simple y, por lo tanto, es menos probable que se ajuste demasiado

Esta es la misma intuición con la regresión de cresta: evitamos que el modelo sobreajuste los datos, pero en lugar de apuntar a variables pequeñas y potencialmente espurias (que se reducen a cero en LASSO), en su lugar apuntamos a los coeficientes más grandes que podrían estar exagerando caso para sus respectivas variables.

La penalización L2 generalmente evita que el modelo otorgue "demasiada" importancia a cualquier variable, porque los coeficientes grandes se penalizan más que los pequeños.

Puede que esto no parezca que "simplifica" el modelo, pero hace una tarea similar de evitar que el modelo se ajuste demasiado a los datos disponibles.

Un ejemplo para construir la intuición.

Tome un ejemplo concreto: puede estar tratando de predecir los reingresos hospitalarios en función de las características del paciente.

En este caso, es posible que tenga una variable relativamente rara (como una enfermedad poco común) que está muy relacionada en su conjunto de entrenamiento con el reingreso. En un conjunto de datos de 10,000 pacientes, es posible que solo vea esta enfermedad 10 veces, con 9 reingresos (un ejemplo extremo para estar seguro)

Como resultado, el coeficiente podría ser masivo en relación con el coeficiente de otras variables. Al minimizar tanto la penalización MSE como la L2, este sería un buen candidato para que la regresión de cresta se "reduzca" hacia un valor más pequeño, ya que es raro (por lo que no afecta tanto a MSE) y un valor de coeficiente extremo.


4

No hay garantía de que tener pesos más pequeños sea realmente mejor. La regresión de lazo y cresta funciona al imponer conocimientos / supuestos / restricciones previos sobre la solución. Este enfoque funcionará bien si los anteriores / supuestos / restricciones se adaptan bien a la distribución real que generó los datos y, de lo contrario, podrían no funcionar bien. Con respecto a la simplicidad / complejidad, no son los modelos individuales los que son más simples o más complejos. Más bien, es la familia de modelos en consideración.

Desde una perspectiva geométrica, la regresión de lazo y cresta impone restricciones a los pesos. Por ejemplo, la penalización común / forma lagrangiana de regresión de cresta:

minβyXβ22+λβ22

puede reescribirse en la forma de restricción equivalente:

minβyXβ22s.t. β22c

Esto deja en claro que la regresión de cresta restringe los pesos para que se encuentren dentro de una hiperesfera cuyo radio se rige por el parámetro de regularización. Del mismo modo, el lazo restringe los pesos para que se encuentren dentro de un politopo cuyo tamaño se rige por el parámetro de regularización. Estas restricciones significan que la mayor parte del espacio del parámetro original está fuera de los límites, y buscamos los pesos óptimos dentro de un subespacio mucho más pequeño. Este subespacio más pequeño puede considerarse menos 'complejo' que el espacio completo.

Desde una perspectiva bayesiana, uno puede pensar en la distribución posterior sobre todas las opciones posibles de pesos. Tanto la regresión de lazo como la de cresta son equivalentes a la estimación de MAP después de colocar un prior en los pesos (el lazo usa un prior de Laplacia y la regresión de cresta usa un prior de Gauss). Un posterior más estrecho corresponde a una mayor restricción y menor complejidad, debido a que se da una alta densidad posterior a un conjunto más pequeño de parámetros. Por ejemplo, multiplicando la función de probabilidad por un estrecho gaussiano anterior (que corresponde a una penalización de cresta grande) produce un posterior más estrecho.

Una de las razones principales para imponer restricciones / antecedentes es que elegir el modelo óptimo de una familia más restringida tiene menos probabilidades de sobreajustar que elegirlo de una familia menos restringida. Esto se debe a que la familia menos restringida ofrece 'más' formas de ajustar los datos, y es cada vez más probable que uno de ellos pueda ajustar las fluctuaciones aleatorias en el conjunto de capacitación. Para un tratamiento más formal, vea el equilibrio de sesgo-varianza . Esto no significa necesariamente que elegir un modelo de una familia más restringida funcionará bien. Obtener un buen rendimiento requiere que la familia restringida contenga buenos modelos. Esto significa que tenemos que elegir una restricción previa que coincida con el problema específico en cuestión.


(+1) La idea clave en su respuesta a las preguntas de OP parece ser la compensación de la variación de sesgo
usuario 795305

1

Aunque la pregunta pedía una explicación intuitiva, en realidad hay una derivación rigurosa del error cuadrático medio (MSE) para la regresión de cresta que muestra que existen valores de logrando un MSE mejor que la regresión lineal.λ

Recuerde: Llame a el estimador de para una regresión de cresta cuyo parámetro de contracción es y define: .MSE(β^)=E[(β^β)(β^β)T]βλ^βλM(λ)=MSE(βλ^)

Por lo tanto, es el MSE de una regresión lineal.M(0)

Siguiendo estas notas del curso, se puede demostrar que:

M(0)M(λ)=λ(XTX+λI)1(2σ²I+λσ²(XTX)1λββT){(XTX+λI)1}T

Los términos son definitivos positivos, pero, para , el término en el medio es positivo también. Para estos valores, tenemos , que muestra que la regresión de cresta reduce el error cuadrático medio.(XTX+λI)1λ<2σ2(βTβ)1M(0)>M(λ)


Aunque el álgebra es bueno, no lo necesita para expresar su punto. Dado que OLS impone la restricción de la imparcialidad y la Regresión de Ridge elimina eso, nunca puede resultar en un MSE más grande que OLS y logrará el mismo MSE solo cuando su solución y la solución OLS sean idénticas: de lo contrario, debe tener un MSE más pequeño.
whuber

@whuber No entiendo el argumento en tu comentario. ¿No se puede llegar fácilmente a un estimador estúpido de que esté sesgado y tenga un MSE más alto que el estimador OLS? β
ameba

@Amoeba Sí, supongo que hay una sutileza: estoy suponiendo implícitamente que la pérdida de Regresión de Ridge para infinitesimal es transversal a la pérdida de OLS. Esto implica que para arbitrariamente pequeña debe haber soluciones RR con MSE más pequeño a menos que OLS ya logre el MSE imparcial más pequeño . λλ
whuber

@whuber De hecho, es obvio que relajando la restricción, uno solo podría reducir el MSE. Este teorema garantiza que realmente logremos esta reducción.
RUser4512
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.