No hay garantía de que tener pesos más pequeños sea realmente mejor. La regresión de lazo y cresta funciona al imponer conocimientos / supuestos / restricciones previos sobre la solución. Este enfoque funcionará bien si los anteriores / supuestos / restricciones se adaptan bien a la distribución real que generó los datos y, de lo contrario, podrían no funcionar bien. Con respecto a la simplicidad / complejidad, no son los modelos individuales los que son más simples o más complejos. Más bien, es la familia de modelos en consideración.
Desde una perspectiva geométrica, la regresión de lazo y cresta impone restricciones a los pesos. Por ejemplo, la penalización común / forma lagrangiana de regresión de cresta:
minβ∥y−Xβ∥22+λ∥β∥22
puede reescribirse en la forma de restricción equivalente:
minβ∥y−Xβ∥22s.t. ∥β∥22≤c
Esto deja en claro que la regresión de cresta restringe los pesos para que se encuentren dentro de una hiperesfera cuyo radio se rige por el parámetro de regularización. Del mismo modo, el lazo restringe los pesos para que se encuentren dentro de un politopo cuyo tamaño se rige por el parámetro de regularización. Estas restricciones significan que la mayor parte del espacio del parámetro original está fuera de los límites, y buscamos los pesos óptimos dentro de un subespacio mucho más pequeño. Este subespacio más pequeño puede considerarse menos 'complejo' que el espacio completo.
Desde una perspectiva bayesiana, uno puede pensar en la distribución posterior sobre todas las opciones posibles de pesos. Tanto la regresión de lazo como la de cresta son equivalentes a la estimación de MAP después de colocar un prior en los pesos (el lazo usa un prior de Laplacia y la regresión de cresta usa un prior de Gauss). Un posterior más estrecho corresponde a una mayor restricción y menor complejidad, debido a que se da una alta densidad posterior a un conjunto más pequeño de parámetros. Por ejemplo, multiplicando la función de probabilidad por un estrecho gaussiano anterior (que corresponde a una penalización de cresta grande) produce un posterior más estrecho.
Una de las razones principales para imponer restricciones / antecedentes es que elegir el modelo óptimo de una familia más restringida tiene menos probabilidades de sobreajustar que elegirlo de una familia menos restringida. Esto se debe a que la familia menos restringida ofrece 'más' formas de ajustar los datos, y es cada vez más probable que uno de ellos pueda ajustar las fluctuaciones aleatorias en el conjunto de capacitación. Para un tratamiento más formal, vea el equilibrio de sesgo-varianza . Esto no significa necesariamente que elegir un modelo de una familia más restringida funcionará bien. Obtener un buen rendimiento requiere que la familia restringida contenga buenos modelos. Esto significa que tenemos que elegir una restricción previa que coincida con el problema específico en cuestión.