Vista frecuente 👀
En cierto sentido, podemos pensar en ambas regularizaciones como "reducir los pesos" ; L2 minimiza la norma euclidiana de los pesos, mientras que L1 minimiza la norma de Manhattan. Siguiendo esta línea de pensamiento, podemos razonar que los equipotenciales de L1 y L2 son esféricos y en forma de diamante respectivamente, por lo que es más probable que L1 conduzca a soluciones dispersas, como se ilustra en el Reconocimiento de patrones y el aprendizaje automático de Bishop :
Vista bayesiana 👀
Sin embargo, para comprender cómo se relacionan los antecedentes con el modelo lineal , necesitamos comprender la interpretación bayesiana de la regresión lineal ordinaria . El blog de Katherine Bailey es una excelente lectura para esto. En pocas palabras, asumimos errores de iid normalmente distribuidos en nuestro modelo lineal
y = θ⊤X + ϵ
norteyyo, i = 1 , 2 , ... , Nϵk∼ N( 0 , σ)
yp ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
Como resultado ... El estimador de máxima verosimilitud es idéntico a minimizar el error al cuadrado entre los valores de salida pronosticados y reales bajo el supuesto de normalidad para el error.
θ^MLE= argmaxθIniciar sesiónPAGS( yEl | θ)= argminθ∑i = 1norte( yyo- θ⊤Xyo)2
Regularización como priorizar pesas
Si tuviéramos que colocar un previo no uniforme en los pesos de la regresión lineal, la estimación de la probabilidad máxima a posteriori (MAP) sería:
θ^MAPA= argmaxθIniciar sesiónPAGS( yEl | θ)+logPAGS( θ )
PAGS( θ )θ
PAGS( θ )θ
Ahora tenemos otra visión de por qué es más probable que colocar un Laplace antes de los pesos induzca la dispersión: debido a que la distribución de Laplace está más concentrada en torno a cero , es más probable que nuestros pesos sean cero.