Respuestas:
Imaginemos que desea inferir algún parámetro de algunos pares de entrada-salida observados . Supongamos que las salidas están relacionadas linealmente con las entradas a través de y que los datos están dañados por algún ruido :
donde es ruido gaussiano con media y varianza . Esto da lugar a una probabilidad gaussiana:
Regularicemos el parámetro imponiendo el anterior gaussiano donde es un escalar estrictamente positivo. Por lo tanto, combinando la probabilidad y lo anterior simplemente tenemos:
Tomemos el logaritmo de la expresión anterior. Soltando algunas constantes obtenemos:
Si maximizamos la expresión anterior con respecto a , obtenemos la llamada estimación máxima a posteriori para , o estimación MAP para abreviar. En esta expresión se hace evidente por qué el prior gaussiano puede interpretarse como un término de regularización L2.
Del mismo modo, la relación entre la norma L1 y la Laplace anterior puede entenderse de la misma manera. Tome en lugar de un prior gaussiano, un prior de Laplace combínelo con su probabilidad y tome el logaritmo.
Una buena referencia (quizás un poco avanzada) que detalla ambos problemas es el documento "Escasez adaptativa para el aprendizaje supervisado", que actualmente no parece fácil de encontrar en línea. Alternativamente, mira "Escasez adaptativa con Jeffreys Prior" . Otra buena referencia es "Sobre la clasificación bayesiana con antecedentes de Laplace" .
Para un modelo lineal con probabilidad normal multivariada anterior y normal multivariada, se obtiene una distribución posterior normal multivariada en la que la media del modelo posterior (y el modelo a posteriori máximo) es exactamente lo que se obtendría con Tikhonov regularizado ( regularizado) mínimos cuadrados con un parámetro de regularización apropiado.
Tenga en cuenta que hay una diferencia más fundamental en que el posterior bayesiano es una distribución de probabilidad, mientras que la solución de mínimos cuadrados regularizados de Tikhonov es una estimación puntual específica.
Esto se discute en muchos libros de texto sobre métodos bayesianos para problemas inversos. Véase, por ejemplo:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
De manera similar, si tiene una probabilidad laplaciana anterior y una probabilidad normal multivariada, entonces el máximo de la distribución posterior se produce en un punto que podría obtener al resolver un problema de mínimos cuadrados regularizados .
Primero observe que la mediana minimiza la norma L1 (consulte aquí o aquí para obtener más información sobre L1 y L2)
mientras que la media minimiza L2
ahora, recuerde que el parámetro distribuciones normales se puede estimar usando la media muestral , mientras que el estimador MLE para el parámetro de distribución Laplace es la mediana. Por lo tanto, el uso de la distribución Normal es equivalente a la optimización de la norma L2 y el uso de la distribución de Laplace, al uso de la optimización L1. En la práctica, puede pensar que esa mediana es menos sensible a los valores atípicos que a la media, y de la misma manera, el uso de la distribución de Laplace de cola más gruesa como anterior hace que su modelo sea menos propenso a los valores atípicos que el uso de la distribución Normal.μ
Hurley, WJ (2009) Un enfoque inductivo para calcular el MLE para la distribución exponencial doble . Revista de métodos estadísticos aplicados modernos: 8 (2), artículo 25.
Para un problema de regresión con variables (sin intercepción), debe realizar OLS como
En regresión regularizada con penalización , lo haces
Podemos hacer de manera equivalente (tenga en cuenta que el signo cambia)
Esto se relaciona directamente con el principio bayesiano de
o equivalente (en condiciones de regularidad)
Ahora no es difícil ver qué distribución familiar exponencial corresponde a qué tipo de penalización.
Para poner la equivalencia con mayor precisión:
La optimización de los pesos del modelo para minimizar una función de pérdida de error al cuadrado con la regularización L2 es equivalente a encontrar los pesos que son más probables bajo una distribución posterior evaluada utilizando la regla de Bayes, con pesos gaussianos independientes de media cero antes
Prueba:
La función de pérdida como se describió anteriormente estaría dada por
Tenga en cuenta que la distribución para un gaussiano multivariante es
Usando la regla de Bayes, tenemos que
Donde podemos dividir el Guassian multidimensional en un producto, porque la covarianza es un múltiplo de la matriz de identidad.
Tome la probabilidad de registro negativa
Por supuesto, podemos soltar la constante y multiplicar por cualquier cantidad sin afectar fundamentalmente la función de pérdida. (constante no hace nada, la multiplicación efectivamente escala la tasa de aprendizaje. No afectará la ubicación de los mínimos) Por lo tanto, podemos ver que la probabilidad logarítmica negativa de la distribución posterior es una función de pérdida equivalente a la función de pérdida de error cuadrada regularizada L2.
Este equilibrio general es general y se aplica a cualquier función parametrizada de pesos, no solo a la regresión lineal, como parece estar implicado anteriormente.
Hay dos características del modelado bayesiano que deben enfatizarse, cuando se discute el equivalente de ciertas estimaciones penalizadas de máxima verosimilitud y procedimientos bayesianos.
D dimension
caso de regresión lineal, ¿puedenbeta
ysigma
tienen soluciones explícitas? Estoy leyendo PRML y encuentro la ecuación (1.67) en la página 30 y no tengo idea de cómo resolverla. Con la máxima probabilidad, resolvemosbeta
y luegosigma
ajustamos el gradiente a cero. En el cuadrado mínimo regularizado, dado que se conoce el parámetro de reqularización, algunoslambda
lo resolvemosbeta
directamente. Pero si resolvemos directamente el MAP, ¿cuál es el fin de resolverbeta
,sigma
? ¿Pueden tener una solución explícita o debemos usar un proceso iterativo?