La idea básica de la actualización bayesiana es que, dado algunos datos y antes del parámetro de interés θ , donde la relación entre los datos y el parámetro se describe utilizando la función de probabilidad , se usa el teorema de Bayes para obtener información posterior.Xθ
p ( θ ∣ X) ∝ p ( X∣ θ )p ( θ )
Esto se puede hacer de forma secuencial, en donde después de ver el primer punto de datos antes θ se convierte actualiza para posterior θ ' , al lado se puede tomar el segundo punto de datos x 2 y el uso posterior obtenido antes θ ' como suX1 θ θ′X2θ′ previo , para actualizar una vez más, etc.
Dejame darte un ejemplo. Imagine que desea estimar la media de distribución normal y que usted conoce σ 2 . En tal caso, podemos usar el modelo normal-normal. Suponemos normal anterior para μ con hiperparámetros μ 0 , σ 2 0 :μσ2μμ0 0, σ20 0:
X∣μμ∼Normal(μ, σ2)∼Normal(μ0, σ20)
Dado que la distribución normal es un conjugado previo para de distribución normal, tenemos una solución de forma cerrada para actualizar el previoμ
E(μ′∣x)Var(μ′∣x)=σ2μ+σ20xσ2+σ20=σ2σ20σ2+σ20
Desafortunadamente, estas soluciones simples de forma cerrada no están disponibles para problemas más sofisticados y debe confiar en algoritmos de optimización (para estimaciones puntuales utilizando el enfoque máximo a posteriori ) o simulación MCMC.
A continuación puede ver un ejemplo de datos:
n <- 1000
set.seed(123)
x <- rnorm(n, 1.4, 2.7)
mu <- numeric(n)
sigma <- numeric(n)
mu[1] <- (10000*x[i] + (2.7^2)*0)/(10000+2.7^2)
sigma[1] <- (10000*2.7^2)/(10000+2.7^2)
for (i in 2:n) {
mu[i] <- ( sigma[i-1]*x[i] + (2.7^2)*mu[i-1] )/(sigma[i-1]+2.7^2)
sigma[i] <- ( sigma[i-1]*2.7^2 )/(sigma[i-1]+2.7^2)
}
Si traza los resultados, verá cómo posterior se aproxima al valor estimado (su valor verdadero está marcado con una línea roja) a medida que se acumulan nuevos datos.
Para obtener más información, puede consultar esas diapositivas y el análisis bayesiano conjugado del documento de distribución gaussiano de Kevin P. Murphy. Compruebe también ¿Los antecedentes bayesianos se vuelven irrelevantes con muestras de gran tamaño? También puede consultar esas notas y esta entrada de blog para obtener una introducción paso a paso accesible a la inferencia bayesiana.