Un previo para un parámetro casi siempre tendrá alguna forma funcional específica (escrita en términos de densidad, generalmente). Digamos que nos restringimos a una familia particular de distribuciones, en cuyo caso elegir nuestro previo se reduce a elegir los parámetros de esa familia.
Por ejemplo, considere un modelo normal Yi∼iidN(μ,σ2) . Por simplicidad, tomemos también σ2 como se conoce. Esta parte del modelo, el modelo para los datos, determina la función de probabilidad.
Para completar nuestro modelo bayesiano, aquí necesitamos un previo para μ .
Como se mencionó anteriormente, comúnmente podríamos especificar alguna familia de distribución para nuestro anterior para μ y luego solo tenemos que elegir los parámetros de esa distribución (por ejemplo, a menudo la información previa puede ser bastante vaga, como más o menos donde queremos que se concentre la probabilidad) en lugar de una forma funcional muy específica, y podemos tener suficiente libertad para modelar lo que queremos al elegir los parámetros, por ejemplo, para que coincidan con una media y varianza anteriores).
Si resulta que la posterior para μ es de la misma familia que la anterior, entonces se dice que la anterior es "conjugada".
(Lo que hace que resulte ser conjugado es la forma en que se combina con la probabilidad)
Entonces, en este caso, tomemos un gaussiano anterior para (digamos μ ∼ N ( θ , τ 2 ) ). Si hacemos eso, vemos que la posterior para μ también es gaussiana. En consecuencia, el prior gaussiano fue un prior conjugado para nuestro modelo anterior.μμ∼N(θ,τ2)μ
Eso es todo lo que hay que hacer realmente: si el posterior es de la misma familia que el anterior, es un anterior conjugado.
En casos simples, puede identificar un conjugado antes mediante la inspección de la probabilidad. Por ejemplo, considere una probabilidad binomial; dejando caer las constantes, parece una densidad beta en ; y debido a la forma en que se combinan los poderes de p y ( 1 - p ) , se multiplicará por una beta antes de dar también un producto de los poderes de p y ( 1 - p ) ... para que podamos ver de inmediato la probabilidad de que la beta será un conjugado previo para p en la probabilidad binomial.pp(1−p)p(1−p)p
En el caso gaussiano, es más fácil ver que sucederá considerando las densidades logarítmicas y la probabilidad logarítmica; la log-verosimilitud será cuadrática en y la suma de dos cuadráticos es cuadrática, por lo que un log-anterior cuadrático + verosimilitud cuadrática da un cuadrático posterior (cada uno de los coeficientes del término de orden más alto será, por supuesto, negativo).μ