¿Alguien puede explicar anteriores conjugados en términos más simples posibles?

23

He estado tratando de entender la idea de conjugar los antecedentes en las estadísticas bayesianas por un tiempo, pero simplemente no lo entiendo. ¿Alguien puede explicar la idea en los términos más simples posibles, quizás utilizando el "previo gaussiano" como ejemplo?

bayesian conditional-probability conjugate-prior

— Jenna Maiz
fuente

23

Un previo para un parámetro casi siempre tendrá alguna forma funcional específica (escrita en términos de densidad, generalmente). Digamos que nos restringimos a una familia particular de distribuciones, en cuyo caso elegir nuestro previo se reduce a elegir los parámetros de esa familia.

Por ejemplo, considere un modelo normal $Y_i \stackrel{_\text{iid}}{\sim} N(\mu,\sigma^2)$ . Por simplicidad, tomemos también $\sigma^2$ como se conoce. Esta parte del modelo, el modelo para los datos, determina la función de probabilidad.

Para completar nuestro modelo bayesiano, aquí necesitamos un previo para $\mu$ .

Como se mencionó anteriormente, comúnmente podríamos especificar alguna familia de distribución para nuestro anterior para $\mu$ y luego solo tenemos que elegir los parámetros de esa distribución (por ejemplo, a menudo la información previa puede ser bastante vaga, como más o menos donde queremos que se concentre la probabilidad) en lugar de una forma funcional muy específica, y podemos tener suficiente libertad para modelar lo que queremos al elegir los parámetros, por ejemplo, para que coincidan con una media y varianza anteriores).

Si resulta que la posterior para $\mu$ es de la misma familia que la anterior, entonces se dice que la anterior es "conjugada".

(Lo que hace que resulte ser conjugado es la forma en que se combina con la probabilidad)

Entonces, en este caso, tomemos un gaussiano anterior para (digamos ). Si hacemos eso, vemos que la posterior para también es gaussiana. En consecuencia, el prior gaussiano fue un prior conjugado para nuestro modelo anterior. $\mu$ $\mu\sim N(\theta,\tau^2)$ $\mu$

Eso es todo lo que hay que hacer realmente: si el posterior es de la misma familia que el anterior, es un anterior conjugado.

En casos simples, puede identificar un conjugado antes mediante la inspección de la probabilidad. Por ejemplo, considere una probabilidad binomial; dejando caer las constantes, parece una densidad beta en ; y debido a la forma en que se combinan los poderes de y , se multiplicará por una beta antes de dar también un producto de los poderes de y ... para que podamos ver de inmediato la probabilidad de que la beta será un conjugado previo para en la probabilidad binomial. $p$ $p$ $(1-p)$ $p$ $(1-p)$ $p$

En el caso gaussiano, es más fácil ver que sucederá considerando las densidades logarítmicas y la probabilidad logarítmica; la log-verosimilitud será cuadrática en y la suma de dos cuadráticos es cuadrática, por lo que un log-anterior cuadrático + verosimilitud cuadrática da un cuadrático posterior (cada uno de los coeficientes del término de orden más alto será, por supuesto, negativo). $\mu$

— Glen_b -Reinstate a Monica
fuente

9

Si su modelo pertenece a una familia exponencial , es decir, si la densidad de la distribución es de la forma

f (x | θ) = h (x) \exp {T (θ) \cdot S (x) - ψ (θ)} x \in X θ \in Θ

$f(x|\theta)=h(x)\exp\{T(\theta)\cdot S(x)-\psi(\theta)\}\qquad x\in\mathcal{X}\quad\theta\in\Theta$ con respecto a unamedida dominante dada(Lebesgue, contando, y tc.), donde

t \cdot s

$t\cdot s$ denota un producto escalar sobre

R^{d}

$\mathbb{R}^d$ y

T : X ⟶ R^{d} S : Θ ⟶ R^{d}

$T:\mathcal{X}\longrightarrow \mathbb{R}^d\qquad S:\Theta\longrightarrow \mathbb{R}^d$ son funciones medibles, los anteriores conjugados en

θ

$\theta$ están definidos por densidades de la forma

π (θ | ξ, λ) = C (ξ, λ) \exp {T (θ) \cdot ξ - λ ψ (θ)}

$\pi(\theta|\xi,\lambda)=C(\xi,\lambda)\exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\}$ [con respecto a unamedida dominante elegida arbitrariamente

d ν

$\text{d}\nu$ en

Θ

$\Theta$ ] con

C (ξ, λ)^{- 1} = \int_{Θ} \exp {T (θ) \cdot ξ - λ ψ (θ)} d ν < \infty

$C(\xi,\lambda)^{-1}=\int_\Theta \exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\} \text{d}\nu<\infty$ y

λ \in Λ \subset R_{+}

$\lambda\in\Lambda\subset\mathbb{R}_+$ ,

ξ \in Ξ \subset λ T (X)

$\xi\in\Xi\subset \lambda T(\mathcal{X})$

La elección de la medida dominante es determinante para la familia de los antecedentes. Si, por ejemplo, uno se enfrenta a una probabilidad media normal en $\mu$ como en la respuesta de Glen_b , elegir la medida de Lebesgue $\text{d}\mu$ ya que la medida dominante conduce a que las anteriores normales se conjuguen. Si, en cambio, se elige $(1+\mu^2)^{-2}\text{d}\mu$ como la medida dominante, los anteriores conjugados están dentro de la familia de distribuciones con densidades

\exp {- α (μ - μ_{0})^{2}} α > 0, μ_{0} \in R

$\exp\{-\alpha(\mu-\mu_0)^2\} \qquad\alpha>0,\ \ \mu_0\in\mathbb R$ con respecto a esta medida dominante y, por lo tanto, ya no son anteriores normales. Esta dificultad es esencialmente la misma que la de elegir una parametrización particular de la probabilidad y optar por la medida de Lebesgue para esta parametrización. Cuando se enfrenta a una función de probabilidad, no existe una medida dominante inherente (o intrínseca o de referencia) en el espacio de parámetros.

Fuera de este entorno familiar exponencial, no existe una familia no trivial de distribuciones con un soporte fijo que permita conjugar a los anteriores. Esta es una consecuencia del lema Darmois-Pitman-Koopman .

— Xi'an
fuente

11

"¿En los términos más simples posibles?" Quizás una explicación que no asume el conocimiento previo de las medidas sería más útil para el PO.

3

Por desgracia, me temo que los antecedentes conjugados no tienen sentido sin un fondo de medida (a pesar de que este es el secreto mejor guardado en el Universo).

— Xi'an

66

En mi opinión, los "términos más simples posibles" están abiertos a interpretación, y una explicación que hace uso de las matemáticas avanzadas, como la teoría de la medida, podría ser "simple" en algún sentido, tal vez incluso "más simple" que una explicación que evite dicha maquinaria. En cualquier caso, tal explicación puede ser muy esclarecedora para alguien que tenga los antecedentes necesarios para comprenderla, y es inofensivo incluir una respuesta como esta en una lista de varias formas de explicar un tema. Escribimos respuestas no solo para OP sino para todos los futuros lectores.

— littleO

1

@LBogaardt Su crítica tendría más peso si pudiera vincular a una o más preguntas donde cree que esta respuesta sería tanto sobre el tema como a un nivel más adecuado. Tenga en cuenta que "simple" no es un término bien definido y tiene diferentes interpretaciones subjetivas. De todos modos, sería inválido combinarlo con "matemáticamente poco sofisticado", como lo sugieren sus comentarios.

— whuber

2

La respuesta de Xi'an no es inútil para mí. Aprendí algo

— littleO

2

Me gusta usar la noción de un "núcleo" de una distribución. Aquí es donde solo se dejan las partes que dependen del parámetro. Algunos ejemplos simples.

Núcleo normal

p (μ | a, b) = K^{- 1} \times \exp (a μ^{2} + b μ)

$p(\mu|a,b) = K^{-1} \times \exp(a\mu^2 +b\mu)$ Donde

K

$K$ es la "constante de normalización"

K = \int \exp (a μ^{2} + b μ) d μ = \sqrt{\frac{π}{- a}} \exp (- \frac{b^{2}}{4 a})

$K=\int \exp(a\mu^2 +b\mu)d\mu=\sqrt{\frac{\pi}{-a}}\exp(-\frac{b^2}{4a})$ La conexión con los parámetros estándar de media / varianza es

E (μ | a, b) = - \frac{b}{2 a}

$E(\mu|a,b)=-\frac{b}{2a}$ y

V a r (μ | a, b) = - \frac{1}{2 a}

$Var(\mu|a,b)=-\frac{1}{2a}$

Núcleo beta

p (θ | a, b) = K^{- 1} \times θ^{a} (1 - θ)^{b}

$p(\theta|a,b)=K^{-1}\times \theta^a (1-\theta)^b$ Donde

K = \int θ^{a} (1 - θ)^{b} d θ = B e t a (a + 1, b + 1)

$K=\int \theta^a (1-\theta)^b d\theta = Beta(a+1,b+1)$

Cuando observamos la función de probabilidad, podemos hacer lo mismo y expresarla en "forma de núcleo". Por ejemplo con datos iid

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = Q \times f (μ)

$p(D|\mu)=\prod_{i=1}^n p(x_i|\mu)=Q\times f(\mu)$

$Q$ $f(\mu)$

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = [\prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}}] \times \prod_{i = 1}^{n} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2} - 2 x_{i} μ + μ^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2}}{2}) \times \exp (μ \sum_{i = 1}^{n} x_{i} - μ^{2} \frac{n}{2}) = Q \times \exp (a μ^{2} + b μ)

$p(D|\mu) =\prod_{i=1}^n p(x_i|\mu) =\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_i-\mu)^2}{2}) =\left[\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\right]\times \prod_{i=1}^n \exp(-\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2-2x_i\mu+\mu^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})\times\exp(\mu\sum_{i=1}^n x_i-\mu^2\frac{n}{2}) =Q\times \exp(a\mu^2 +b\mu)$

where $a=-\frac{n}{2}$ and $b=\sum_{i=1}^n x_i$ and $Q=(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})$

This likelihood function has the same kernel as the normal distribution for $\mu$ , so a conjugate prior for this likelihood is also the normal distribution.

p (μ | a_{0}, b_{0}) = K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ)

$p(\mu|a_0,b_0)=K_0^{-1}\exp(a_0\mu^2 +b_0\mu)$ The posterior is then

p (μ | D, a_{0}, b_{0}) \propto K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ) \times Q \times \exp (a μ^{2} + b μ) = K_{0}^{- 1} \times Q \times \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ) \propto \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ)

$p(\mu|D,a_0,b_0)\propto K_0^{-1}\exp(a_0\mu^2 +b_0\mu)\times Q\times \exp(a\mu^2 +b\mu)=K_0^{-1}\times Q\times \exp([a+a_0]\mu^2 +[b+b_0]\mu)\propto\exp([a+a_0]\mu^2 +[b+b_0]\mu)$ Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

— probabilityislogic
fuente

1

(+1) I appreciate the pseudo-data intuition!

— Xi'an

1

For a given distribution family $D_{lik}$ of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family $D_{pri}$ as the posterior (e.g. Beta),

then $D_{pri}$ and $D_{lik}$ are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: $\underbrace{p(\theta|x)}_{\text{posterior}} \sim \underbrace{p(x|\theta)}_{\text{likelihood}} \cdot \underbrace{p(\theta)}_{\text{prior}}$

— Thomas G.
fuente

How does this explain what a conjugate prior is?

— LBogaardt

ok I'll edit that.

— Thomas G.