¿Cómo completo el cuadrado con probabilidad normal y normal anterior?

¿Cómo completo el cuadrado desde el punto donde lo dejé y es correcto hasta ahora?

Tengo un previo normal para $\beta$ de la forma $p(\beta|\sigma^2)\sim \mathcal{N}(0,\sigma^2V)$ , Llegar:

$p(\beta|\sigma^2)=(2\pi\sigma^2V)^\frac{p}{2}\exp[-\frac{1}{2\sigma^2}\beta^T\beta]$

dónde $\beta^T\beta$ es . $\sum\limits_{i=1}^p \beta_i^2$

Mi probabilidad tiene una distribución normal para los puntos de datos y de la forma $p(y|\beta,\sigma^2)\sim\mathcal{N}(B\beta,\sigma^2I)$

$p(y|\beta,\sigma^2)=(2\pi \sigma^2V)^\frac{n}{2}\exp[-\frac{1}{2\sigma^2}({\bf y}-{\bf B}{\bf \beta})^T({\bf y}-{\bf B}{\bf \beta})]$

(Tenga en cuenta que es una matriz / vector, \ bf no funciona). $\beta$

Para obtener mi posterior para , combiné lo anterior, tomé solo las partes exponenciales y luego me expandí para obtener: $\beta$

$\exp[-\frac{1}{2\sigma^2}({\bf y}^T{\bf y}-{\bf y}^T{\bf B}\beta-\beta{\bf B}^T{\bf y}-\beta^T{\bf B}^T{\bf B}\beta)]\exp[-\frac{1}{2\sigma^2}({\bf \beta}^T{\bf B})]$ .

Eliminé el término , ya que no es una función de . $({\bf y}^T{\bf y})$ $\beta$

Poniendo en una expresión sin el exponencial:

$-\frac{1}{2\sigma^2}(-{\bf y}^T{\bf B}\beta-\beta{\bf B}^T{\bf y}-\beta^T{\bf B}^T{\bf B}\beta+{\bf \beta}^T{\bf B})$ .

Sé que necesito combinar los términos similares y adoptar la forma de la distribución normal multivariante, que es a lo que apunto, pero no estoy seguro de cómo hacerlo. ¿Probablemente tengo que agregar un término adicional a la expresión para que tenga la forma correcta?

Nota: Esto no es tarea, es un proyecto, pero mi conocimiento de trabajo bayesiano no es bueno en absoluto y, por lo tanto, necesito entender el trabajo. Tengo la intención de integrar el $\beta$ y luego el $\sigma^2$ después de entrar en la forma multivariante.

— Ellie
fuente

Si solo está interesado en el cálculo, este enlace puede ser de interés.

Puede que no sea su tarea, pero creo que recuerdo este problema del libro de texto de análisis de datos Bayesian de Gelman et al.

— David LeBauer

El enlace a la página de Wikipedia anterior es lo que estoy tratando de hacer, pero es el ejercicio real que no sé cómo hacer.

— Ellie

Estoy revisando el libro 'Análisis de datos bayesianos' y he encontrado en el capítulo 15 que, de hecho, es un diseño similar al que estoy tratando de hacer, pero nuevamente no hay trabajo que seguir.

— Ellie

Comenzaré desde cero, ya que la publicación original tiene algunos errores tipográficos matemáticos como signos incorrectos, dejando caer el $V$ matriz, etc.

Has especificado antes $p(\beta)=\mathcal{N}( 0, \sigma^2 V )$ y probabilidad: $p(y | \beta ) = \mathcal{N}( B\beta, \sigma^2I )$ .

Podemos escribir cada uno de estos simplemente como expresiones de términos dentro del $\exp$ eso depende de $\beta$ , agrupando todos los términos no relacionados con $\beta$ en una sola constante:

$\log p( \beta ) + \mbox{const} = -\frac{1}{2\sigma^2} \beta^T V^{-1} \beta$

$\log p( y | \beta ) + \mbox{const} = -\frac{1}{2\sigma^2}( \beta^T B^TB \beta - 2y^T B \beta ) \quad$ (tenga en cuenta que $y^TB\beta = \beta^T B^T y$ siempre)

Agregado estos en el espacio de registro y la recopilación de términos similares produce el registro posterior no normalizado

$\log p( \beta | y ) + \mbox{const} = -\frac{1}{2\sigma^2}( \beta^T(V^{-1} + B^TB)\beta - 2y^T B \beta )\quad$ (1)

... aquí, hemos usado la identidad estándar $x^TAx + x^TCx = x^T(A+C)x$ para cualquier vector $x$ y matrices $A,C$ de tamaño apropiado.

OK, nuestro objetivo ahora es "completar" el cuadrado. Nos gustaría una expresión de la siguiente forma, lo que indicaría que la posterior para $\beta$ es gaussiano

$\log p( \beta | y ) + \mbox{const} = (\beta - \mu_p)^T \Lambda_p (\beta - \mu_p ) = \beta^T \Lambda_p \beta -2\mu_p^T \Lambda_p \beta + \mu_p^T \Lambda_p \mu_p$

donde los parámetros $\mu_p, \Lambda_p$ definir la media posterior y la matriz de covarianza inversa respectivamente.

Bueno, por inspección eqn. (1) se parece mucho a este formulario si configuramos

$\Lambda_p = V^{-1} + B^TB \quad$ y $\quad \mu_p = \Lambda_p^{-1}B^Ty$

En detalle, podemos mostrar que esta sustitución crea cada término necesario a partir de (1):

término cuadrático: $\beta^T \Lambda_p \beta = \beta^T( V^{-1} + B^TB)\beta$

término lineal: $\mu_p^T \Lambda_p \beta = ( \Lambda_p^{-1}B^Ty )^T \Lambda_p \beta = y^T B \Lambda_p^{-1} \Lambda_p \beta = y^T B \beta$

.... aquí usamos hechos $(AB)^T = B^T A^T$ y $(\Lambda_p^{-1})^T =\Lambda_p^{-1}$ debido a la simetría ( $\Lambda_p$ es simétrica, entonces también lo es su inverso).

Sin embargo, esto nos deja con un término extra molesto $\mu_p^T \Lambda_p \mu_p$ . Para evitar esto, solo restamos este término de nuestro resultado final. Por lo tanto, podemos sustituir directamente nuestro $\mu_p, \Lambda_p$ parámetros en (1) para obtener

$\log p( \beta | y ) + \mbox{const} = -\frac{1}{2\sigma^2}[ (\beta-\mu_p)^T\Lambda_p(\beta-\mu_p) - \mu_p\Lambda_p\mu_p ]$

ya que ese último término es constante con respecto a $\beta$ , podemos simplemente convertirlo en la gran constante de normalización en el lado izquierdo y hemos logrado nuestro objetivo.

— Mike Hughes
fuente

El último término de la última ecuación debe ser

μ_{p}^{T} Λ_{p} μ_{p}

$\mu_p^T \Lambda_p \mu_p$

— alberto