Actualización de un factor Bayes

Un factor Bayes se define en las pruebas bayesianas de hipótesis y en la selección del modelo bayesiano por la razón de dos probabilidades marginales: dada una muestra iid y las respectivas densidades de muestreo y , con los correspondientes y , el factor de Bayes para comparar los dos modelos es Un libro que estoy revisando actualmente tiene la extraña afirmación de que el factor Bayes anterior $(x_1,\ldots,x_n)$ $f_1(x|\theta)$ $f_2(x|\eta)$ $\pi_1$ $\pi_2$

{si}_{12} (X_{1}, ..., X_{norte}) \overset{def}{=} \frac{{metro}_{1} (X_{1}, ..., X_{norte})}{{metro}_{2} (X_{1}, ..., X_{norte})} \overset{def}{=} \frac{\int \prod_{yo = 1}^{norte} F_{1} (X_{yo} El | θ) π_{1} (re θ)}{\int \prod_{yo = 1}^{norte} F_{2} (X_{yo} El | η) π_{2} (re η)}

$\mathfrak{B}_{12}(x_1,\ldots,x_n)\stackrel{\text{def}}{=}\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\stackrel{\text{def}}{=}\frac{\int \prod_{i=1}^n f_1(x_i|\theta)\pi_1(\text{d}\theta)}{\int \prod_{i=1}^n f_2(x_i|\eta)\pi_2(\text{d}\eta)}$

B_{12} (x_{1}, \dots, x_{n})

$\mathfrak{B}_{12}(x_1,\ldots,x_n)$ se "forma multiplicando los individuales [factores de Bayes] juntos" (p.118). Esto es formalmente correcto si uno usa la descomposición

\begin{aligned} {si}_{12} (X_{1}, ..., X_{norte}) & = \frac{{metro}_{1} (X_{1}, ..., X_{norte})}{{metro}_{2} (X_{1}, ..., X_{norte})} \\ = \frac{{metro}_{1} (X_{norte} El | X_{1}, ..., X_{norte - 1})}{{metro}_{2} (X_{norte} El | X_{1}, ..., X_{norte - 1})} \times \frac{{metro}_{1} (X_{norte - 1} El | X_{norte - 2}, ..., X_{1})}{{metro}_{2} (X_{norte - 1} El | X_{norte - 2}, ..., X_{1})} \times \dots \\ \dots \times \frac{{metro}_{1} (X_{1})}{{metro}_{2} (X_{1})} \end{aligned}

$\begin{align*}\mathfrak{B}_{12}(x_1,\ldots,x_n)&=\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\\&=\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}\times \frac{m_1(x_{n-1}|x_{n-2},\ldots,x_1)}{m_2(x_{n-1}|x_{n-2},\ldots,x_1)}\times\cdots\\&\qquad\cdots\times\frac{m_1(x_1)}{m_2(x_1)}\end{align*}$ pero no veo una ventaja computacional en esta descomposición como la actualización de

\frac{{metro}_{1} (X_{norte} El | X_{1}, ..., X_{norte - 1})}{{metro}_{2} (X_{norte} El | X_{1}, ..., X_{norte - 1})}

$\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}$ requiere el mismo esfuerzo de cálculo que el cálculo original de

\frac{{metro}_{1} (X_{1}, ..., X_{norte})}{{metro}_{2} (X_{1}, ..., X_{norte})}

$\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}$ ejemplos de juguetes artificiales externos.

Pregunta: ¿Existe una forma genérica y computacionalmente eficiente de actualizar el factor Bayes desde $\mathfrak{B}_{12}(x_1,\ldots,x_n)$ a $\mathfrak{B}_{12}(x_1,\ldots,x_{n+1})$ que no requiere volver a calcular los márgenes completos $m_1(x_1,\ldots,x_n)$ y $m_2(x_1,\ldots,x_n)$ ?

Mi intuición es que, además de los filtros de partículas, que de hecho proceden a lo largo de la estimación de los factores de Bayes $\mathfrak{B}_{12}(x_1,\ldots,x_n)$ una nueva observación a la vez, no hay una forma natural de responder esta pregunta .

— Xi'an
fuente

No me parece claro que la redacción implique necesariamente una factorización secuencial , ya que las observaciones son id. Durante la escuela de posgrado, un profesor mencionó que el producto implica que uno podría usar aproximaciones asintóticas para los análisis bayesianos, pero extrañamente esto no había prendido (sarcasmo). ¿Quizás el libro podría estar insinuando eso?

— Cliff AB

@CliffAB: Sí, podría reescribir la probabilidad como un promedio de términos individuales, convergiendo a una distancia Kullback-Leibler de la distribución verdadera. Pero no creo que este sea el caso, a pesar de que el libro no es lo suficientemente claro como para mantener abiertas todas las opciones.

— Xi'an

Creo que hay un error tipográfico en la segunda ecuación mostrada: ¿debería ser en el segundo factor en la segunda línea?

m_{1} (x_{n - 1} | x_{n - 1}, \dots, x_{1})

$m_1(x_{n-1}|x_{n-1}, \ldots, x_1)$

— jochen 01 de

Presumiblemente, el propósito de una ecuación recursiva para el factor Bayes sería cuando ya haya calculado el factor Bayes para puntos de datos, y desee poder actualizar esto con un punto de datos adicional. Parece que es posible hacer esto sin volver a calcular los márgenes del vector de datos anterior, siempre que se conozca la forma de la función posterior . Suponiendo que conocemos la forma de esta función (y suponiendo los datos IID como en su pregunta), la densidad predictiva se puede escribir como: $n$ $\pi_n$

\begin{aligned} metro (X_{norte + 1} El | X_{1}, . . ., X_{norte}) & = \int_{Θ} F (X_{norte + 1} El | θ) π_{norte} (re θ El | X_{1}, . . ., X_{norte}) . \end{aligned}

$\begin{equation} \begin{aligned} m(x_{n+1} | x_1,...,x_n) &= \int \limits_\Theta f(x_{n+1}|\theta) \pi_n(d \theta | x_1,...,x_n). \\[6pt] \end{aligned} \end{equation}$

Por lo tanto, tienes:

\begin{aligned} metro (X_{1}, . . ., X_{norte + 1}) & = metro (X_{1}, . . ., X_{norte}) \int_{Θ} F (X_{norte + 1} El | θ) π_{norte} (re θ El | X_{1}, . . ., X_{norte}) . \end{aligned}

$\begin{equation} \begin{aligned} m(x_1,...,x_{n+1}) &= m(x_1,...,x_n) \int \limits_\Theta f(x_{n+1}|\theta) \pi_n(d \theta | x_1,...,x_n). \\[6pt] \end{aligned} \end{equation}$

Al comparar dos clases de modelos a través del factor Bayes, obtenemos la ecuación recursiva:

\begin{aligned} {si}_{12} (X_{1}, . . ., X_{norte + 1}) & = {si}_{12} (X_{1}, . . ., X_{norte}) \cdot \frac{\int_{Θ_{1}} F (X_{norte + 1} El | θ) π_{1, norte} (re θ El | X_{1}, . . ., X_{norte})}{\int_{Θ_{2}} F (X_{norte + 1} El | θ) π_{2, norte} (re θ El | X_{1}, . . ., X_{norte})} . \end{aligned}

$\begin{equation} \begin{aligned} \mathfrak{B}_{12}(x_1,...,x_{n+1}) &= \mathfrak{B}_{12}(x_1,...,x_{n}) \cdot \frac{\int _{\Theta_1} f(x_{n+1}|\theta) \pi_{1,n}(d \theta | x_1,...,x_n)}{\int _{\Theta_2} f(x_{n+1}|\theta) \pi_{2,n}(d \theta | x_1,...,x_n)}. \\[6pt] \end{aligned} \end{equation}$

Esto todavía implica la integración sobre el rango de parámetros, por lo que estoy de acuerdo con su opinión de que no parece haber ninguna ventaja computacional sobre simplemente volver a calcular el factor de Bayes a través de la fórmula inicial que proporciona. Sin embargo, puede ver que esto no requiere que vuelva a calcular los márgenes para el vector de datos anterior. (En cambio, calculamos las densidades predictivas del nuevo punto de datos condicional a los datos anteriores, bajo cada una de las clases de modelos). Al igual que usted, realmente no veo ninguna ventaja computacional de esto, a menos que ocurra que esta fórmula integral se simplifica fácilmente. En cualquier caso, supongo que le da otra fórmula para actualizar el factor Bayes.

— Ben - Restablece a Monica
fuente

Gracias. Es cierto que los marginales no necesitan ser recalculados, estrictamente sensuales , pero la cantidad de cómputo parece ser la misma, como usted observa.

— Xi'an

La única ventaja que se me ocurre es que, dado que ahora solo nos estamos integrando en una sola densidad (en lugar del producto de densidades), el integrando será menos volátil, por lo que esta última fórmula podría hacer que sea más fácil evitar problemas de flujo inferior en cálculo. Sin embargo, eso es muy grande.

n

$n$

— Ben - Restablece a Mónica el