MCMC y aumento de datos

He estado mirando una pregunta de aumento de datos de MCMC; La forma general de la pregunta es la siguiente:

Suponga que los datos recopilados en un proceso sugieren y se sugiere un parámetro anterior para la tasa como . Los datos se registran y presentan en una forma típica (es decir, el número de ocurrencias de cada valor para de a ), sin embargo, los datos recopilados no discriminan en los casos en que (es decir todas las ocurrencias donde $X_{i} \sim \text{Pois}(\lambda)$ $\lambda \sim \text{Exp}(\lambda_{0})$ $X_{i}$ $0$ $n$ $X_{i} \leq 1$ $X_{i} = 0$ y $X_{i} = 1$ se agrupan en una categoría).

Dada la información, la probabilidad y lo descrito anteriormente, la pregunta pide:

La forma posterior de $\lambda$ ,
El número de ocurrencias donde $X_{i} = 0$ .

No estoy realmente seguro de cómo responder a esta pregunta, pero soy consciente de que Gibbs Sampling se puede utilizar en el aumento de datos. ¿Alguien tiene alguna información sobre cómo se podría hacer esto?

EDITAR:

Debo especificar que es principalmente la segunda parte (el número de ocurrencias donde $X_{i} = 0$ ) de lo que no estoy seguro. Para la primera parte (la forma posterior de $\lambda$ ), dada la probabilidad y lo sugerido anteriormente, he razonado (aunque estoy feliz de que me corrijan):

Dado:

π (λ | \vec{x}) \propto p (\vec{x} | λ) \times p (λ)

$\pi(\lambda|\vec{x}) \propto p(\vec{x}|\lambda) \times p(\lambda)$

Entonces, para el modelo dado anteriormente:

π (λ | \vec{x}) = \frac{λ^{\sum_{i = 1}^{n} x_{i}}}{\sum_{i = 1}^{n} x_{i}!} e^{- n λ} \times λ_{0} e^{- λ λ_{0}}

$\pi(\lambda|\vec{x}) = \frac{\lambda^{\sum_{i=1}^{n}x_{i}}}{\sum_{i=1}^{n}x_{i}!}e^{-n\lambda} \times \lambda_{0}e^{-\lambda \lambda_{0}}$

Simplificando los rendimientos:

π (λ | \vec{x}) = \frac{λ^{\sum_{i = 1}^{n} x_{i}}}{\sum_{i = 1}^{n} x_{i}!} e^{- λ (n + λ_{0})} λ_{0}

$\pi(\lambda|\vec{x}) = \frac{\lambda^{\sum_{i=1}^{n}x_{i}}}{\sum_{i=1}^{n}x_{i}!}e^{-\lambda(n+\lambda_{0})}\lambda_{0}$

que es proporcional a (y, por lo tanto, la forma posterior viene dada por):

π (λ | \vec{x}) \propto λ^{\sum_{i = 1}^{n} x_{i}} e^{- λ (n + λ_{0})} λ_{0}

$\pi(\lambda|\vec{x}) \propto \lambda^{\sum_{i=1}^{n}x_{i}}e^{-\lambda(n+\lambda_{0})}\lambda_{0}$

— usuario9171
fuente

Su respuesta no tiene en cuenta el hecho de que las observaciones iguales a cero y a una se fusionan: lo que calculó es el posterior para los datos completos de Poisson, $(X_1,\ldots,X_n)$ , en lugar de los datos agregados o combinados, $(X_1^*,\ldots,X^*_n)$ .

Si tomamos la convención que casos cuando la observación $X_i^*=1$ corresponden a las $X_i=1$ o $X_i=0$ y la observación $X_i^*=k>1$ a $X_i=k$ , la densidad del vector observado $(X_1^*,\ldots,X^*_n)$ es (después de un poco de álgebra y factorización)

π (λ | x_{1}^{*}, \dots, x_{n}^{*}) \propto λ^{\sum_{i = 1}^{n} x_{i}^{*} I (x_{i}^{*} > 1)} \exp {- λ (λ_{0} + n)} \times {1 + λ}^{n_{1}}

$\pi(\lambda|x_1^*,\ldots,x^*_n) \propto \lambda^{\sum_{i=1}^n x_i^*\mathbb{I}(x_i^*>1)} \exp\{-\lambda(\lambda_0+n)\} \times \{1+\lambda\}^{n_1}$ dónde

n_{1}

$n_1$ es la cantidad de veces que

x_{i}^{*}

$x_i^*$ Son iguales a uno. El último término entre paréntesis es la probabilidad de obtener 0 o 1 en un sorteo de Poisson.

Entonces este es tu verdadero / observado posterior. A partir de ahí, puede implementar una muestra de Gibbs por

Generando las "observaciones faltantes" dadas $\lambda$ y las observaciones, es decir, simulando $p(x_i|\lambda,x_i^*=1)$ , que está dada por $P (x_{i} = 0 | λ, x_{i}^{*} = 1) = 1 - P (x_{i} = 1 | λ, x_{i}^{*} = 1) = \frac{1}{1 + λ} .$ $\mathbb{P}(x_i=0|\lambda,x_i^*=1)=1-\mathbb{P}(x_i=1|\lambda,x_i^*=1)=\dfrac{1}{1+\lambda}\,.$
Generando $\lambda$ dada la "información completa", que equivale a $λ | x_{1}, \dots, x_{n} \sim G (\sum_{i} x_{i} + 1, n + λ_{0})$ $\lambda|x_1,\ldots,x_n \sim \mathcal{G}(\sum_i x_i + 1,n+\lambda_0)$ como ya lo calculó.

(Si desea más detalles, el Ejemplo 9.7, p.346, en mi libro de Métodos Estadísticos de Monte Carlo con George Casella cubre exactamente esta configuración).

— Xi'an
fuente

(2) Cualquier algoritmo MCMC puede comenzar con valores arbitrarios porque la cadena de Markov es recurrente, esta es la idea central detrás de los métodos de Monte Carlo de la cadena de Markov. Tenga en cuenta que

λ_{0}

$\lambda_0$ es un parámetro de lo anterior: se elige a priori y no cambia una vez que se observan los datos.

— Xi'an

(3) Al tomar muestras de la distribución Gamma en el paso 2 de la muestra de Gibbs, tenga en cuenta que condiciono los datos completos, generados en el paso 1 de la muestra de Gibbs. Por lo tanto, "conozco" cada valor de la

x_{i}

$x_i$ 's, incluso aquellos para los cuales

x_{i}^{*} = 1

$x_i^*=1$ . Intente comprender la distinción entre

x_{i}

$x_i$ 's y el

x_{i}^{*}

$x_i^*$ 's, esta es la idea fundamental detrás del principio de aumento de datos.

— Xi'an

(1) El

[{λ + 1} \exp (- λ)]^{n_{1}}

$[\{\lambda+1\}\exp(-\lambda)]^{n_1}$ parte corresponde a las observaciones agrupadas.

— Xi'an

(2) Esta es una probabilidad condicional (intente hacer los cálculos usted mismo):

P (x_{i} = 0 | λ, x_{i}^{*} = 1) = P (x_{i} = 0, x_{i}^{*} = 1 | λ) / P (x_{i}^{*} = 1 | λ) = P (x_{i} = 0 | λ) / P (x_{i}^{*} = 1 | λ)

$\mathbb{P}(x_i=0|\lambda,x^∗_i=1)=\mathbb{P}(x_i=0,x^∗_i=1|\lambda)/\mathbb{P}(x^∗_i=1|\lambda)=\mathbb{P}(x_i=0|\lambda)/\mathbb{P}(x^∗_i=1|\lambda)$

— Xi'an

(3) El muestreo de Gibbs funciona por condicionales. Entonces, en el paso 2, condicionamos el

x_{i}

$x_i$ simulamos en el paso 1 (y en el paso 1 en el

λ

$\lambda$ simulamos en el paso 2). Esto significa que esos $x_i$ Se conocen (aunque cambien en la próxima iteración) y también la suma. Definitivamente necesitas leer alguna introducción a Gibbs si este punto fundamental no te queda claro ...

— Xi'an