¿Puedo submuestrear un gran conjunto de datos en cada iteración de MCMC?

Problema: quiero realizar un muestreo de Gibbs para inferir algo posterior sobre un gran conjunto de datos. Desafortunadamente, mi modelo no es muy simple y, por lo tanto, el muestreo es demasiado lento. Consideraría enfoques variacionales o paralelos, pero antes de llegar tan lejos ...

Pregunta: Me gustaría saber si podría muestrear aleatoriamente (con reemplazo) de mi conjunto de datos en cada iteración de Gibbs, de modo que tenga menos instancias de las cuales aprender en cada paso.

Mi intuición es que incluso si cambio las muestras, no estaría cambiando la densidad de probabilidad y, por lo tanto, la muestra de Gibbs no debería notar el truco. Estoy en lo cierto? ¿Hay algunas referencias de personas que hayan hecho esto?

— alberto
fuente

Como comentario: otra idea sería hacer múltiples análisis en submuestras aleatorias del gran conjunto de datos. De esa manera, también puede realizar una validación cruzada.

— conjeturas

No puedo responder a su pregunta exacta con ninguna autoridad (aunque sospecho que solo aumentaría el error de aproximación que viene con Monte Carlo), la triste verdad es que este es solo un aspecto desafortunado de los análisis Bayesian MCMC: son computacionalmente costoso. El comentario de @conjectures es una gran idea, pero en realidad no es el centro del problema: es demasiado costoso extraer todas esas muestras para cada individuo. Mi recomendación es escribir su propio código C para el trabajo pesado (Rcpp en R, Cython en Python, etc.) y también paralelizar (cuando no hay dependencias de ramificación).

@conjeturas Esto suena como la bolsa de pequeñas botas de Michael Jordan.

— jaradniemi

Sugeriría cambiar su muestra para evitar el aumento variable latente por completo. Ya no tendrá una muestra de Gibbs, pero un algoritmo de Metropolis-Hastings con una propuesta basada en una aproximación normal a la probabilidad debería funcionar bien. Consulte la Sección 16.4 de la 2da edición de Bayesian Data Analysis.

— jaradniemi

Esta es un área de investigación activa que no conozco lo suficientemente bien como para resumirlo con precisión. Ver por ejemplo jmlr.org/proceedings/papers/v32/bardenet14.pdf y arxiv.org/pdf/1304.5299v4.pdf

— Andrew M

Acerca de las estrategias de submuestreo: solo por ejemplo, considere tener dos observaciones y y considere poner algunas prioridades en la media y la varianza. Deje , el posterior que queremos evaluar es $X_1 \sim N(\mu_1, \sigma_1^2)$ $X_2 \sim N(\mu_2,\sigma_2^2)$ $\theta = (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2)$ COnsider ahora una variable binomial . Si elegimos , si elegimos , el nuevo posterior es

F (θ El | X_{1}, X_{2}) \propto F (X_{1} El | θ) F (X_{2} El | θ) F (θ)

$f(\theta|X_1, X_2) \propto f(X_1|\theta)f(X_2 | \theta)f(\theta)$

δ \sim B (0.5)

$\delta \sim B(0.5)$

δ = 0

$\delta=0$

X_{1}

$X_1$

δ = 1

$\delta =1$

X_{2}

$X_2$

donde

F (θ, δ El | X_{1}, X_{2}) \propto F (X_{1}, X_{2} El | δ, θ) F (θ) F (δ)

$f(\theta, \delta|X_1, X_2) \propto f(X_1, X_2|\delta,\theta)f(\theta)f(\delta)$

f (X_{1}, X_{2} | δ, θ) = f (X_{1} | θ)^{δ} f (X_{2} | θ)^{1 - δ}

$f(X_1, X_2|\delta,\theta) = f(X_1|\theta)^{\delta} f(X_2|\theta)^{1-\delta}$

. Ahora bien, si quieres probar

con un paso de Gibbs tiene para calcular

porque

f (δ) = 0.5

$f(\delta) = 0.5$

δ

$\delta$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$

. Si de lo contrario utiliza el Metropolis Hastings entonces proponer un nuevo estado

y hay que calcular solamente una entre

, el asociado a los estados propuestos, pero hay que calcular uno entre

P (δ = 1) = \frac{f (X_{1} | θ)}{f (X_{1} | θ) + f (X_{2} | θ)}

$P(\delta=1)= \frac{f(X_1|\theta) }{f(X_1|\theta) +f(X_2|\theta) }$

δ^{*}

$\delta^*$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$

f (X_{1} | θ)

$f(X_1|\theta)$

incluso para el último estado aceptado de

. Entonces no estoy seguro de que la metrópoli le dé alguna ventaja. Además, aquí estamos considerando un proceso bivariado, pero con un proceso multivariado, el muestreo de los

s puede ser muy complicado con la metrópoli.

f (X_{2} | θ)

$f(X_2|\theta)$

δ

$\delta$

δ

$\delta$

— niandra82
fuente