Resultados de las estimaciones de Monte Carlo producidas por muestreo de importancia

He estado trabajando en el muestreo de importancia bastante de cerca durante el año pasado y tengo algunas preguntas abiertas con las que esperaba obtener ayuda.

Mi experiencia práctica con esquemas de muestreo de importancia ha sido que ocasionalmente pueden producir fantásticas estimaciones de baja varianza y bajo sesgo. Sin embargo, con mayor frecuencia tienden a producir estimaciones de alto error que tienen una varianza de muestra baja pero un sesgo muy alto.

Me pregunto si alguien puede explicar exactamente qué tipo de factores afectan la validez de las estimaciones de muestreo de importancia. En particular, me pregunto:

1) ¿Se garantiza que las estimaciones de muestreo de importancia converjan al resultado correcto cuando la distribución de polarización tiene el mismo soporte que la distribución original? Si es así, ¿por qué parece que esto toma tanto tiempo en la práctica?

2) ¿Existe una relación cuantificable entre el error en una estimación producida a través del muestreo de importancia y la "calidad" de la distribución de polarización (es decir, cuánto coincide con la distribución de varianza cero)

3) Parcialmente basado en 1) y 2): ¿hay alguna manera de cuantificar 'cuánto' debe saber sobre una distribución antes de que fuera mejor usar un diseño de muestreo de importancia que un método simple de Monte Carlo?

monte-carlo information-theory importance-sampling

— Berk U.
fuente

Respuestas:

El muestreo de importancia tiene exactamente la misma validación que el enfoque básico de Monte Carlo. En esencia, es el básico Monte Carlo . De hecho, es simplemente un cambio de medida de referencia, que va de a

\int h (x) f (x) d x

$\int h(x) f(x) \text{d}x$

Así, la convergencia está garantizada por la ley de los grandes números en ambos casos, es decir, si simula desde

o desde

. Además, si el término

\int h (x) \frac{f (x)}{g (x)} g (x) d x

$\int h(x) \dfrac{f(x)}{g(x)} g(x) \text{d}x$

f

$f$

g

$g$

es finito, el teorema del límite central también se aplica y la velocidad de convergencia es

\int h^{2} (x) \frac{f^{2} (x)}{g (x)} d x

$\int h^2(x) \dfrac{f^2(x)}{g(x)} \text{d}x$

. Si "lleva tanto tiempo en la práctica", es porque el factor de variación anterior en el CLT puede ser bastante grande. Pero, e insisto, la velocidad es la misma que con Monte Carlo regular,

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

La calidad de una distribución de muestreo de importancia está, por lo tanto, directamente relacionada con el factor de varianza anterior, que va a cero para la "distribución de varianza cero" proporcional a . $|h(x)|f(x)$

— Xi'an
fuente

Sospecho que, dado que el OP está informando estimadores de varianza pequeños que están sesgados, pero parecen tener una varianza pequeña, puede estar preguntando sobre el muestreo de importancia auto normalizado. Vea el discurso de Radford Neal sobre el estimador de la media armónica para un buen ejemplo, que toma lo que sería una estimación de muestreo de importancia con 0 de varianza, y devuelve tonterías. No estoy seguro de que esto nunca ocurra en el muestreo de importancia regular, pero ciertamente es raro.

— deinst

Incluso si esta no fuera la intención del OP, estaría interesado en algunos consejos sobre cómo averiguar cuándo la auto-normalización va a salir terriblemente mal.

— deinst

@deinst No estaba al tanto del procedimiento de auto-normalización y sus dificultades, ¡así que gracias por esto! En cualquier caso, creo que los problemas pueden ser relevantes para las propiedades de mi esquema IS, por lo que me gustaría explorar esta idea un poco más si alguno de ustedes tiene ideas.

— Berk U.

@deinst El esquema IS que estoy usando está diseñado para funcionar sin una distribución de muestreo

a mano. El esquema utiliza primero un procedimiento MCMC para simular

puntos

de la distribución de varianza cero

para producir

. Con

en la mano, que pueda luego muestra de

g (x)

$g(x)$

M

$M$

x_{1} . . x_{M}

$x_1..x_M$

g^{*} (x) = h (x) f (x) / \int h (x) f (x) d x

$g^*(x) = h(x)f(x)/\int{h(x)f(x)dx}$

x_{1} . . x_{M}

$x_1..x_M$

\hat{g (x)}

$\hat{g(x)}$

\hat{g (x)}

$\hat{g(x)}$

N

$N$

y_{1} . . . y_{N}

$y_1...y_N$

El uso de una estimación no paramétrica introduce una variabilidad de un orden más alto que la variabilidad de Monte Carlo, por lo que no lo recomendaría.

— Xi'an

$f$ $g$

δ = \int h (x) f (x) d x

$\delta=\int h(x)f(x)\text{d}x$

x_{1}, \dots, x_{n}

$x_1,\ldots,x_n$

g (x)

$g(x)$

\hat{δ} = \frac{\sum_{i = 1}^{n} h (x) f (x) / g (x)}{\sum_{i = 1}^{n} f (x) / g (x)} .

$\hat{\delta}=\frac{\sum_{i=1}^n h(x)f(x)/g(x)}{\sum_{i=1}^n f(x)/g(x)}.$

X / Y

$X/Y$

ω (X) = f (x) / g (X)

$\omega(X)=f(x)/g(X)$

E_{g} (\hat{δ}) \approx δ + \frac{δ {Var}_{g} (ω (X)) - {Cov}_{g} (ω (X), h (X) ω (X))}{n}

$E_g(\hat{\delta})\approx \delta + \frac{\delta \text{Var}_g(\omega(X))-\text{Cov}_g(\omega(X),h(X)\omega(X))}{n}$ and

{Var}_{g} (\hat{δ}) \approx \frac{{Var}_{g} (h (X) ω (X)) - 2 δ {Cov}_{g} (ω (X), h (X) ω (X)) + δ^{2} {Var}_{g} (ω (X))}{n} .

$\text{Var}_g(\hat{\delta})\approx\frac{\text{Var}_g(h(X)\omega(X))-2\delta\text{Cov}_g(\omega(X),h(X)\omega(X))+\delta^2\text{Var}_g(\omega(X))}{n}.$

So, intuitvely, to get small bias and small variance, you want $\text{Var}_g(\omega(X))$ to be small and $\text{Cov}_g(\omega(X),h(X)\omega(X))$ to be positive. Unfortunately these approximations are not perfect (and accurately determining the variances and covariances is likely to be as difficult as solving the initial problem).

— deinst
fuente

Thank you for this. I'm just a little unsure about the notation / not sure if there is a typo. To clarify, what exactly are

X / Y

$X/Y$ and

G

$G$ in your explanation?

— Berk U.

@BerkUstun The capital G is a typo for a small that I will fix promptly. X/Y is just a generic ratio of random variables. IIRC all this is explained in Liu's Monte Carlo book (something with scientific in the title.)

— deinst

@deinst: Great point! Indeed, the properties of the self-normalised versions are quite different from those of the unbiased importance sampling estimator. In theory, one would need a separate importance sampler to estimate the denominator.

— Xi'an