Muestreo exacto de mezclas impropias

Supongamos que quiero muestrear a partir de una distribución continua . Si tengo una expresión de en la forma $p(x)$ $p$

pag (X) = \sum_{yo = 1}^{\infty} {una}_{yo} F_{yo} (X)

$p(x) = \sum_{i=1}^\infty a_i f_i(x)$

donde y son distribuciones de las que se puede muestrear fácilmente, entonces puedo generar fácilmente muestras de de la siguiente manera: $a_i \geqslant 0, \sum_i a_i= 1$ $f_i$ $p$

Muestreo de una etiqueta $i$ con probabilidad $a_i$
Muestreo $X \sim f_i$

¿Es posible generalizar este procedimiento si $a_i$ ocasionalmente es negativo? Sospecho que he visto esto en algún lugar, posiblemente en un libro, posiblemente para la distribución de Kolmogorov, por lo que estaría encantado de aceptar una referencia como respuesta.

Si un ejemplo de juguete concreto es útil, digamos que me gustaría muestra a partir de

pag (X, y) \propto Exp (- X - y - α \sqrt{X y}) X, y > 0 0

$p(x,y) \propto \exp(-x-y-\alpha\sqrt{xy})\qquad x,y > 0$ Voy a continuación, tome

α \in (0, 2)

$\alpha \in (0, 2)$ por razones técnicas que no deberían importar demasiado, en el gran esquema de las cosas.

En principio, podría ampliar esto como la siguiente suma:

pag (X, y) \propto \sum_{norte = 0 0}^{\infty} \frac{(- 1)^{norte} α^{norte} (\frac{norte}{2})! (\frac{norte}{2})!}{norte!} (\frac{X^{norte / / 2} {mi}^{- X}}{(\frac{norte}{2})!}) (\frac{y^{norte / / 2} {mi}^{- y}}{(\frac{norte}{2})!}) .

$p(x,y) \propto \sum_{n=0}^\infty \frac{(-1)^n \alpha^n \left( \frac{n}{2} \right)! \left( \frac{n}{2} \right)!}{n!} \left( \frac{x^{n/2} e^{-x}}{\left( \frac{n}{2} \right)!}\right) \left( \frac{y^{n/2} e^{-y}}{\left( \frac{n}{2} \right)!}\right) .$

Los términos $(x,y)$ dentro de la suma se pueden muestrear independientemente como variables aleatorias gamma. Evidentemente, mi problema es que los coeficientes son "ocasionalmente" negativos.

Edición 1 : aclaro que estoy buscando generar muestras exactas de $p$ , en lugar de calcular las expectativas en $p$ . Para aquellos interesados, en los comentarios se alude a algunos procedimientos para hacerlo.

Edición 2 : Encontré la referencia que incluye un enfoque particular para este problema, en 'Generación de varianza aleatoria no uniforme' de Devroye . El algoritmo es de 'Una nota sobre muestreo de combinaciones de distribuciones', de Bignami y de Matteis . El método consiste en unir efectivamente la densidad desde arriba con los términos positivos de la suma, y luego usar el muestreo de rechazo basado en este sobre. Esto corresponde al método descrito en la respuesta de @ Xi'an.

— πr8
fuente

¿Por qué no puede muestrear simplemente usando el valor absoluto de y luego negando su muestra ? En otras palabras, defina(asumiendo que es finito), y luego renormalizar su suma por .

a_{i}

$a_i$

X \sim f_{i}

$X\sim f_i$

Z := \sum_{i = 1}^{\infty} | a_{i} |

$Z:=\sum_{i=1}^\infty |a_i|$

Z

$Z$

— Alex R.

@AlexR. Si te entiendo, una versión de esto sería práctica para calcular expectativas bajo , pero aún no para extraer muestras exactas de . Ciertamente, esta es una respuesta a un problema relevante, aunque no es exactamente lo que estoy buscando.

p

$p$

p

$p$

— πr8

Depende de lo que intente hacer con esa muestra. Para calcular los momentos, por ejemplo, parece sencillo generalizar el muestreo de mezclas de densidades marcando adicionalmente cualquier punto seleccionado de un componente con coeficiente negativo como un punto "negativo" y ponderando su contribución negativamente en la estimación del momento. Del mismo modo, podría construir un KDE con esos pesos negativos, ¡siempre que pueda aceptar la posibilidad de que algunos de sus valores sean negativos! (cc @ Xi'an)

— whuber

¿Cuál sería una muestra "exacta" de una distribución? Nuevamente, si puede y cómo puede explotar una mezcla con pesos negativos se reduce a cómo piensa usar la muestra.

— Whuber

Esto no responde a su pregunta, pero es posible que le interese leer sobre el muestreo de las estadísticas de

— Tim

Respuestas:

Me he preguntado sobre esta pregunta pero nunca llegué con una solución satisfactoria.

Una propiedad que es de posible uso es que, si una densidad escribe donde es una densidad tal que , simulando de y rechazar estas simulaciones con probabilidad proporciona simulaciones de . En el caso actual, es la versión normalizada de los componentes de peso positivo

F (X) = \frac{sol (X) - ω h (X)}{1 - ω} ω > 0 0

$f(x)=\frac{g(x)-\omega h(x)}{1-\omega}\qquad \omega>0$

g

$g$

g (x) \geq ω h (x)

$g(x)\ge \omega h(x)$

g

$g$

ω h (x) / g (x)

$\omega h(x)/g(x)$

f

$f$

g

$g$

es el resto

Esto de hecho se encuentra en el Biblia de simulación de Devroye,Generación de variables aleatorias no uniformes, Sección II.7.4, pero se sigue de un simple razonamiento de aceptación-rechazo.

sol (X) = \sum_{α_{yo} > 0 0} α_{yo} F_{yo} (X) / / \sum_{α_{yo} > 0 0} α_{yo}

$g(x)=\sum_{\alpha_i>0} \alpha_i f_i(x) \big/ \sum_{\alpha_i>0} \alpha_i$

ω h

$\omega h$

h (X) = \sum_{α_{yo} < 0 0} α_{yo} F_{yo} (X) / / \sum_{α_{yo} < 0 0} α_{yo}

$h(x)=\sum_{\alpha_i<0} \alpha_i f_i(x) \big/ \sum_{\alpha_i<0}\alpha_i$

Un primer inconveniente de cálculo de este enfoque es que, a pesar de la simulación de primera partir de un componente elegido , las sumas en tanto y se debe calcular para la etapa de rechazo. Si las sumas son infinitas sin una versión de forma cerrada, esto hace que el método de aceptación-rechazo sea imposible de implementar . $f_i$ $g$ $h$

Una segunda dificultad es que, dado que ambas sumas de pesos son del mismo orden la tasa de rechazo No tiene límite superior. En realidad, si la serie asociada con las no es absolutamente convergente, ¡la probabilidad de aceptación es cero!

\sum_{α_{yo} > 0 0} α_{yo} = 1 - \sum_{α_{yo} < 0 0} α_{yo}

$\sum_{\alpha_i>0}\alpha_i = 1 - \sum_{\alpha_i<0}\alpha_i$

1 - ϱ^{aceptar} = \sum_{α_{yo} < 0 0} El | α_{yo} El | / / \sum_{yo} El | α_{yo} El |

$1-\varrho^\text{accept}=\sum_{\alpha_i<0}|\alpha_i| \Big/ \sum_i |\alpha_i|$ $\alpha_i$ Y el método no se puede implementar en esta situación.

En el caso de una representación mixta, si puede escribirse como $f$ el componente se puede elegir primero y luego el método aplicado al componente. Pero esto puede ser delicado de implementar, ya que identificar pares que se ajustan a de la suma posiblemente infinita no es necesariamente factible.

F (X) = \sum_{yo = 1}^{\infty} α_{yo} \frac{{sol}_{yo} (X) - ω_{yo} h (X_{yo})}{1 - ω_{yo}} ω_{yo} > 0 0

$f(x)=\sum_{i=1}^\infty \alpha_i \frac{g_i(x)-\omega_i h(x_i)}{1-\omega_i}\qquad \omega_i>0$

(g_{i}, h_{i})

$(g_i,h_i)$

g_{i} (x) - ω_{i} h (x_{i}) > 0

$g_i(x)-\omega_i h(x_i)>0$

F (X) = κ h (X) {1 - {una}_{1} (X) + {una}_{2} (X) - \dots}

$f(x)=\kappa h(x)\{1-a_1(x)+a_2(x)-\cdots\}$

a_{i} (x)

$a_i(x)$

n

$n$

h

$h$

Método de series alternativas de Devroye

El problema se ha considerado recientemente en el contexto de estimadores sesgados para MCMC, como por ejemplo en el enfoque de Glynn-Rhee . Y el estimador de la ruleta rusa (con una conexión con el problema de fábrica de Bernoulli). Y la metodología imparcial de MCMC . Pero no hay escapatoria al problema de los signos ... Lo que dificulta su uso al estimar densidades como en los métodos pseudo-marginales.

Después de pensarlo más, mi conclusión es que no existe un método genérico para producir una simulación real de esta serie [en lugar de una mezcla que resulte ser un nombre inapropiado], sin imponer una estructura adicional a los elementos de la serie, como el de el algoritmo anterior de la biblia de Devroye . De hecho, dado que la mayoría de las densidades (?) Permiten una expansión en serie del tipo anterior, esto implicaría la existencia de una especie de máquina de simulación universal ...

— Xi'an
fuente

¡Gracias! Agradezco las referencias adicionales también.

— πr8

p

$p$

p = λ g - μ h

$p = \lambda g - \mu h$

X \sim g

$X \sim g$

λ g ⩾ μ h

$\lambda g \geqslant \mu h$

{(x, y) : μ h (x) < y < λ g (x)}

$\{(x,y): \mu h (x) < y < \lambda g(x) \}$

(x, y)

$(x,y)$

x

$x$

También estaba pensando en una muestra de corte, pero esto no es "exacto" en un sentido de simulación.

— Xi'an

Tengo el borrador de una idea que podría funcionar. No es exacto , pero con suerte asintóticamente exacto. Para convertirlo en un método realmente riguroso, donde se controle la aproximación, o se pueda probar algo al respecto, probablemente se necesite mucho trabajo.

$g$ $h$

pag = λ sol - μ h

$p=\lambda g - \mu h$

$\lambda-\mu=1$ $\lambda\geq 1$

$N$ $p$

$\lambda N$ $g$
$\mu N$ $h$

$(\lambda-\mu)N=N$ $N$ $n$ $N$

$x$ $v$ $x$ $\epsilon$ $g$ $v$ $\lambda Ng(x)\epsilon$ $\mu Nh(x)\epsilon$ $Np(x)\epsilon$ . Para esto, debe suponer que el número de puntos en el volumen es suficientemente grande.

$g$ $h$

Nota sobre un método exacto:

$g$ $h$ $g$ $h$ $x$ $(\lambda p - \mu q)$ $p$ $q$ $\lambda p$ $p$ $\lambda>1$

— Benoit Sanchez
fuente

Lo consideré pero lo rechacé porque mis esfuerzos iniciales para demostrar que podría funcionar me llevaron a darme cuenta de que, en el mejor de los casos, será una aproximación y, potencialmente, una pobre. Sí, asintóticamente podría funcionar, pero no satisfará la solicitud del OP para un muestreo "exacto" de la distribución.

— whuber

La eficacia de este método es exactamente del mismo orden que el método exacto de aceptación-rechazo.

— Xi'an

g

$g$

h

$h$

x

$x$

g

$g$

h

$h$

g / (g + h)

$g/(g+h)$

g

$g$

h

$h$

@BenoitSanchez Gracias por su respuesta en profundidad; Aprecio especialmente los comentarios al final sobre la (potencial) imposibilidad de exactitud. Me he encontrado con las fábricas de Bernoulli en el pasado y las encontré bastante desafiantes; Intentaré volver a visitar el tema y ver si proporciona alguna idea.

— πr8