¿Qué algoritmos / técnicas MCMC se utilizan para parámetros discretos?

Sé bastante sobre el ajuste de parámetros continuos, particularmente los métodos basados en gradientes, pero no mucho sobre el ajuste de parámetros discretos.

¿Cuáles son los algoritmos / técnicas MCMC comúnmente utilizados para ajustar parámetros discretos? ¿Existen algoritmos que sean bastante generales y bastante potentes? ¿Existen algoritmos que aborden bien la maldición de la dimensionalidad? Por ejemplo, yo diría que el MCMC hamiltoniano es general, poderoso y escala bien.

El muestreo de una distribución discreta arbitraria parece más difícil que el muestreo de una distribución continua, pero tengo curiosidad por saber cuál es el estado del arte.

Editar : JMS me pidió que elaborara.

No tengo en mente aplicaciones específicas, pero aquí hay algunos tipos de modelos que estoy imaginando:

Selección de modelos entre varios tipos de modelos de regresión continua. Tiene un único parámetro 'modelo' discreto
Un modelo continuo donde cada observación tiene la posibilidad de ser "atípica" y extraída de una distribución mucho más dispersa. Supongo que este es un modelo mixto.

Esperaría que muchos modelos incluyeran parámetros continuos y discretos.

bayesian mcmc

— John Salvatier
fuente

Entonces, la respuesta simple es sí: Metropolis-Hastings y su caso especial de muestreo de Gibbs :) General y poderoso; si se escala o no depende del problema en cuestión.

$f(k)$ $P(\tilde k = k) = f(k)/\sum f(k)$ $k$

¿Tienes un modelo en particular en mente? Hay todo tipo de enfoques de MCMC para ajustar modelos de mezcla, por ejemplo, donde las asignaciones de componentes latentes son parámetros discretos. Estos van desde muy simples (Gibbs) hasta bastante complejos.

¿Qué tan grande es el espacio de parámetros? ¿Es potencialmente enorme (por ejemplo, en el caso del modelo de mezcla, es N por el número de componentes de la mezcla)? Es posible que no necesite más que una muestra de Gibbs, ya que la conjugación ya no es un problema (puede obtener la constante de normalización directamente para poder calcular los condicionales completos). De hecho, la grilla Gibbs solía ser popular en estos casos, donde un prior continuo se discretiza para facilitar el cálculo.

No creo que haya un "mejor" particular para todos los problemas que tienen un espacio de parámetro discreto más que para el caso continuo. Pero si nos cuenta más sobre los modelos que le interesan, tal vez podamos hacer algunas recomendaciones.

Editar: OK, puedo dar un poco más de información en re: sus ejemplos.

$p(\beta)\sim \pi N(\beta; 0, \tau) + (1-\pi) N(\beta, 0, 1000\tau)$ $p(\beta)\sim \pi \delta_0 (\beta) + (1-\pi) N(\beta, 0, \tau)$ $\delta_0$ $\beta$ $Z$ $Z_1\dots, Z_p$ $2^p$ $1:2^p$

$p(Z, \beta|y)$ $p(Z, \beta|y) = p(\beta | Y, Z)p(Z|Y)$ $Z$ $\beta$

SSVS integra todo el espacio modelo en un modelo grande. A menudo, esto es fácil de implementar pero funciona mal. Salto reversible MCMC es un tipo diferente de enfoque que permite que la dimensión del espacio de parámetros varíe explícitamente; ver [3] para una revisión y algunas notas prácticas. Puede encontrar notas más detalladas sobre la implementación en diferentes modelos en la literatura, estoy seguro.

$p=1000$

Un enfoque diferente que está ganando popularidad es utilizar antecedentes de contracción absolutamente continuos que imitan los resultados promediados del modelo. Típicamente, estos se formulan como mezclas a escala de normales. El lazo bayesiano es un ejemplo, que es un caso especial de previos de gamma normal y un caso limitante de previos de gamma exponencial normal. Otras opciones incluyen la herradura y la clase general de distribuciones normales con anteriores beta invertidos en su varianza. Para obtener más información sobre estos, sugeriría comenzar con [6] y volver a las referencias (demasiadas para que pueda replicarlas aquí :))

Agregaré más sobre modelos atípicos más adelante si tengo la oportunidad; La referencia clásica es [7]. Son muy similares en espíritu a los anteriores de contracción. Por lo general, son bastante fáciles de hacer con el muestreo de Gibbs.

Quizás no sea tan práctico como esperabas; La selección del modelo en particular es un problema difícil y cuanto más elaborado sea el modelo, peor será. Bloquear la actualización siempre que sea posible es el único consejo general que tengo. Al tomar muestras de una mezcla de distribuciones, a menudo tendrá el problema de que los indicadores de membresía y los parámetros de los componentes están altamente correlacionados. Tampoco he tocado los problemas de cambio de etiqueta (o la falta de cambio de etiqueta); Hay bastante literatura allí, pero está un poco fuera de mi timonera.

De todos modos, creo que es útil comenzar con algunas de las referencias aquí, para tener una idea de las diferentes formas en que otros abordan problemas similares.

[1] Merlise Clyde y EI George. Ciencia estadística de incertidumbre modelo 19 (2004): 81-94. http://www.isds.duke.edu/~clyde/papers/statsci.pdf

[2] http://www-personal.umich.edu/~bnyhan/montgomery-nyhan-bma.pdf

[3] Salto reversible Green & Hastie MCMC (2009) http://www.stats.bris.ac.uk/~mapjg/papers/rjmcmc_20090613.pdf

[4] http://www.stat.duke.edu/~clyde/BAS/

[5] http://ba.stat.cmu.edu/journal/2010/vol05/issue03/bottolo.pdf

[6] http://www.uv.es/bernardo/Polson.pdf

[7] Modelos Mike West Outlier y distribuciones previas en regresión lineal bayesiana (1984) JRSS-B

— JMS
fuente

Pido disculpas por tomarse mucho tiempo para responder. Pongo algunos tipos de modelos de ejemplo. Avísame si quieres más aclaraciones. Estaba pensando en distribuciones discretas como más difíciles de muestrear porque parece que serían más propensas a un comportamiento multimodal. ¿Es aplicable la normalización explícita cuando tienes una mezcla de variables discretas y continuas?

— John Salvatier