Stan

Estaba revisando la documentación de Stan que se puede descargar desde aquí . Estaba particularmente interesado en su implementación del diagnóstico Gelman-Rubin. El artículo original Gelman y Rubin (1992) define el factor de reducción de escala potencial (PSRF) de la siguiente manera:

Deje que sea la ésima cadena de Markov muestreada, y que haya cadenas independientes independientes muestreadas. Sea la media de la ésima cadena, y sea la media general. Definir, donde Y defina $X_{i,1}, \dots , X_{i,N}$ $i$ $M$ $\bar{X}_{i\cdot}$ $i$ $\bar{X}_{\cdot \cdot}$

W = \frac{1}{M} \sum_{m = 1}^{M} s_{m}^{2},

$W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m},$

s_{m}^{2} = \frac{1}{N - 1} \sum_{t = 1}^{N} ({\bar{X}}_{m t} - {\bar{X}}_{m \cdot})^{2} .

$s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,.$

B

$B$

B = \frac{N}{M - 1} \sum_{m = 1}^{M} ({\bar{X}}_{m \cdot} - {\bar{X}}_{\cdot \cdot})^{2} .

$B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,.$

Defina

\hat{V} = (\frac{N - 1}{N}) W + (\frac{M + 1}{M N}) B .

$\hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B\,.$ El PSRF se estima con

\sqrt{\hat{R}}

$\sqrt{\hat{R}}$ donde

\hat{R} = \frac{\hat{V}}{W} \cdot \frac{d f + 3}{d f + 1},

$\hat{R} = \dfrac{\hat{V}}{W} \cdot \dfrac{df+3}{df+1}\,,$ donde

d f = 2 \hat{V} / V a r (\hat{V})

$df = 2\hat{V}/Var(\hat{V})$ .

La documentación de Stan en la página 349 ignora el término con $df$ y también elimina el término multiplicativo $(M+1)/M$ Esta es su fórmula,

El estimador de varianza es
${\hat{var}}^{+} (θ | y) = \frac{N - 1}{N} W + \frac{1}{N} B .$ $\widehat{\text{var}}^{+}(\theta \, | \, y) = \frac{N-1}{N} W + \frac{1}{N} B\,.$ Finalmente, la estadística de reducción de escala potencial se define por $\hat{R} = \sqrt{\frac{{\hat{var}}^{+} (θ | y)}{W}} .$ $\hat{R} = \sqrt{\frac{\widehat{\text{var}}^{+}(\theta \, | \, y) }{W}}\,.$

Por lo que pude ver, no proporcionan una referencia para este cambio de fórmula, y tampoco lo discuten. Por lo general, $M$ no es demasiado grande, y a menudo puede ser tan bajo como $2$ , por lo que $(M+1)/M$ no debe ignorarse, incluso si el término $df$ se puede aproximar a 1.

Entonces, ¿de dónde viene esta fórmula?

EDITAR: He encontrado una respuesta parcial a la pregunta "¿de dónde viene esta fórmula? ", En que el libro Bayesian Data Analysis de Gelman, Carlin, Stern y Rubin (Segunda edición) tiene exactamente la misma fórmula. Sin embargo, el libro no explica cómo / por qué es justificable ignorar esos términos.

— Greenparker
fuente

Todavía no hay un documento publicado al respecto, y la fórmula probablemente cambiará en los próximos meses de todos modos.

— Ben Goodrich

@BenGoodrich Gracias por el comentario. ¿Puedes decir algo más sobre la motivación de usar esta fórmula? ¿Y por qué cambiará exactamente la fórmula?

— Greenparker

La fórmula actual de R-hat dividido es la forma en que se aplica principalmente al caso en el que solo hay una cadena. Los cambios que vienen son principalmente para tratar con el hecho de que la distribución posterior marginal subyacente puede no ser normal o tener una media y / o varianza.

— Ben Goodrich

@BenGoodrich Sí, entiendo por qué STAN divide a Rhat. Pero incluso en ese caso , entonces la constante que no es ignorable.

M = 2

$M = 2$

(M + 1) / M = 3 / 2

$(M+1)/M = 3/2$

— Greenparker

Seguí el enlace específico dado para Gelman y Rubin (1992) y tiene como en las versiones posteriores, aunque reemplazado con en Brooks & Gelman (1998) y con en BDA2 (Gelman et al, 2003) y BDA3 (Gelman et al, 2013).

\hat{σ} = \frac{n - 1}{n} W + \frac{1}{n} B

$\hat{\sigma} = \frac{n-1}{n}W+ \frac{1}{n}B$

\hat{σ}

$\hat{\sigma}$

{\hat{σ}}_{+}

$\hat{\sigma}_+$

{\hat{v a r}}^{+}

$\widehat{\rm var}^+$

BDA2 y BDA3 (no se pudo verificar ahora BDA1) tienen un ejercicio con sugerencias para mostrar que es una estimación imparcial de la cantidad deseada. $\widehat{\rm var}^+$

Gelman & Brooks (1998) tiene la ecuación 1.1 que se puede reorganizar como Podemos ver que el efecto del segundo y tercer término es insignificante para la toma de decisiones cuando es grande. Véase también la discusión en el párrafo anterior a la Sección 3.1 en Brooks y Gelman (1998).

\hat{R} = \frac{m + 1}{m} \frac{{\hat{σ}}_{+}}{W} - \frac{n - 1}{m n},

$\hat{R} = \frac{m+1}{m}\frac{\hat{\sigma}_+}{W} - \frac{n-1}{mn},$

\hat{R} = \frac{{\hat{σ}}_{+}}{W} + \frac{{\hat{σ}}_{+}}{W m} - \frac{n - 1}{m n} .

$\hat{R} = \frac{\hat{\sigma}_+}{W} + \frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}.$

n

$n$

Gelman y Rubin (1992) también tenían el término con df como df / (df-2). Brooks y Gelman (1998) tienen una sección que describe por qué esta corrección de df es incorrecta y definen (df + 3) / (df + 1). El párrafo anterior a la Sección 3.1 en Brooks y Gelman (1998) explica por qué (d + 3) / (d + 1) puede descartarse.

Parece que su fuente para las ecuaciones fue algo posterior a Brooks y Gelman (1998), ya que tenía (d + 3) / (d + 1) allí y Gelman y Rubin (1992) tenían df / df (-2). De lo contrario, Gelman y Rubin (1992) y Brooks y Gelman (1998) tienen ecuaciones equivalentes (con notaciones ligeramente diferentes y algunos términos están organizados de manera diferente). BDA2 (Gelman, et al., 2003) ya no tiene términos $\frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}$ . BDA3 (Gelman et al., 2003) y Stan introdujeron la versión de cadenas divididas.

Mi interpretación de los documentos y experiencias usando diferentes versiones de es que los términos que finalmente se han eliminado pueden ignorarse cuando es grande, incluso cuando no lo es. También recuerdo vagamente haber discutido esto con Andrew Gelman hace años, pero si quieres estar seguro de la historia, debes preguntarle. $\hat{R}$ $n$ $m$

Por lo general, M no es demasiado grande y a menudo puede ser tan bajo como 2

Realmente espero que este no sea el caso a menudo. En los casos en que desee utilizar el diagnóstico de convergencia split- , debe usar al menos 4 cadenas divididas y, por lo tanto, tener M = 8. Puede usar menos cadenas, si ya sabe que en sus casos específicos la convergencia y la mezcla son rápidas. $\hat{R}$

Referencia adicional:

Brooks y Gelman (1998). Journal of Computational and Graphical Statistics, 7 (4) 434-455.

— Aki Vehtari
fuente

Sí, tiene el mismo como usted menciona, pero su estadística es (mire la ecuación en la parte superior de la página 495 en la versión oficial de Stat Science), que introduce el término que estaba hablando. Además, mire el código y la descripción en el paquete R coda, que ha tenido el diagnóstico GR desde 1999.

{\hat{σ}}^{2}

$\hat{\sigma}^2$

\hat{R}

$\hat{R}$

({\hat{σ}}^{2} + B / m n) / W * d f_{t e r m}

$(\hat{\sigma}^2 + B/mn)/W * df_{term}$

(m + 1) / m

$(m+1)/m$

— Greenparker

Estoy confundido. El artículo a través del enlace que proporcionó y el artículo de las páginas web de Stat Science tiene solo las páginas 457-472. No lo revisé ahora, pero hace años y el año pasado cuando revisé Coda, no tenía la versión recomendada actual.

— Aki Vehtari

Tenga en cuenta que edité mi respuesta. Gelman & Brooks (1998) tiene ese término (m + 1) / m más claramente, y parece que se perdió el último término que cancela principalmente el efecto del término (m + 1) / m para la toma de decisiones. Ver ese párrafo antes de la sección 3.1.

— Aki Vehtari

Lo siento, eso fue un error tipográfico. Es la página 465, y Gelman y Rubin tienen la misma definición exacta que Brooks y Gelman (que usted menciona anteriormente). La ecuación 1.1 en Brooks y Gelman es exactamente lo que escribí también (cuando reorganiza algunos términos).

— Greenparker

"Podemos ver que el efecto del segundo y tercer término es insignificante para la toma de decisiones cuando n es grande", entonces, ¿qué está diciendo es que la expresión en BDA y, por lo tanto, STAN proviene de ignorar esencialmente estos términos para n grande?

— Greenparker