Trazar una "superficie media posterior"

Como parte de la reproducción de un modelo que describí parcialmente en esta pregunta sobre Stack Overflow, quiero obtener un diagrama de una distribución posterior. El modelo (espacial) describe el precio de venta de algunas propiedades como una distribución de Bernoulli dependiendo de si la propiedad es cara (1) o barata (0). En ecuaciones:

y_{i} \sim Bernoulli (p_{i})

$y_{i} \sim \text{Bernoulli}(p_{i})$

p_{i} \sim {logit}^{- 1} (b_{0} + b_{1} LivingArea / 1000 + b_{2} Age + w (s))

$p_{i} \sim \text{logit}^{-1}(b_{0} + b_{1}\text{LivingArea}/1000 + b_{2}\text{Age} + w({\bf{s}}))$

w (s) \sim MVN (0, Σ)

$w({\bf{s}}) \sim \text{MVN}({\bf{0}}, {\bf{\Sigma}})$

dónde $y_{i}$ es el resultado binario 1 o 0, $p_{i}$ es la probabilidad de ser barato o caro $w({\bf{s}})$ es una variable aleatoria espacial donde $\bf{s}$ representa su posición Todo esto para cada $i = \{1, ..., 70\}$ porque hay 70 propiedades en el conjunto de datos. $\bf{\Sigma}$ es una matriz de covarianza basada en la posición geográfica de los puntos de datos. Si tiene curiosidad sobre este modelo, el conjunto de datos se puede encontrar aquí .

La gráfica que quiero obtener es la siguiente gráfica de contorno:

ingrese la descripción de la imagen aquí

La figura se describe como "Gráfico de imagen de la superficie media posterior del proceso latente $w({\bf{s}})$ , modelo espacial binario ". El libro también dice esto:

La figura 5.8 muestra el gráfico de imagen con líneas de contorno superpuestas para la superficie media posterior del latente $w({\bf{s}})$ proceso.

Sin embargo, solo hay 70 pares de puntos en el conjunto de datos. Supongo que, para producir un diagrama de contorno, necesito estimar $w({\bf{s}})$ en 70 * 70 puntos. Entonces, mi pregunta es: ¿Cómo produzco esta superficie mediana posterior? Hasta ahora tengo muestras de distribuciones posteriores para todos los parámetros involucrados (usando PyMC) y sé que puedo predecir $y^*$ en un nuevo punto usando la distribución predictiva posterior. Sin embargo, no sé cómo predecir valores. $w({\bf{s}})$ en un nuevo punto $s^*$ . Quizás estoy equivocado y la trama no se construyó por predicción sino por interpolación.

ACTUALIZACIÓN :

Primero, esta es la mediana de la distribución posterior de $w({\bf{s}})$ en cada ubicación donde hay una propiedad. Esto se basa en la traza MCMC para $w$ .

ingrese la descripción de la imagen aquí

Y esta es la interpolación (con un diagrama de contorno) usando una función de base radial:

ingrese la descripción de la imagen aquí

(Si está interesado en el código, hágamelo saber)

Como puede ver, hay diferencias significativas en las parcelas. Un par de preguntas:

¿Cómo puedo saber si estas diferencias se explican por el procedimiento de interpolación?
Tal vez, hay variaciones importantes en la distribución posterior de $w({\bf{s}})$ que calculé y el que se muestra en el libro. ¿Cuánta variación es aceptable entre las simulaciones MCMC? Incluso mis propios parámetros cambian un poco dependiendo del muestreo que use (Metropolis, Metropolis Adaptive).
¿Existe algún procedimiento bayesiano para predecir puntos? $w(s)$ para generar un diagrama de contorno como lo hice usando la función de base radial?

— Robert Smith
fuente

¡La interpolación es predicción! (Porque

w

$w$ es un proceso, con un valor de

w

$w$ en cualquier ubicación no observada equivale a adivinar el valor de una variable aleatoria. La predicción, por definición, es adivinar el valor de una variable aleatoria.)

— whuber

Por supuesto. Quise decir interpolación en oposición a la predicción bayesiana. Por cierto, traté de usar la interpolación con el vecino más cercano y obtuve resultados terribles.

— Robert Smith

Probablemente debería obtener resultados terribles si usa los datos sin procesar en un programa de interpolación, porque estaba resolviendo un problema diferente. Desea un diagrama de contorno solo de

w

$w$ plazo pero el programa estaba (supongo) usando el

y_{i}

$y_i$ .

— whuber

No, estaba usando la mediana de la distribución posterior para cada

w (s)

$w(s)$ .

— Robert Smith

En qué ubicaciones espaciales

s

$s$ calculaste la mediana de la distribución posterior? Creo que la principal motivación detrás de ejecutar un modelo de este tipo es rastrear la distribución de

w (s)

$w(s)$ en todos los puntos en los que esté interesado en predecir sus valores, que, en el caso de este mapa de contorno, serían todos los 4900 nodos de cuadrícula.

— whuber

Es muy probable que el autor haya utilizado un proceso gaussiano para producir la interpolación. Creo que es cierto porque un ejercicio en el libro describe un problema muy similar a este y requiere una trama basada en un proceso gaussiano.

Lo intenté y creo que la trama resultante comparte características con la superficie media posterior de la pregunta original. Esta es la mediana de la distribución posterior de $w(s)$ como arriba (es ligeramente diferente porque ejecuté otra simulación MCMC):

ingrese la descripción de la imagen aquí

Y esta es la interpolación basada en un proceso gaussiano:

ingrese la descripción de la imagen aquí

Como puede ver, el método de interpolación hace una gran diferencia.

— Robert Smith
fuente