Muestreo desde una distribución inadecuada (usando MCMC y otros)

15

Mi pregunta básica es: ¿cómo tomaría muestras de una distribución incorrecta? ¿Tiene sentido tomar muestras de una distribución incorrecta?

El comentario de Xi'an aquí aborda la pregunta, pero estaba buscando más detalles sobre esto.

Más específico para MCMC:

Al hablar sobre MCMC y leer documentos, los autores hacen hincapié en haber obtenido distribuciones posteriores adecuadas. Existe el famoso artículo de Geyer (1992) donde el autor olvidó verificar si su posterior era apropiado (de lo contrario, un excelente artículo).

Pero, supongamos que tenemos una probabilidad y una distribución previa inadecuada en tal que el posterior resultante también es incorrecto, y MCMC se utiliza para tomar muestras de la distribución. En este caso, ¿qué indica la muestra? ¿Hay alguna información útil en esta muestra? Soy consciente de que la cadena de Markov aquí es transitoria o nula-recurrente. ¿Hay alguna conclusión positiva si es nula-recurrente ? $f(x|\theta)$ $\theta$

Finalmente, en la respuesta de Neil G aquí , menciona

normalmente puede muestrear (usando MCMC) desde la parte posterior, incluso si es incorrecto.

Menciona que tal muestreo es común en el aprendizaje profundo. Si esto es cierto, ¿cómo tiene sentido?

— Greenparker
fuente

1

Este jstor.org/stable/pdf/2246228.pdf?_=1462943547901 puede ser interesante

— peuhp

@peuhp Definitivamente útil. Lo que entiendo del artículo es que si los funcionales que se evaluarán a partir de las muestras son integrables, entonces el muestreo de un posterior incorrecto tiene sentido. ¿Es correcta mi interpretación?

— Greenparker

3

Si. Considere un caso trivial de un posterior incorrecto, donde la incorrección se debe a colas gruesas, y una función que es igual a cero fuera de

y tiene todas las propiedades agradables para la integración sobre

. El hecho de que el posterior sea inadecuado es irrelevante, ya que la única parte del posterior que importa es la parte superior

.

[0, 1]

$[0,1]$

[0, 1]

$[0,1]$

[0, 1]

$[0,1]$

— jbowman

10

El muestreo desde una posterior (densidad) incorrecta no tiene sentido desde un punto de vista probabilístico / teórico. La razón de esto es que la función no tiene una integral finita sobre el espacio del parámetro y, en consecuencia, no puede vincularse a un modelo de probabilidad medida finita) (espacio, álgebra sigma, medida de probabilidad ) $f$ $f$ $(\Omega,\sigma,{\mathbb P})$

Si tiene un modelo con una versión anterior incorrecta que conduce a una parte posterior incorrecta, en muchos casos aún puede tomar muestras de ella utilizando MCMC, por ejemplo Metropolis-Hastings, y las "muestras posteriores" pueden parecer razonables. Esto parece intrigante y paradójico a primera vista. Sin embargo, la razón de esto es que los métodos MCMC están restringidos a limitaciones numéricas de las computadoras en la práctica y, por lo tanto, todos los soportes están limitados (¡y discretos!) Para una computadora. Luego, bajo esas restricciones (delimitación y discreción), la parte posterior es realmente adecuada en la mayoría de los casos.

Hay una gran referencia de Hobert y Casella que presenta un ejemplo (de una naturaleza ligeramente diferente) en el que se puede construir una muestra de Gibbs para una posterior, las muestras posteriores se ven perfectamente razonables, ¡pero la posterior es incorrecta!

http://www.jstor.org/stable/2291572

Un ejemplo similar ha aparecido recientemente aquí . De hecho, Hobert y Casella advierten al lector que los métodos MCMC no pueden usarse para detectar la incorrección de la parte posterior y que esto debe verificarse por separado antes de implementar cualquier método MCMC. En resumen:

Algunos muestreadores MCMC, como Metropolis-Hastings, pueden (pero no deberían) usarse para muestrear desde un posterior incorrecto ya que la computadora limita y decrementa el espacio de parámetros. Solo si tiene muestras enormes , puede observar algunas cosas extrañas. Lo bien que puede detectar estos problemas también depende de la distribución "instrumental" empleada en su muestra. El último punto requiere una discusión más extensa, por lo que prefiero dejarlo aquí.
(Hobert y Casella). El hecho de que pueda construir una muestra de Gibbs (modelo condicional) para un modelo con un previo incorrecto no implica que el posterior (modelo de unión) sea apropiado.
Una interpretación probabilística formal de las muestras posteriores requiere la propiedad de la posterior. Los resultados y las pruebas de convergencia se establecen solo para distribuciones / medidas de probabilidad adecuadas.

PD (un poco de lengua en la mejilla): no siempre creas lo que la gente hace en Machine Learning. Como dijo el profesor Brian Ripley: "el aprendizaje automático es estadística menos cualquier comprobación de modelos y suposiciones".

— varilla
fuente

(+1) Gran respuesta, y está de acuerdo con la mayoría de lo que estaba pensando. Leeré la referencia de Hobert + Casella. ¿Sabrías que algo mejor puede suceder si la cadena de Markov es nula recurrente? Además, de acuerdo con el comentario de PS.

— Greenparker

@Greenparker Las cadenas de Markov recurrentes nulas no tienen distribución estacionaria. Entonces, son inútiles en el contexto de MCMC (donde construye cadenas de Markov con una distribución estacionaria igual a la distribución objetivo). Vea, por ejemplo, aquí y aquí .

— Rod

5

Dando una vista alternativa, más aplicada, de la excelente respuesta de Rod anterior:

$+/- 10^{100}$

$1/x$ anterior: una que uso para el cálculo, que no tiene un límite superior, y la "característica adicional" de la misma donde es igual a cero por encima de la población de San Francisco ... ", con la" característica adicional "aplicada en un paso posterior a la generación de la muestra. El anterior real no es el que se usa en el cálculo de MCMC (en mi ejemplo).

Entonces, en principio, estaría bastante bien con el uso de una muestra generada por MCMC a partir de una distribución inadecuada en el trabajo aplicado, pero estaría prestando mucha atención a cómo surgió esa incorrección y cómo la muestra aleatoria se verá afectada por ella . Idealmente, la muestra aleatoria no se vería afectada por ella, como en mi ejemplo de hot dog, donde en un mundo razonable nunca generarías un número aleatorio mayor que el número de personas en San Francisco ...

También debe tener en cuenta el hecho de que sus resultados pueden ser bastante sensibles a la característica de la parte posterior que causó que sea incorrecta, incluso si la trunca en un gran número más adelante (o cualquier alteración que sea apropiada para su modelo. ) Desearía que sus resultados sean robustos a cambios leves que cambien su posterior de incorrecto a adecuado. Esto puede ser más difícil de asegurar, pero es parte del gran problema de asegurarse de que sus resultados sean sólidos para sus suposiciones, especialmente las que se hacen por conveniencia.

— jbowman
fuente

+1, táctica interesante. También podría proporcionar el truncamiento como su verdadero prior. Me imagino que al hacer mcmc, esto puede no banjax muchos de sus cálculos, y evitaría la necesidad de discutir el uso de una aproximación.

— conjeturas

@conjeturas - ¡ciertamente, en este caso! Este fue solo un ejemplo simple, destinado a ilustrar el punto de que a) puede haber una diferencia entre el uso previo en el cálculo de MCMC y el previo real, b) la diferencia puede resolverse mediante el procesamiento posterior de la muestra de MCMC (para un grado razonable de "resolución"), yc) la incorrección de los resultados del uso previo en el cálculo de MCMC no implica la incorrección de los resultados después de que se realiza el procesamiento posterior.

— jbowman