Factores de Bayes con antecedentes inadecuados

Tengo una pregunta sobre la comparación de modelos con factores de Bayes. En muchos casos, los estadísticos están interesados en utilizar un enfoque bayesiano con antecedentes inadecuados (por ejemplo, algunos antecedentes de Jeffreys y de referencia).

Mi pregunta es, en aquellos casos en que la distribución posterior de los parámetros del modelo está bien definida, ¿es válido comparar modelos usando factores de Bayes bajo el uso de antecedentes inadecuados?

Como un ejemplo simple, considere comparar un modelo Normal versus un modelo Logístico con los anteriores de Jeffreys.

bayesian model-selection prior

— Jeffrey
fuente

Un prior inapropiado desempeña el papel de un "prior no informativo". Si está en una perspectiva de "no creer previamente", entonces obviamente no puede asignar una probabilidad previa a un modelo. Sin embargo, hay algunos documentos de Berger y otros autores acerca de una noción de "factores intrínsecos de Bayes"; Esto suena como el factor Bayes con antecedentes no informativos, pero no puedo decir más porque nunca he leído estos documentos. Probablemente también existan otros métodos de "selección objetiva de modelo bayesiano" (escribir estos términos en Google produce varios documentos de Berger).

— Stéphane Laurent

@ StéphaneLaurent La interpretación del previo en los parámetros es diferente de la de la probabilidad previa del modelo. Esto se puede ver en la expresión general del factor Bayes. También puede asignar anteriores uniformes a los modelos, incorrectos antes de los parámetros, y ver lo que los datos le dicen a posteriori .

— Jeffrey

Recomiendo leer los Criterios para la elección del modelo bayesiano con aplicación a la selección de variables (AoS, 2012), en particular Lemma 1. Básicamente, no se pueden usar anteriores inadecuados para parámetros no comunes.

No. Si bien los antecedentes inadecuados pueden estar bien para la estimación de parámetros bajo ciertas circunstancias (debido al teorema de Bernstein-von Mises ), son un gran no-no para la comparación de modelos, debido a lo que se conoce como la paradoja de la marginación .

El problema, como su nombre lo sugiere, es que la distribución marginal de una distribución incorrecta no está bien definida. Dada una probabilidad y una previa : el factor Bayes requiere calcular la probabilidad marginal : $p_1(x \mid \theta)$ $p_1(\theta)$

p_{1} (x) = \int_{Θ} p_{1} (x ∣ θ) p_{1} (θ) d θ .

$p_1(x) = \int_\Theta p_1(x \mid \theta) p_1(\theta) d \theta .$

Si piensa que un previo incorrecto solo se conoce hasta la proporcionalidad (por ejemplo, ), entonces el problema es que se multiplicará por una constante desconocida. En un factor Bayes, calcularás la relación de algo con una constante desconocida. $p_1(\theta) \propto 1$ $p_1(x)$

Algunos autores, en particular ET Jaynes, intentan evitar esto definiendo los antecedentes impropios como el límite de una secuencia de antecedentes apropiados: entonces el problema es que puede haber dos secuencias limitantes diferentes que luego dan respuestas diferentes.

— Simon Byrne
fuente

Gracias por su respuesta. El problema sobre las constantes de proporcionalidad se puede evitar utilizando el mismo previo incorrecto en parámetros comunes, como los parámetros de ubicación y escala, como se menciona en The Bayesian Choice, págs. 349. Si entiendo correctamente, la paradoja de la marginación se aplica solo a los anteriores con un cierta estructura

— Jeffrey

El problema será que dominarán los casos poco realistas: si tiene un uniforme previo en su parámetro de ubicación, colocará 100 veces el peso en el intervalo [100,200], como lo haría en [0,1] (lo que podría parecer ridículo en algunas circunstancias)

— Simon Byrne

Pero la cuestión es que los antecedentes impropios no pueden interpretarse en términos probabilísticos. No existe tal peso dado que la interpretación probabilística de lo anterior se ha ido ya que es incorrecta.

— Jeffrey

No es probabilístico, pero sigue siendo una medida, por lo que puede hacer comparaciones relativas (es decir, hay 100 veces la "masa" en el intervalo [100,200] como en [0,1]).

— Simon Byrne

Creo que este análisis debe hacerse en la parte posterior y no en la anterior. Por ejemplo, algunos anteriores coincidentes son incorrectos, como los Jeffreys de Independencia para el caso Normal . Puede aplicar esa interpretación a este previo, pero este anterior produce intervalos posteriores con grandes propiedades frecuentistas. En este caso, los casos poco realistas no dominan. (Gracias por la discusión, por cierto)

π (μ, σ) \propto σ^{- 1}

$\pi(\mu,\sigma)\propto \sigma^{-1}$

— Jeffrey