Relación de probabilidad vs factor de Bayes

Soy bastante evangelista con respecto al uso de razones de probabilidad para representar la evidencia objetiva a favor / en contra de un fenómeno dado. Sin embargo, hace poco aprendí que el factor Bayes cumple una función similar en el contexto de los métodos bayesianos (es decir, el anterior subjetivo se combina con el factor Bayes objetivo para producir un estado de creencia subjetiva objetivamente actualizado). Ahora estoy tratando de entender las diferencias computacionales y filosóficas entre una razón de probabilidad y un factor de Bayes.

A nivel computacional, entiendo que si bien la razón de probabilidad generalmente se calcula usando las probabilidades que representan la probabilidad máxima para la parametrización respectiva de cada modelo (ya sea estimada por validación cruzada o penalizada de acuerdo con la complejidad del modelo usando AIC), aparentemente el factor de Bayes de alguna manera usa probabilidades que representan la probabilidad de cada modelo integrado en todo su espacio de parámetros (es decir, no solo en el MLE). ¿Cómo se logra esta integración realmente normalmente? ¿Realmente se intenta calcular la probabilidad en cada uno de miles (millones?) De muestras aleatorias del espacio de parámetros, o existen métodos analíticos para integrar la probabilidad en el espacio de parámetros? Además, al calcular el factor Bayes,

Además, ¿cuáles son las diferencias filosóficas entre la razón de probabilidad y el factor de Bayes (nb no estoy preguntando acerca de las diferencias filosóficas entre la razón de probabilidad y los métodos bayesianos en general, sino el factor de Bayes como una representación de la evidencia objetiva específicamente). ¿Cómo se podría caracterizar el significado del factor Bayes en comparación con la razón de probabilidad?

likelihood-ratio bayes-factors

— Mike Lawrence
fuente

¿Has considerado el ejemplo en Wikipedia

— Henry

El libro de Chen, Shao e Ibrahim (2000) está dedicado al cálculo de Montecarlo de los factores de Bayes.

— Xi'an

Respuestas:

aparentemente el factor Bayes de alguna manera usa probabilidades que representan la probabilidad de cada modelo integrado en todo su espacio de parámetros (es decir, no solo en el MLE). ¿Cómo se logra esta integración realmente normalmente? ¿Realmente se intenta calcular la probabilidad en cada uno de miles (millones?) De muestras aleatorias del espacio de parámetros, o existen métodos analíticos para integrar la probabilidad en el espacio de parámetros?

$P(D|M)$ $D$ $M$

Es importante poner los factores de Bayes en su entorno correcto. Cuando tiene dos modelos, digamos, y convierte de probabilidades a probabilidades, entonces los factores de Bayes actúan como un operador en creencias anteriores:

P o s t e r i o r O d d s = B a y e s F a c t o r * P r i o r O d d s

$Posterior Odds = Bayes Factor * Prior Odds$

\frac{P (M_{1} | D)}{P (M_{2} | D)} = B . F . \times \frac{P (M_{1})}{P (M_{2})}

$\frac{P(M_{1}|D)}{P(M_{2}|D)} = B.F. \times \frac{P(M_{1})}{P(M_{2})}$

La verdadera diferencia es que las razones de probabilidad son más baratas de calcular y generalmente conceptualmente más fáciles de especificar. La probabilidad en el MLE es solo una estimación puntual del numerador y denominador del factor Bayes, respectivamente. Como la mayoría de las construcciones frecuentistas, se puede ver como un caso especial de análisis bayesiano con un previo artificial que es difícil de entender. Pero principalmente surgió porque es analíticamente manejable y más fácil de calcular (en la era anterior a la aparición de los enfoques computacionales bayesianos aproximados).

Hasta el punto de la computación, sí: evaluará las diferentes integrales de probabilidad en el entorno bayesiano con un procedimiento de Monte Carlo a gran escala en casi cualquier caso de interés práctico. Hay algunos simuladores especializados, como GHK, que funcionan si asume ciertas distribuciones, y si hace estas suposiciones, a veces puede encontrar problemas analíticamente manejables para los que existen factores Bayes completamente analíticos.

Pero nadie usa estos; No hay razón para hacerlo. Con los muestreadores optimizados de Metropolis / Gibbs y otros métodos MCMC, es totalmente manejable abordar estos problemas de una manera totalmente basada en datos y calcular sus integrales numéricamente. De hecho, a menudo se hará esto jerárquicamente e integrará aún más los resultados sobre metadatos previos que se relacionan con mecanismos de recolección de datos, diseños experimentales no ignorables, etc.

Recomiendo el libro Bayesian Data Analysis para más información sobre esto. Aunque, el autor, Andrew Gelman, parece no preocuparse demasiado por los factores de Bayes . Como comentario, estoy de acuerdo con Gelman. Si vas a ir a Bayesian, explota la parte posterior completa. Hacer la selección del modelo con métodos bayesianos es como perjudicarlos, porque la selección del modelo es una forma de inferencia débil y en su mayoría inútil. Prefiero conocer las distribuciones sobre las opciones de modelo si puedo ... ¿a quién le importa cuantificarlo como "el modelo A es mejor que el modelo B" cuando no es necesario?

Además, al calcular el factor de Bayes, ¿se aplica la corrección de la complejidad (automáticamente a través de la estimación de probabilidad con validación cruzada o analíticamente a través de AIC) como se hace con la razón de probabilidad?

$M_{1}$ $M_{2}$ $d_{1}$ $d_{2}$ $d_{1} < d_{2}$ $N$

$B_{1,2}$ $M_{1}$ $M_{1}$ $N\to\infty$ $B_{1,2}$ $\infty$

B_{1, 2} = O (N^{\frac{1}{2} (d_{2} - d_{1})})

$B_{1,2} = \mathcal{O}(N^{\frac{1}{2}(d_{2}-d_{1})})$

Estoy familiarizado con esta derivación y la discusión del libro Finite Mixture y Markov Switching Models de Sylvia Frühwirth-Schnatter, pero es probable que haya informes estadísticos más directos que se sumerjan más en la epistemología subyacente.

No conozco los detalles lo suficientemente bien como para darlos aquí, pero creo que hay algunas conexiones teóricas bastante profundas entre esto y la derivación de AIC. El libro de Teoría de la Información de Cover y Thomas insinuó esto al menos.

Además, ¿cuáles son las diferencias filosóficas entre la razón de probabilidad y el factor de Bayes (nb no estoy preguntando acerca de las diferencias filosóficas entre la razón de probabilidad y los métodos bayesianos en general, sino el factor de Bayes como una representación de la evidencia objetiva específicamente). ¿Cómo se podría caracterizar el significado del factor Bayes en comparación con la razón de probabilidad?

La sección del artículo de Wikipedia sobre "Interpretación" hace un buen trabajo al discutir esto (especialmente el gráfico que muestra la escala de fuerza de evidencia de Jeffreys).

Como de costumbre, no hay demasiadas cosas filosóficas más allá de las diferencias básicas entre los métodos bayesianos y los métodos frecuentistas (con los que parece que ya está familiarizado).

Lo principal es que la razón de probabilidad no es coherente en el sentido de un libro holandés. Puede inventar escenarios en los que la inferencia de selección del modelo a partir de las razones de probabilidad llevará a uno a aceptar apuestas perdedoras. El método bayesiano es coherente, pero opera sobre una base que podría ser extremadamente pobre y debe elegirse subjetivamente. Compensaciones ... compensaciones ...

FWIW, creo que este tipo de selección de modelo altamente parametrizado no es una muy buena inferencia. Prefiero los métodos bayesianos y prefiero organizarlos de manera más jerárquica, y quiero que la inferencia se centre en la distribución posterior completa si es factible hacerlo computacionalmente. Creo que los factores Bayes tienen algunas propiedades matemáticas claras, pero como Bayesiano, no estoy impresionado por ellos. Ocultan la parte realmente útil del análisis bayesiano, que es que te obliga a lidiar con tus antecedentes a la intemperie en lugar de barrerlos debajo de la alfombra, y te permite hacer inferencias en posteriores completos.

— ely
fuente

"Como de costumbre, no hay demasiadas cosas filosóficas más allá de las diferencias básicas entre los métodos bayesianos y los métodos frecuentas (con los que parece que ya estás familiarizado). Lo principal es que la prueba de razón de probabilidad ..." Solo un punto de aclaración, no lo hice No intente comparar los factores de Bayes con las pruebas de razón de verosimilitud , pero con las razones de verosimilitud por sí mismas, sin equipaje de prueba de hipótesis frecuente / nula.

— Mike Lawrence

De acuerdo con mi aclaración anterior: Por lo tanto, me parece que la gran diferencia entre BF y LR es que, como usted dice, el primero corrige automáticamente la complejidad pero requiere mucho cálculo, mientras que el último requiere mucho menos cálculo pero requiere corrección explícita para la complejidad del modelo (ya sea usando AIC, que es computacionalmente rápido, o validación cruzada, que es bastante más costosa computacionalmente).

— Mike Lawrence

Lo sentimos, la prueba de razón de probabilidad fue un error tipográfico, debería haber sido solo la razón de probabilidad. Creo que en su mayoría tiene razón, pero aún falta el panorama general de que la razón de probabilidad es solo una estimación puntual. Solo será útil si las distribuciones de probabilidad subyacentes se comportan bien hasta una aproximación cuadrática en la vecindad del MLE. Los factores de Bayes no necesitan preocuparse por propiedades de distribución asintóticas como esta, por lo que es específicamente más general. Se subsume la inferencia de selección de modelos basados en la MLE.

— ely

Para decirlo de otra manera, el MLE puede verse como el máximo estimador a posteriori (MAP), solo con un previo incorrecto (cuando la integración lo permite), y el MAP es una estimación puntual más convincente ya que incorpora información previa. Ahora, en lugar de simplemente elegir el modo de la parte posterior ... ¿por qué no combinar todos los valores de la parte posterior de acuerdo con su probabilidad previa? No le dará una estimación puntual de los parámetros, pero la mayoría de las personas realmente no quieren una estimación puntual. Las distribuciones sobre los parámetros son siempre más útiles que las estimaciones puntuales cuando puede permitirse obtenerlas

— Ely

Al comprender la diferencia entre las razones de probabilidad y los factores de Bayes, es útil considerar una característica clave de los factores de Bayes con más detalle:

¿Cómo logran los factores de Bayes dar cuenta automáticamente de la complejidad de los modelos subyacentes?

Una perspectiva sobre esta cuestión es considerar métodos para la inferencia aproximada determinista. Bayes variacional es uno de esos métodos. Es posible que no solo reduzca drásticamente la complejidad computacional de las aproximaciones estocásticas (por ejemplo, muestreo de MCMC). Los Bayes Variacionales también proporcionan una comprensión intuitiva de lo que constituye un factor Bayes.

Recuerde primero que un factor Bayes se basa en las evidencias del modelo de dos modelos competidores,

\begin{aligned} B F_{1, 2} = \frac{p (data ∣ M_{1})}{p (data ∣ M_{2})}, \end{aligned}

$\begin{align} BF_{1,2} = \frac{p(\textrm{data} \mid M_1)}{p(\textrm{data} \mid M_2)}, \end{align}$

donde las evidencias del modelo individual tendrían que ser calculadas por una integral complicada:

\begin{aligned} p (data ∣ M_{i}) = \int p (data ∣ θ, M_{i}) p (θ ∣ M_{i}) d θ \end{aligned}

$\begin{align} p(\textrm{data} \mid M_i) = \int p(\textrm{data} \mid \theta,M_i ) \ p(\theta \mid M_i) \ \textrm{d}\theta \end{align}$

$p(\theta \mid \textrm{data}, M_i)$

$q(\theta)$ $p(\theta \mid \textrm{data},M_i)$

$\mathcal{F}$

\begin{aligned} F = log p (data ∣ M_{i}) - KL [q (θ) | | p (θ ∣ data, M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \textrm{log} \; p(\textrm{data} \mid M_i) - \textrm{KL}\left[q(\theta) \; || \; p(\theta \mid \textrm{data},M_i) \right] \end{align}$

$q(\theta) \approx p(\theta \mid \textrm{data},M_i)$ $\mathcal{F}$

Ahora podemos volver a la pregunta original de cómo un factor Bayes equilibra automáticamente la bondad de ajuste y la complejidad de los modelos involucrados. Resulta que la energía libre negativa se puede reescribir de la siguiente manera:

\begin{aligned} F = {⟨ p (data ∣ θ, M_{i}) ⟩}_{q} - KL [q (θ) | | p (θ ∣ M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \left\langle p(\textrm{data} \mid \theta,M_i) \right\rangle_q - \textrm{KL}\left[ q(\theta) \; || \; p(\theta \mid M_i) \right] \end{align}$

El primer término es la probabilidad logarítmica de los datos esperados bajo el posterior aproximado; Representa la bondad de ajuste (o precisión ) del modelo. El segundo término es la divergencia KL entre el posterior aproximado y el anterior; representa la complejidad del modelo, en la opinión de que un modelo más simple es uno que es más consistente con nuestras creencias anteriores, o en la opinión de que un modelo más simple no tiene que estirarse tanto para acomodar los datos.

La aproximación de energía libre a la evidencia del modelo de registro muestra que la evidencia del modelo incorpora una compensación entre el modelado de los datos (es decir, la bondad de ajuste) y la coherencia con nuestros antecedentes (es decir, simplicidad o complejidad negativa).

Un factor de Bayes (en contraste con una razón de probabilidad) dice así cuál de los dos modelos competidores es mejor para proporcionar una explicación simple pero precisa de los datos.

— Kay Brodersen
fuente