aparentemente el factor Bayes de alguna manera usa probabilidades que representan la probabilidad de cada modelo integrado en todo su espacio de parámetros (es decir, no solo en el MLE). ¿Cómo se logra esta integración realmente normalmente? ¿Realmente se intenta calcular la probabilidad en cada uno de miles (millones?) De muestras aleatorias del espacio de parámetros, o existen métodos analíticos para integrar la probabilidad en el espacio de parámetros?
PAGS( D | M)reMETRO
Es importante poner los factores de Bayes en su entorno correcto. Cuando tiene dos modelos, digamos, y convierte de probabilidades a probabilidades, entonces los factores de Bayes actúan como un operador en creencias anteriores:
PAGSo s t e r i o r O dres = B a ye s Fa c t o r ∗ Pr i o r O dres
PAGS( M1El | D)PAGS( M2El | D)= B . F. × P( M1)PAGS( M2)
La verdadera diferencia es que las razones de probabilidad son más baratas de calcular y generalmente conceptualmente más fáciles de especificar. La probabilidad en el MLE es solo una estimación puntual del numerador y denominador del factor Bayes, respectivamente. Como la mayoría de las construcciones frecuentistas, se puede ver como un caso especial de análisis bayesiano con un previo artificial que es difícil de entender. Pero principalmente surgió porque es analíticamente manejable y más fácil de calcular (en la era anterior a la aparición de los enfoques computacionales bayesianos aproximados).
Hasta el punto de la computación, sí: evaluará las diferentes integrales de probabilidad en el entorno bayesiano con un procedimiento de Monte Carlo a gran escala en casi cualquier caso de interés práctico. Hay algunos simuladores especializados, como GHK, que funcionan si asume ciertas distribuciones, y si hace estas suposiciones, a veces puede encontrar problemas analíticamente manejables para los que existen factores Bayes completamente analíticos.
Pero nadie usa estos; No hay razón para hacerlo. Con los muestreadores optimizados de Metropolis / Gibbs y otros métodos MCMC, es totalmente manejable abordar estos problemas de una manera totalmente basada en datos y calcular sus integrales numéricamente. De hecho, a menudo se hará esto jerárquicamente e integrará aún más los resultados sobre metadatos previos que se relacionan con mecanismos de recolección de datos, diseños experimentales no ignorables, etc.
Recomiendo el libro Bayesian Data Analysis para más información sobre esto. Aunque, el autor, Andrew Gelman, parece no preocuparse demasiado por los factores de Bayes . Como comentario, estoy de acuerdo con Gelman. Si vas a ir a Bayesian, explota la parte posterior completa. Hacer la selección del modelo con métodos bayesianos es como perjudicarlos, porque la selección del modelo es una forma de inferencia débil y en su mayoría inútil. Prefiero conocer las distribuciones sobre las opciones de modelo si puedo ... ¿a quién le importa cuantificarlo como "el modelo A es mejor que el modelo B" cuando no es necesario?
Además, al calcular el factor de Bayes, ¿se aplica la corrección de la complejidad (automáticamente a través de la estimación de probabilidad con validación cruzada o analíticamente a través de AIC) como se hace con la razón de probabilidad?
METRO1METRO2d1d2d1<d2N
B1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
Estoy familiarizado con esta derivación y la discusión del libro Finite Mixture y Markov Switching Models de Sylvia Frühwirth-Schnatter, pero es probable que haya informes estadísticos más directos que se sumerjan más en la epistemología subyacente.
No conozco los detalles lo suficientemente bien como para darlos aquí, pero creo que hay algunas conexiones teóricas bastante profundas entre esto y la derivación de AIC. El libro de Teoría de la Información de Cover y Thomas insinuó esto al menos.
Además, ¿cuáles son las diferencias filosóficas entre la razón de probabilidad y el factor de Bayes (nb no estoy preguntando acerca de las diferencias filosóficas entre la razón de probabilidad y los métodos bayesianos en general, sino el factor de Bayes como una representación de la evidencia objetiva específicamente). ¿Cómo se podría caracterizar el significado del factor Bayes en comparación con la razón de probabilidad?
La sección del artículo de Wikipedia sobre "Interpretación" hace un buen trabajo al discutir esto (especialmente el gráfico que muestra la escala de fuerza de evidencia de Jeffreys).
Como de costumbre, no hay demasiadas cosas filosóficas más allá de las diferencias básicas entre los métodos bayesianos y los métodos frecuentistas (con los que parece que ya está familiarizado).
Lo principal es que la razón de probabilidad no es coherente en el sentido de un libro holandés. Puede inventar escenarios en los que la inferencia de selección del modelo a partir de las razones de probabilidad llevará a uno a aceptar apuestas perdedoras. El método bayesiano es coherente, pero opera sobre una base que podría ser extremadamente pobre y debe elegirse subjetivamente. Compensaciones ... compensaciones ...
FWIW, creo que este tipo de selección de modelo altamente parametrizado no es una muy buena inferencia. Prefiero los métodos bayesianos y prefiero organizarlos de manera más jerárquica, y quiero que la inferencia se centre en la distribución posterior completa si es factible hacerlo computacionalmente. Creo que los factores Bayes tienen algunas propiedades matemáticas claras, pero como Bayesiano, no estoy impresionado por ellos. Ocultan la parte realmente útil del análisis bayesiano, que es que te obliga a lidiar con tus antecedentes a la intemperie en lugar de barrerlos debajo de la alfombra, y te permite hacer inferencias en posteriores completos.