¿Por qué la parte posterior bayesiana se concentra alrededor del minimizador de la divergencia KL?


9

Considere la bayesiana posterior . Asintóticamente, su máximo ocurre en la estimación MLE , que simplemente maximiza la probabilidad .θXθ argmin θθ^argminθfθ(X)

Todos estos conceptos (antecedentes bayesianos, maximizando la probabilidad) suenan súper principios y no son en absoluto arbitrarios. No hay un registro a la vista.

Sin embargo, MLE minimiza la divergencia KL entre la distribución real y , es decir, minimizaf~fθ(x)

KL(F~Fθ)=-+F~(X)[Iniciar sesiónF~(X)-Iniciar sesiónFθ(X)]reX

Woah, ¿de dónde vienen estos registros? ¿Por qué la divergencia KL en particular?

¿Por qué, por ejemplo, minimizar una divergencia diferente no se corresponde con los conceptos súper principios y motivados de los posteriores bayesianos y maximizar la probabilidad anterior?

Parece haber algo especial sobre la divergencia KL y / o los registros en este contexto. Por supuesto, podemos lanzar nuestras manos al aire y decir que así son las matemáticas. Pero sospecho que podría haber alguna intuición o conexiones más profundas que descubrir.



@kjetilbhalvorsen El título anterior sonaba como un duplicado; Pido disculpas. He realizado una edición, y debería quedar claro por qué esta pregunta no es un duplicado.
Yatharth Agarwal

La otra pregunta es: "¿Qué es la divergencia KL y por qué no es simétrica?" Las respuestas explican el concepto de una divergencia, y algo de información sobre KL. En contraste, esta pregunta es: "¿Por qué la parte posterior bayesiana se concentra alrededor del minimizador de la divergencia KL?" Simplemente explicar cómo las divergencias no tienen que ser simétricas y explicar KL y afirmar que KL está conectado a MLE no aborda el quid de la cuestión aquí: por qué entre las muchas divergencias posibles, KL en particular tiene una conexión especial con la parte posterior bayesiana. ¿Esto tiene sentido?
Yatharth Agarwal

Sí, tiene sentido, pero todavía hay un problema. El posterior depende también del anterior, y si es fuerte, el posterior puede tener un máximo de distancia del mle. Pero el prior está ausente en su pregunta.
kjetil b halvorsen

@kjetilbhalversen ¡Quise decir asintóticamente con más y más muestras de IID y bajo las condiciones (estrictas) bajo las cuales lo anterior no importa asintóticamente!
Yatharth Agarwal

Respuestas:


5

El uso de logaritmos en cálculos como este proviene de la teoría de la información . En el caso particular de la divergencia KL, la medida puede interpretarse como la información relativa de dos distribuciones:

KL(F~Fθ)=-F~(X)(Iniciar sesiónF~(X)-Iniciar sesiónFθ(X)) reX=(--F~(X)Iniciar sesiónFθ(X) reXH(F~,Fθ))-(--F~(X)Iniciar sesiónF~(X) reXH(F~)),

donde H(F~) es la entropía de F~ y H(F~,Fθ) es la cruz-entropía del F~ y Fθ . La entropía puede considerarse como una medida de la tasa promedio de producción de una densidad (el pensamiento de entropía cruzada es un poco más complicado). Reducir al mínimo la divergencia KL para un valor fijo F~ (como en el problema que mencionas) es equivalente a minimizar la entropía cruzada, por lo que esta optimización puede ser objeto de una interpretación de información teórica.

No es posible para mí dar una buena explicación de la teoría de la información y las propiedades de las medidas de información, en una breve publicación. Sin embargo, recomendaría echar un vistazo al campo, ya que tiene conexiones cercanas con las estadísticas. Muchas medidas estadísticas que involucran integrales y sumas sobre logaritmos de densidades son combinaciones simples de medidas de información estándar utilizadas en la teoría de medidas, y en tales casos, se les puede dar interpretaciones en términos de los niveles subyacentes de información en varias densidades, etc.


¡Investigar la teoría de la información suena prometedor! Gracias por señalarme.
Yatharth Agarwal

Obviamente, no puede explicar un campo matemático completo en una publicación de StackExchange, pero ¿tendría alguna referencia particular a ellos cuando aparezca el registro?
Yatharth Agarwal

Simplemente creo que hay una intuición tan profunda detrás de por qué, por ejemplo, e está en la ecuación de Euler y tal, que hay una intuición similar al acecho aquí. Tal vez un producto en algún lugar hace surgir el logaritmo natural. No estoy seguro.
Yatharth Agarwal

@Yatharth el logaritmo surge aquí debido a su papel central en la definición de entropía de Shannon. En cuanto a "por qué" un logaritmo es apropiado para una medida de información, a diferencia de otra función, eche un vistazo al teorema 2 en la "Teoría matemática de la comunicación" de Shannon. Además, la "teoría de la información y la mecánica estadística" de Jayne es una buena introducción.
Papa Nate
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.