Considere la bayesiana posterior . Asintóticamente, su máximo ocurre en la estimación MLE , que simplemente maximiza la probabilidad .θ argmin θ
Todos estos conceptos (antecedentes bayesianos, maximizando la probabilidad) suenan súper principios y no son en absoluto arbitrarios. No hay un registro a la vista.
Sin embargo, MLE minimiza la divergencia KL entre la distribución real y , es decir, minimiza
Woah, ¿de dónde vienen estos registros? ¿Por qué la divergencia KL en particular?
¿Por qué, por ejemplo, minimizar una divergencia diferente no se corresponde con los conceptos súper principios y motivados de los posteriores bayesianos y maximizar la probabilidad anterior?
Parece haber algo especial sobre la divergencia KL y / o los registros en este contexto. Por supuesto, podemos lanzar nuestras manos al aire y decir que así son las matemáticas. Pero sospecho que podría haber alguna intuición o conexiones más profundas que descubrir.