En "Aprendizaje automático: una perspectiva probabilística" de Kevin Murphy, capítulo 3.2, el autor demuestra el concepto de aprendizaje bayesiano en un ejemplo llamado "juego de números": después de observar muestras de , queremos escoja una hipótesis que describa mejor la regla que generó las muestras. Por ejemplo, "números pares" o "números primos".
Las estimaciones de máximo a posteriori y máxima verosimilitud se definen como:
donde representa las probabilidades anteriores de varias hipótesis y la posterior se define como:
iff , es decir, qué tan probable es que un muestreo uniforme con reemplazo de la hipótesis arroje set . Intuitivamente significa que el posterior es más alto para las hipótesis "más pequeñas". Por ejemplo, las hipótesis "potencias de 2" explican las observaciones mejor que los "números pares".
Todo esto está claro. Sin embargo, estoy confundido acerca de la siguiente oración (aunque intuitivamente tiene mucho sentido):
Dado que el término de probabilidad depende exponencialmente de , y el anterior permanece constante, a medida que obtenemos más y más datos, la estimación de MAP converge hacia la estimación de máxima probabilidad.
Es cierto que la probabilidad depende exponencialmente de , sin embargo, el número exponencial está en el intervalo y como , , por lo que la probabilidad debería desaparecer.
¿Por qué MAP converge a MLE en este caso?