Para entender la discusión de Watanabe, es importante darse cuenta de lo que quiso decir con "singularidad". La singularidad (estricta) coincide con la noción geométrica de métrica singular en su teoría.
p.10 [Watanabe]: "Se dice que un modelo estadístico es regular si es identificable y tiene una métrica definida positiva. Si un modelo estadístico no es regular, entonces se llama estrictamente singular".p ( x ∣ w )
En la práctica, la singularidad generalmente surge cuando la métrica de información de Fisher inducida por el modelo se degenera en la variedad definida por el modelo, como casos de bajo rango o escasos en trabajos de "aprendizaje automático".
Lo que Watanabe dijo sobre la convergencia de la divergencia empírica KL a su valor teórico se puede entender de la siguiente manera. Un origen de la noción de divergencia proviene de estadísticas sólidas. Los estimadores M, que incluyen MLE como un caso especial con función de contraste , generalmente se discuten utilizando una topología débil. Es razonable discutir el comportamiento de convergencia usando una topología débil sobre el espacio M ( X ) (la variedad de todas las medidas posibles definidas en el espacio X polacoρ ( θ , δ( X) ) = - logp ( X∣ θ )METRO( X)X) porque queremos estudiar el comportamiento de robustez de MLE. Un teorema clásico en [Huber] declaró que con una función de divergencia bien separada . inf | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D ( θ0 0, θ ) = Eθ0 0ρ ( θ , δ)
infEl | θ- θ0 0El | ≥ϵ( | D ( θ0 0, θ ) - D ( θ0 0, θ0 0) | ) > 0
y buena aproximación empírica de la función de contraste a la divergencia,
junto con la regularidad, podemos producir consistencia en sentido
^ θ n :=argcenarθ∣∣∣1norte∑yoρ ( θ , δ( Xyo) ) - D ( θ0 0, θ ) ∣∣∣→ 0 , n → ∞
convergerá a
θ 0 en probabilidad
P θ 0 . Este resultado requiere condiciones mucho más precisas si lo comparamos con el resultado de Doob [Doob] en una consistencia débil del estimador bayesiano.
θnorte^: = a r gm i nθρ (θ , δ(Xnorte) )
θ0 0PAGθ0 0
Entonces aquí los estimadores bayesianos y MLE divergen. Si todavía utilizamos una topología débil para discutir la consistencia de los estimadores bayesianos, no tiene sentido porque los estimadores bayesianos siempre serán (con probabilidad uno) consistentes por Doob. Por lo tanto, una topología más apropiada es la topología de distribución de Schwarz que permite derivados débiles y la teoría de von Mises entró en juego. Barron tenía un informe técnico muy bueno sobre este tema sobre cómo podríamos usar el teorema de Schwartz para obtener consistencia.
En otra perspectiva, los estimadores bayesianos son distribuciones y su topología debería ser algo diferente. Entonces, ¿qué tipo de papel juega la divergencia en ese tipo de topología? La respuesta es que define el soporte KL de anteriores, lo que permite que el estimador bayesiano sea muy consistente.re
El "resultado de aprendizaje singular" se ve afectado porque, como vemos, el teorema de consistencia de Doob asegura que los estimadores bayesianos sean débilmente consistentes (incluso en modelos singulares) en topología débil, mientras que MLE debe cumplir ciertos requisitos en la misma topología.
Solo una palabra, [Watanabe] no es para principiantes. Tiene algunas implicaciones profundas en los conjuntos analíticos reales que requieren más madurez matemática que la mayoría de los estadísticos, por lo que probablemente no sea una buena idea leerlo sin la orientación adecuada.
■
[Watanabe] Watanabe, Sumio. Geometría algebraica y teoría del aprendizaje estadístico. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "El comportamiento de las estimaciones de máxima verosimilitud en condiciones no estándar". Actas del quinto simposio de Berkeley sobre estadística matemática y probabilidad. Vol. 1. No. 1. 1967.
[Doob] Doob, Joseph L. "Aplicación de la teoría de los martingales". Le calcul des probabilites et ses aplicaciones (1949): 23-27.