Más allá de los granos de Fisher

Durante un tiempo, parecía que Fisher Kernels podría volverse popular, ya que parecían ser una forma de construir núcleos a partir de modelos probabilísticos. Sin embargo, rara vez los he visto utilizados en la práctica, y tengo la buena autoridad de que tienden a no funcionar muy bien. Se basan en el cálculo de la información de Fisher , citando Wikipedia:

La información de Fisher es la negativa de la expectativa de la segunda derivada con respecto a θ del logaritmo natural de f. Puede verse que la información es una medida de la "curvatura" de la curva de soporte cerca de la estimación de máxima verosimilitud (MLE) de θ.

Por lo que puedo decir, esto significa que la función del núcleo entre dos puntos es la distancia a lo largo de esta superficie curva, ¿estoy en lo cierto?

Sin embargo, esto podría ser problemático para su uso en métodos de kernel, como

El MLE podría ser una muy mala estimación para un modelo dado
La curvatura de la curva de soporte alrededor del MLE podría no ser útil para discriminar entre instancias, por ejemplo, si la superficie de probabilidad estaba muy alta
Esto parece arrojar mucha información sobre el modelo

Si este es el caso, ¿existen formas más modernas de construir núcleos a partir de métodos probabilísticos? Por ejemplo, ¿podríamos usar un conjunto de reserva para usar las estimaciones de MAP de la misma manera? ¿Qué otras nociones de distancia o similitud de los métodos probabilísticos podrían funcionar para construir una función de núcleo (válida)?

— tdc
fuente

Tiene razón sobre los tres problemas que plantea, y su interpretación es exactamente correcta.

La gente ha mirado otras direcciones para construir núcleos a partir de modelos probabilísticos:

Moreno y col. propongo Kullback-Leibler, aunque cuando esto satisface las condiciones de Mercer no se entendió bien cuando miré este problema cuando lo leí.
Jebara y col. proponer producto interno en el espacio de distribuciones. Este documento se parece mucho a lo que busca: puede descargarlo aquí .

Los leí hace un tiempo (2008), no estoy seguro de cómo ha evolucionado esa área en los últimos años.

También hay formas no probabilísticas de hacerlo; La gente de Bioinformática ha analizado los tipos de cosas de programación dinámica en el espacio de las cadenas, etc. Estas cosas no siempre son PSD y tienen sus propios problemas.

— carlosdc
fuente

jmlr.org/papers/volume10/martins09a/martins09a.pdf desarrolla una teoría de los núcleos relacionados con la divergencia de KL que son y no son positivos definidos.

— Dougal