Durante un tiempo, parecía que Fisher Kernels podría volverse popular, ya que parecían ser una forma de construir núcleos a partir de modelos probabilísticos. Sin embargo, rara vez los he visto utilizados en la práctica, y tengo la buena autoridad de que tienden a no funcionar muy bien. Se basan en el cálculo de la información de Fisher , citando Wikipedia:
La información de Fisher es la negativa de la expectativa de la segunda derivada con respecto a θ del logaritmo natural de f. Puede verse que la información es una medida de la "curvatura" de la curva de soporte cerca de la estimación de máxima verosimilitud (MLE) de θ.
Por lo que puedo decir, esto significa que la función del núcleo entre dos puntos es la distancia a lo largo de esta superficie curva, ¿estoy en lo cierto?
Sin embargo, esto podría ser problemático para su uso en métodos de kernel, como
- El MLE podría ser una muy mala estimación para un modelo dado
- La curvatura de la curva de soporte alrededor del MLE podría no ser útil para discriminar entre instancias, por ejemplo, si la superficie de probabilidad estaba muy alta
- Esto parece arrojar mucha información sobre el modelo
Si este es el caso, ¿existen formas más modernas de construir núcleos a partir de métodos probabilísticos? Por ejemplo, ¿podríamos usar un conjunto de reserva para usar las estimaciones de MAP de la misma manera? ¿Qué otras nociones de distancia o similitud de los métodos probabilísticos podrían funcionar para construir una función de núcleo (válida)?