Me encontré con un gran cantidad de literatura que aboga por usar la métrica de información de Fisher como una métrica local natural en el espacio de distribuciones de probabilidad y luego integrarla para definir distancias y volúmenes.
Pero, ¿son realmente útiles estas cantidades "integradas" para algo? No encontré justificaciones teóricas y muy pocas aplicaciones prácticas. Uno es el trabajo de Guy Lebanon, donde utiliza "La distancia de Fisher" para clasificar documentos y otro es el ABC de Selección de modelos de Rodríguez ... donde se usa el "Volumen de Fisher" para la selección de modelos. Aparentemente, el uso de "volumen de información" proporciona una mejora de "órdenes de magnitud" sobre AIC y BIC para la selección del modelo, pero no he visto ningún seguimiento de ese trabajo.
Una justificación teórica podría ser tener un límite de generalización que use esta medida de distancia o volumen y sea mejor que los límites derivados de MDL o argumentos asintóticos, o un método que se base en una de estas cantidades que sea demostrablemente mejor en alguna situación razonablemente práctica. ¿Algún resultado de este tipo?