Después de mucho arrastre de Cross Validated, todavía no siento que estoy más cerca de entender la divergencia de KL fuera del ámbito de la teoría de la información. Es bastante extraño que alguien con experiencia en matemáticas encuentre mucho más fácil entender la explicación de la teoría de la información.
Para resumir mi comprensión a partir de los antecedentes de la teoría de la información: si tenemos una variable aleatoria con un número finito de resultados, existe una codificación óptima que nos permite comunicar el resultado con otra persona con el mensaje más corto en promedio. imagen en términos de bits). La longitud esperada del mensaje que se necesitaría para comunicar el resultado viene dada por si se usa la codificación óptima. Si tuviera que usar una codificación subóptima, entonces la divergencia KL nos dice en promedio cuánto tiempo más duraría nuestro mensaje.
Me gusta esta explicación, porque intuitivamente trata la asimetría de la divergencia KL. Si tenemos dos sistemas diferentes, es decir, dos monedas cargadas que se cargan de manera diferente, tendrán diferentes codificaciones óptimas. No creo de manera instintiva que usar la codificación del segundo sistema para el primero sea "igualmente malo" que usar la codificación del primer sistema para el segundo. Sin pasar por el proceso de pensamiento de cómo me convencí, ahora estoy bastante feliz de que le proporciona esta "longitud de mensaje extra esperada", cuando utiliza la codificación de para .
Sin embargo, la mayoría de las definiciones de divergencia KL, incluida Wikipedia, hacen la declaración (manteniendo esto en términos discretos para que pueda compararse con la interpretación de la teoría de la información que funciona mucho mejor en términos discretos, ya que los bits son discretos) que si tenemos dos probabilidades discretas distribuciones, luego KL proporciona alguna métrica de "cuán diferentes son". Todavía tengo que ver una sola explicación de cómo estos dos conceptos están relacionados. Creo recordar en su libro sobre inferencia, Dave Mackay señala que la compresión de datos y la inferencia son básicamente lo mismo, y sospecho que mi pregunta está realmente relacionada con esto.
Independientemente de si es o no, el tipo de pregunta que tengo en mente es sobre problemas de inferencia. (Manteniendo las cosas discretas), si tenemos dos muestras radiactivas, y sabemos que una de ellas es un cierto material con radiactividad conocida (esto es física dudosa, pero supongamos que el universo funciona así) y así conocemos la distribución "verdadera" de los clics radiactivos que deberíamos medir debería ser poissoniano con conocida , ¿es justo construir una distribución empírica para ambas muestras y comparar sus divergencias de KL con la distribución conocida y decir que el más bajo es más probable que sea ese material?
Alejándome de la física dudosa, si sé que dos muestras se extraen de la misma distribución pero sé que no se seleccionan al azar, comparar sus divergencias KL con la distribución mundial conocida me da una idea de cuán sesgadas son las muestras. , en relación con uno y otro de todos modos?
Y finalmente, si la respuesta a las preguntas anteriores es sí, ¿por qué? ¿Es posible entender estas cosas solo desde un punto de vista estadístico sin hacer ninguna conexión (posiblemente tenue) con la teoría de la información?