El libro de texto Elementos de la teoría de la información nos da un ejemplo:
Por ejemplo, si supiéramos la verdadera distribución p de la variable aleatoria, podríamos construir un código con una longitud de descripción promedio H (p). Si, en cambio, utilizamos el código para una distribución q, necesitaríamos H (p) + D (p || q) bits en promedio para describir la variable aleatoria.
Parafraseando la afirmación anterior, podemos decir que si cambiamos la distribución de información (de q a p) necesitamos D (p || q) bits adicionales en promedio para codificar la nueva distribución.
Una ilustración
Permítanme ilustrar esto usando una aplicación en el procesamiento del lenguaje natural.
Tenga en cuenta que un gran grupo de personas, con la etiqueta B, son mediadores y cada uno de ellos se le asigna una tarea de elegir un nombre de turkey
, animal
y book
y transmitirlo a C. No es un nombre de tipo A, que puede enviar cada uno de ellos un correo electrónico para dar ellos algunas pistas. Si nadie en el grupo recibió el correo electrónico, pueden levantar las cejas y dudar por un momento considerando lo que C necesita. Y la probabilidad de que cada opción sea elegida es 1/3. Distribución uniformemente uniforme (si no, puede relacionarse con sus propias preferencias e ignoramos tales casos).
Pero si se les da un verbo, como baste
, 3/4 de ellos pueden elegir turkey
y 3/16 elegir animal
y 1/16 elegir book
. Entonces, ¿cuánta información en bits ha obtenido en promedio cada uno de los mediadores una vez que conocen el verbo? Está:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Pero, ¿y si el verbo dado es read
? Podemos imaginar que todos elegirían book
sin dudarlo, entonces la ganancia promedio de información para cada mediador del verbo read
es:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Podemos ver que el verbo read
puede dar más información a los mediadores. Y eso es lo que puede medir la entropía relativa.
Continuemos nuestra historia. Si C sospecha que el sustantivo puede estar equivocado porque A le dijo que podría haber cometido un error al enviar el verbo equivocado a los mediadores. Entonces, ¿cuánta información en bits puede dar una noticia tan mala a C?
1) si el verbo dado por A era baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) pero ¿qué pasa si el verbo era read
?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Como C nunca sabe cuáles serían los otros dos sustantivos y cualquier palabra en el vocabulario sería posible.
Podemos ver que la divergencia KL es asimétrica.
Espero tener razón, y si no, por favor comente y ayude a corregirme. Gracias por adelantado.