Intuición sobre una entropía conjunta

9

Tengo problemas para desarrollar cierta intuición sobre la entropía conjunta. = incertidumbre en la distribución conjunta ; = incertidumbre en ; = incertidumbre en . $H(X,Y)$ $p(x,y)$ $H(X)$ $p_x(x)$ $H(Y)$ $p_y(y)$

Si H (X) es alto, la distribución es más incierta y si conoce el resultado de dicha distribución, ¡entonces tiene más información! Entonces H (X) también cuantifica la información.

Ahora podemos mostrar $H(X,Y) \leq H(X) + H(Y)$

Pero si conoce puede obtener y por lo que en cierto sentido tiene más información que y , entonces, ¿no debería ser la incertidumbre relacionada con p (x, y) más que la suma de las incertidumbres individuales? $p(x,y)$ $p_x(x)$ $p_y(y)$ $p(x,y)$ $p_x(x)$ $p_y(y)$

information-theory mutual-information

— usuario21455
fuente

7

Como regla general, la información adicional nunca aumenta la entropía, que se declara formalmente como:

H (X El | Y) \leq H (X) *

$\begin{equation} H(X|Y) \leq H(X) \, \, \, * \end{equation}$

la igualdad se mantiene si e son independientes, lo que implica . $X$ $Y$ $H(X|Y) = H(X)$

Este resultado se puede utilizar para probar la entropía conjunta . Para demostrarlo, considere un caso simple . De acuerdo con la regla de la cadena, podemos escribir la entropía de unión de la siguiente manera $H(X_1, X_2, ..., X_n) \leq \sum_{i=1}^{n} H(X_i)$ $H(X,Y)$

H (X, Y) = H (X El | Y) + H (Y)

$\begin{equation} H(X,Y) = H(X|Y) + H(Y) \end{equation}$

Considerando la desigualdad , nunca aumenta la entropía de la variable , y por lo tanto . El uso de la inducción uno puede generalizar este resultado a los casos que involucran más de dos variables. $*$ $H(X|Y)$ $X$ $H(X,Y) \leq H(X) + H(Y)$

¡Espero que haya ayudado a reducir la ambigüedad (o su entropía) sobre la entropía conjunta!

— omidi
fuente

4

Hay otro punto de vista de la entropía de Shannon. Imagine que quiere adivinar a través de preguntas cuál es el valor concreto de una variable. Por simplicidad, se imagina que el valor sólo puede tener ocho valores diferentes , y todos son igualmente probables. $\left(0,1,..., 8\right)$

La forma más eficiente es realizar una búsqueda binaria. Primero pregunta si es mayor o menor que 4. Luego compárelo con 2 o 6, y así sucesivamente. En total, no necesitará más de tres preguntas (que es el número de bits de esta distribución concreta).

Podemos continuar con la analogía para el caso de dos variables. Si no son independientes, conocer el valor de uno de ellos lo ayuda a hacer mejores conjeturas (en promedio) para la siguiente pregunta (esto se refleja en los resultados señalados por omidi ). Por lo tanto, la entropía es más baja, a menos que sean completamente independientes, donde debe adivinar sus valores de forma independiente. Decir que la entropía es menor significa (para este ejemplo concreto) que necesita hacer menos preguntas en promedio (es decir, la mayoría de las veces hará buenas suposiciones).

— jpmuc
fuente

2

Parece que estás pensando "si hay más información cuando se conoce, más entropía cuando se desconoce". Esta no es una intuición correcta, porque, si la distribución es desconocida, ni siquiera sabemos su entropía. Si se conoce la distribución, entonces la entropía cuantifica la cantidad de información necesaria para describir la incertidumbre sobre la realización de la variable aleatoria, que sigue siendo desconocida (solo conocemos la estructura que rodea esta incertidumbre, al conocer la distribución). La entropía no cuantifica la información "presente" en la distribución. Por el contrario: cuanta más información "se incluye" en la distribución, menos información "se necesita" para describir la incertidumbre y, por lo tanto, menosLa entropía es. Considere la distribución uniforme: contiene muy poca información, porque todos los valores posibles de la variable son equiprobables: por lo tanto, tiene una entropía máxima entre todas las distribuciones con soporte acotado.

En cuanto a la entropía conjunta, puede pensar en lo siguiente: la distribución conjunta contiene información sobre si dos variables son dependientes o no, más información suficiente para derivar las distribuciones marginales. Las distribuciones marginales no contienen información sobre si dos variables aleatorias son dependientes o independientes. Por lo tanto, la distribución conjunta tiene más información y nos brinda menos incertidumbre sobre las variables aleatorias involucradas:

$\rightarrow$ $\rightarrow$ $\rightarrow$

— Alecos Papadopoulos
fuente

(X, Y)

$(X,Y)$

H (X, Y)

$H(X,Y)$

H (X) + H (Y)

$H(X) + H(Y)$

Sí, esa es la esencia.

— Alecos Papadopoulos