¿Cómo normaliza el registro (p (x, y)) la información mutua puntual?

9

Estoy tratando de entender la forma normalizada de información mutua puntual.

$npmi = \frac{pmi(x,y)}{log(p(x,y))}$

¿Por qué la probabilidad conjunta logarítmica normaliza la información mutua puntual entre [-1, 1]?

La información mutua puntual es:

$pmi = log(\frac{p(x,y)}{p(x)p(y)})$

p (x, y) está delimitado por [0, 1] por lo que log (p (x, y)) está delimitado por (, 0]. Parece que el log (p (x, y)) debería equilibrar de alguna manera los cambios en el numerador, pero no entiendo exactamente cómo. También me recuerda a la entropía , pero nuevamente no entiendo la relación exacta. $h=-log(p(x))$

entropy information-theory mutual-information

— 2cents
fuente

Para empezar , la información mutua puntual utiliza logaritmo (no estoy seguro de si es un error tipográfico o si está utilizando otra cantidad ).

— Piotr Migdal

12

De la entrada de Wikipedia sobre información mutua puntual :

La información mutua puntual se puede normalizar entre [-1, + 1] dando como resultado -1 (en el límite) para que nunca ocurran juntos, 0 para la independencia y +1 para la concurrencia completa.

¿Por que sucede? Bueno, la definición de información mutua puntual es

p m i \equiv \log [\frac{p (x, y)}{p (x) p (y)}] = \log p (x, y) - \log p (x) - \log p (y),

$pmi \equiv \log \left[ \frac{p(x,y)}{p(x)p(y)} \right] = \log p(x,y) - \log p(x) - \log p(y),$

mientras que para información mutua puntual normalizada es:

n p m i \equiv \frac{p m i}{- \log p (x, y)} = \frac{\log [p (x) p (y)]}{\log p (x, y)} - 1.

$npmi \equiv \frac{pmi}{-\log p(x,y)} = \frac{\log[ p(x) p(y)]}{\log p(x,y)} - 1.$

El cuando hay:

sin coincidencias, , entonces nmpi es -1, $\log p(x,y)\to -\infty$
Co-ocurrencias al azar, , entonces nmpi es 0, $\log p(x,y)= \log[p(x) p(y)]$
co-ocurrencias completas, , entonces nmpi es 1. $\log p(x,y)= \log p(x) = \log p(y)$

— Piotr Migdal
fuente

Sería una respuesta más completa para mostrar por qué npmi está en el intervalo . Ver mi prueba en la otra respuesta.

[- 1, 1]

$[-1,1]$

— Hans

1

Si bien la respuesta de Piotr Migdal es informativa al dar ejemplos donde nmpi logra tres valores extremos, no prueba que esté en el intervalo . Aquí está la desigualdad y su derivación. como para cualquier evento . Dividiendo ambos lados por el no negativo , tenemos $[-1,1]$

\begin{aligned} \log p (x, y) \\ \leq & \log p (x, y)) - \log p (x) - \log p (y) \\ = & \log \frac{p (x, y)}{p (x) p (y)} =: pmi (x; y) \\ = & \log p (y | x) + \log p (y | x) - \log p (x, y) \\ \leq & - \log p (x, y) \end{aligned}

$\begin{align} &\log\,p(x,y) \\ \le&\log\,p(x,y))-\log\,p(x)-\log\,p(y) \\ =&\log \frac{p(x,y)}{p(x)p(y)}=:\text{pmi}(x;y) \\ =&\log\, p(y|x)+\log\, p(y|x)-\log\,p(x,y) \\ \le&-\log\,p(x,y) \end{align}$

- \log p (A) \geq 0

$-\log\,p(A)\ge0$

A

$A$

h (x, y) := - \log p (x, y)

$h(x,y):=-\log\,p(x,y)$

- 1 \leq nmpi (x; y) := \frac{mpi(x;y)}{h (x, y)} \leq 1.

$-1\le\text{nmpi}(x;y):=\frac{\text{mpi(x;y)}}{h(x,y)}\le1.$

— Hans
fuente