¿Por qué las personas usan el término "peso de la evidencia" y en qué se diferencia de "información mutua puntual"?

Aquí, "peso de la evidencia" (WOE) es un término común en la literatura científica y de formulación de políticas publicada, más a menudo visto en el contexto de la evaluación de riesgos, definido por:

w (e : h) = \log \frac{p (e | h)}{p (e | \bar{h})}

$w(e : h) = \log\frac{p(e|h)}{p(e|\overline{h})}$

donde es evidencia, es hipótesis. $e$ $h$

Ahora, quiero saber cuál es la principal diferencia con PMI (información mutua puntual)

p m i (e, h) = \log \frac{p (e, h)}{p (e) * p (h)}

$pmi(e,h)=\log\frac{p(e,h)}{p(e)*p(h)}$

probability bayesian mutual-information

— Charlie Epps
fuente

Creo que el término fue acuñado en este documento: projecteuclid.org/…

— JohnRos

A pesar de que se parecen, son cosas muy diferentes. Comencemos con las principales diferencias.

$h$ es algo diferente en PMI y en WOE Observe el término en PMI. Esto implica que es una variable aleatoria de la cual puede calcular la probabilidad. Para un Bayesiano, eso no es problema, pero si no cree que las hipótesis puedan tener una probabilidad a priori , ni siquiera puede escribir PMI para hipótesis y evidencia. En WOE, es un parámetro de la distribución y las expresiones siempre están definidas.
$p(h)$ $h$ $h$
PMI es simétrico, WOE no es
trivial, . Sin embargo, no necesita definirse debido al término . Incluso cuando lo es, en general no es igual a . $pmi(e,h) = pmi(h,e)$ $w(h:e) = \log p(h|e)/p(h|\bar{e})$ $\bar{e}$ $w(e:h)$

Aparte de eso, WOE y PMI tienen similitudes.

El peso de la evidencia dice cuánto habla la evidencia a favor de una hipótesis. Si es 0, significa que no habla a favor ni en contra. Cuanto más alto es, más valida la hipótesis , y cuanto más baja es, más valida . $h$ $\bar{h}$

La información mutua cuantifica cómo la ocurrencia de un evento ( o ) dice algo acerca de la ocurrencia del otro evento. Si es 0, los eventos son independientes y la aparición de uno no dice nada sobre el otro. Cuanto más alto es, más a menudo ocurren conjuntamente, y cuanto más bajo es, más se excluyen mutuamente. $e$ $h$

¿Qué pasa con los casos en que la hipótesis también es una variable aleatoria y ambas opciones son válidas? Por ejemplo, en la comunicación a través de un canal binario ruidoso, la hipótesis es la señal emitida para decodificar y la evidencia es la señal recibida. Digamos que la probabilidad de voltear es , por lo que si recibe un , el WOE para es . El PMI, por otro lado, depende de la probabilidad de emitir un . Puede verificar que cuando la probabilidad de emitir un tiende a 0, el PMI tiende a , mientras que tiende a cuando la probabilidad de emitir un 1 $h$ $h$ $1/1000$ $1$ $1$ $\log 0.999/0.001 = 6.90$ $1$ $1$ $6.90$ $0$ $1$ tiende a . $1$

Este comportamiento paradójico ilustra dos cosas:

Ninguno de ellos es adecuado para adivinar la emisión. Si la probabilidad de emitir un cae por debajo de , la emisión más probable es incluso cuando recibe un . Sin embargo, para pequeñas probabilidades de emitir un tanto WOE como PMI están cerca de . $1$ $1/1000$ $0$ $1$ $1$ $6.90$
El PMI es una ganancia de información (de Shannon) sobre la realización de la hipótesis, si la hipótesis es casi segura, entonces no se obtiene información. WOE es una actualización de nuestras probabilidades anteriores , que no depende del valor de esas probabilidades.

— gui11aume
fuente

Esto puede ser una cuestión de notación, pero en WMI, ¿cómo define sin definir ? ¿No vas con ?

p (e | h)

$p(e|h)$

p (h)

$p(h)$

p (e | h) = \frac{p (e, h)}{p (h)}

$p(e|h) = \frac{p(e,h)}{p(h)}$

— Mike Battaglia

h

$h$

p (e | h)

$p(e|h)$

p (h)

$p(h)$