Información mutua versus correlación

51

¿Por qué y cuándo debemos usar la información mutua sobre las medidas de correlación estadística como "Pearson", "spearman" o "Kendall's tau"?

correlation mathematical-statistics mutual-information

— Saza
fuente

77

Consideremos un concepto fundamental de correlación (lineal), la covarianza (que es el coeficiente de correlación de Pearson "no estandarizado"). Para dos variables aleatorias discretas e con probabilidad de funciones de masa , y conjunta pmf tenemos $X$ $Y$ $p(x)$ $p(y)$ $p(x,y)$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{x, y} p (x, y) x y - (\sum_{x} p (x) x) \cdot (\sum_{y} p (y) y)

$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$

\Rightarrow Cov (X, Y) = \sum_{x, y} [p (x, y) - p (x) p (y)] x y

$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$

La información mutua entre los dos se define como

I (X, Y) = E (\ln \frac{p (x, y)}{p (x) p (y)}) = \sum_{x, y} p (x, y) [\ln p (x, y) - \ln p (x) p (y)]

$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$

Compare los dos: cada uno contiene una "medida" puntual de "la distancia de los dos rv de la independencia" tal como se expresa por la distancia del pmf conjunto del producto de los pmf marginales: el lo tiene como diferencia de niveles, mientras que tiene como diferencia de logaritmos. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

¿Y qué hacen estas medidas? En crean una suma ponderada del producto de las dos variables aleatorias. En crean una suma ponderada de sus probabilidades conjuntas. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

$\operatorname{Cov}(X,Y)$ $I(X,Y)$

$I(X,Y)$ $\operatorname{Cov}(X,Y)$

Por lo tanto, los dos no son antagónicos: son complementarios y describen diferentes aspectos de la asociación entre dos variables aleatorias. Se podría comentar que la información mutua "no le interesa" si la asociación es lineal o no, mientras que la covarianza puede ser cero y las variables aún pueden ser estocásticamente dependientes. Por otro lado, la covarianza se puede calcular directamente a partir de una muestra de datos sin la necesidad de conocer realmente las distribuciones de probabilidad involucradas (ya que es una expresión que involucra momentos de la distribución), mientras que la información mutua requiere el conocimiento de las distribuciones, cuya estimación, si desconocido, es un trabajo mucho más delicado e incierto en comparación con la estimación de la covarianza.

— Alecos Papadopoulos
fuente

@ Alecos Papadopoulos; Gracias por su respuesta integral.

— SaZa

1

Me hacía la misma pregunta pero no entendí completamente la respuesta. @ Alecos Papadopoulos: Entendí que la dependencia medida no es la misma, está bien. Entonces, ¿para qué tipo de relaciones entre X e Y deberíamos preferir la información mutua I (X, Y) en lugar de Cov (X, Y)? Recientemente tuve un extraño ejemplo en el que Y dependía casi linealmente de X (era casi una línea recta en un diagrama de dispersión) y Corr (X, Y) era igual a 0,87, mientras que I (X, Y) era igual a 0,45 . Entonces, ¿hay claramente algunos casos en los que un indicador debe elegirse sobre el otro? ¡Gracias por ayudar!

— Gandhi91

X

$X$

H (X)

$H(X)$

Esta es una respuesta excelente y muy clara. Me preguntaba si tiene un ejemplo fácilmente disponible donde cov es 0, pero pmi no lo es.

— thang

@thang. Realmente no. Uno debería poder encontrar un ejemplo donde la covarianza sea cero y al mismo tiempo tener disponible la distribución conjunta, para calcular la información mutua (y la distribución conjunta no sería el producto de los marginales, porque queremos que las variables no sean independiente).

— Alecos Papadopoulos

7

La información mutua es una distancia entre dos distribuciones de probabilidad. La correlación es una distancia lineal entre dos variables aleatorias.

Puede tener una información mutua entre dos probabilidades definidas para un conjunto de símbolos, mientras que no puede tener una correlación entre símbolos que no pueden mapearse naturalmente en un espacio R ^ N.

Por otro lado, la información mutua no hace suposiciones sobre algunas propiedades de las variables ... Si está trabajando con variables que son suaves, la correlación puede brindarle más información sobre ellas; por ejemplo si su relación es monotónica.

Si tiene alguna información previa, entonces puede cambiar de una a otra; en los registros médicos puede asignar los símbolos "tiene el genotipo A" como 1 y "no tiene el genotipo A" en los valores 0 y 1 y ver si esto tiene alguna forma de correlación con una enfermedad u otra. Del mismo modo, puede tomar una variable que es continua (por ejemplo, salario), convertirla en categorías discretas y calcular la información mutua entre esas categorías y otro conjunto de símbolos.

— Pau Vilimelis Aceituno
fuente

La correlación no es una función lineal. ¿Debería decir que la correlación es una medida de la relación lineal entre variables aleatorias?

— Matthew Gunn

1

Creo que esto: "Puedes tener una información mutua entre dos probabilidades definidas para un conjunto de símbolos, mientras que no puedes tener una correlación entre símbolos que no pueden mapearse naturalmente en un espacio R ^ N" es probablemente la clave. Corr no tiene sentido si no tiene una variable aleatoria completa; sin embargo, pmi tiene sentido incluso con solo el pdf y sigma (el espacio). Es por eso que en muchas aplicaciones donde los RV no tienen sentido (por ejemplo, PNL), se usa pmi.

— thang

6

Aquí hay un ejemplo.

En estos dos gráficos, el coeficiente de correlación es cero. Pero podemos obtener alta información mutua compartida, incluso cuando la correlación es cero.

En el primero, veo que si tengo un valor alto o bajo de X, entonces es probable que obtenga un valor alto de Y. Pero si el valor de X es moderado, entonces tengo un valor bajo de Y. La primera gráfica contiene información sobre la información mutua compartida por X e Y. En la segunda trama, X no me dice nada sobre Y.

— dennislendrem
fuente

4

Aunque ambos son una medida de la relación entre las características, el MI es más general que el seno del coeficiente de correlación (CE), el CE solo puede tener en cuenta las relaciones lineales, pero el MI también puede manejar relaciones no lineales.

— Hossein9
fuente

Eso no es cierto. El coeficiente de correlación de Pearson supone la normalidad y la linealidad de dos variables aleatorias, alternativas como la de Spearman no paramétrica. Solo se supone monotonicidad entre los dos rvs.

— miau