Relación entre los coeficientes de correlación phi, Matthews y Pearson

13

¿Son los coeficientes de correlación phi y Matthews el mismo concepto? ¿Cómo se relacionan o equivalen al coeficiente de correlación de Pearson para dos variables binarias? Supongo que los valores binarios son 0 y 1.

La correlación de Pearson entre dos variables aleatorias de Bernoulli e es: $x$ $y$

ρ = \frac{E [(x - E [x]) (y - E [y])]}{\sqrt{Var [x] Var [y]}} = \frac{E [x y] - E [x] E [y]}{\sqrt{Var [x] Var [y]}} = \frac{n_{11} n - n_{1 ∙} n_{∙ 1}}{\sqrt{n_{0 ∙} n_{1 ∙} n_{∙ 0} n_{∙ 1}}}

$\rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}}$

dónde

E [x] = \frac{n_{1 ∙}}{n} Var [x] = \frac{n_{0 ∙} n_{1 ∙}}{n^{2}} E [y] = \frac{n_{∙ 1}}{n} Var [y] = \frac{n_{∙ 0} n_{∙ 1}}{n^{2}} E [x y] = \frac{n_{11}}{n}

$\mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] = \frac{n_{\bullet 0}n_{\bullet 1}}{n^2} \quad \mathbb{E}[xy] = \frac{n_{11}}{n}$

Coeficiente de phi de Wikipedia:

En estadística, el coeficiente phi (también denominado "coeficiente de contingencia cuadrático medio" y denotado por o ) es una medida de asociación para dos variables binarias introducidas por Karl Pearson. Esta medida es similar al coeficiente de correlación de Pearson en su interpretación. De hecho, un coeficiente de correlación de Pearson estimado para dos variables binarias devolverá el coeficiente phi ... $\phi$ $r_\phi$

Si tenemos una tabla 2 × 2 para dos variables aleatorias e $x$ $y$

El coeficiente phi que describe la asociación de e es $x$ $y$
$ϕ = \frac{n_{11} n_{00} - n_{10} n_{01}}{\sqrt{n_{1 ∙} n_{0 ∙} n_{∙ 0} n_{∙ 1}}}$ $\phi = \frac{n_{11}n_{00} - n_{10}n_{01}}{\sqrt{n_{1\bullet}n_{0\bullet}n_{\bullet0}n_{\bullet1}}}$

Coeficiente de correlación Matthews de Wikipedia:

El coeficiente de correlación Matthews (MCC) se puede calcular directamente a partir de la matriz de confusión utilizando la fórmula:
$MCC = \frac{T P \times T N - F P \times F N}{\sqrt{(T P + F P) (T P + F N) (T N + F P) (T N + F N)}}$ $\text{MCC} = \frac{ TP \times TN - FP \times FN } {\sqrt{ (TP + FP) (TP + FN) (TN + FP) (TN + FN) } }$
En esta ecuación, TP es el número de positivos verdaderos, TN el número de negativos verdaderos, FP el número de falsos positivos y FN el número de falsos negativos. Si cualquiera de las cuatro sumas en el denominador es cero, el denominador se puede establecer arbitrariamente en uno; esto da como resultado un coeficiente de correlación de Matthews de cero, que se puede demostrar que es el valor límite correcto.

— Tim
fuente

14

Sí, son lo mismo. El coeficiente de correlación de Matthews es solo una aplicación particular del coeficiente de correlación de Pearson a una tabla de confusión.

Una tabla de contingencia es solo un resumen de los datos subyacentes. Puede volver a convertirlo de los recuentos que se muestran en la tabla de contingencia a una fila por observaciones.

Considere el ejemplo de matriz de confusión utilizada en el artículo de Wikipedia con 5 positivos verdaderos, 17 negativos verdaderos, 2 falsos positivos y 3 falsos negativos

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

— Peter Ellis
fuente

Gracias Peter! Matemáticamente, ¿por qué phi y Mathew son equivalentes a Pearson para dos variables aleatorias binarias?

— Tim

Si toma la definición de la correlación de Pearson y la manipula para que se refiera a los recuentos en lugar de a las sumas de las diferencias entre las observaciones individuales y las medias, obtendrá la fórmula Matthews. En realidad no he hecho esto, pero debe ser razonablemente sencillo.

— Peter Ellis

2

En primer lugar, hubo un error tipográfico en la pregunta: no es sino más bien $\mathbb{E}[xy]$ $\displaystyle \frac{n_{\bullet 1}n_{1\bullet}}{n^2}$

\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n} \times 1 \times 0 + \frac{n_{01}}{n} \times 0 \times 1 + \frac{n_{00}}{n} \times 0 \times 0 = \frac{n_{11}}{n}

$\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n}\times 1 \times 0 + \frac{n_{01}}{n} \times 0 \times 1 + \frac{n_{00}}{n} \times 0 \times 0 = \frac{n_{11}}{n}$

En segundo lugar, la clave para mostrar que es $\rho = \phi$

n_{11} n - n_{1 ∙} n_{∙ 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) = n_{11} n_{00} - n_{10} n_{01}

$n_{11} n - n_{1\bullet} n_{\bullet 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) \\ = n_{11} n_{00} - n_{10} n_{01}$

— ryan tt
fuente