Cómo expresar celdas de una tabla 2x2 en términos de coeficiente phi y probabilidades marginales

Considere una tabla típica de frecuencias de 2x2 (que se muestra en esta imagen): Notación: La variable de fila se denota R y toma los valores 0 o 1; la variable de columna se denota C y toma valores 0 o 1. Las celdas de la tabla indican la frecuencia de cada combinación de R y C; por ejemplo, es la frecuencia de R = 0 y C = 1. Para los propósitos de mi pregunta, suponga que los recuentos de celdas se dividen por el total, de modo que los valores de las celdas son las probabilidades conjuntas de las celdas .

$b$

Quiero expresar las probabilidades de la celda en términos del coeficiente phi (que es una medida de correlación con la fórmula que se proporciona a continuación) y las probabilidades marginales: y . Es decir, quiero invertir el siguiente sistema de cuatro ecuaciones: y, por supuesto, . En otras palabras, me gustaría resolver , , , y en términos de $\mu_R\equiv p(R\!=\!1) = c+d$ $\mu_C\equiv p(C\!=\!1) = b+d$

\begin{aligned} (by defn) & ϕ & \equiv (a d - b c) / \sqrt{(a + b) (c + d) (a + c) (b + d)} \\ (by defn) & μ_{R} & = c + d \\ (by defn) & μ_{C} & = b + d \\ (constraint) & 1 & = a + b + c + d \end{aligned}

$\begin{align} \phi &\equiv (ad-bc)/\sqrt{(a+b)(c+d)(a+c)(b+d)} \tag{by defn}\\ \mu_{R} &= c+d \tag{by defn}\\ \mu_{C} &= b+d \tag{by defn}\\ 1 &= a+b+c+d \tag{constraint} \end{align}$

0 \leq a, b, c, d \leq 1

$0 \le a,b,c,d \le 1$ $a$ $b$ $c$ $d$ $\phi$ , y . $\mu_{R}$ $\mu_{C}$

Probablemente, este problema ya haya sido resuelto anteriormente, pero mis búsquedas no han dado lugar a una fuente, y mis débiles intentos de álgebra no han producido una respuesta, y no puedo encontrar inversores en línea de ecuación de sistema (no lineal) que manejen este caso .

contingency-tables simultaneous-equation

— John K. Kruschke
fuente

Reconocemos fácilmente todos los factores en el denominador de , porque y . Comencemos, por lo tanto, con una pequeña simplificación para evitar escribir muchas raíces cuadradas: $\phi$ $a+b=1-\mu_R$ $a+c=1-\mu_C$

Δ = a d - b c = ϕ \sqrt{μ_{R} (1 - μ_{R}) μ_{C} (1 - μ_{C})} .

$\Delta=ad - bc = \phi \sqrt{\mu_R(1-\mu_R)\mu_C(1-\mu_C)}.$

Encontremos : $d$

\begin{aligned} d & = (1) d = (a + b + c + d) d = a d + b d + c d + d^{2} \\ = a d + (- b c + b c) + b d + c d + d^{2} \\ = (a d - b c) + (c + d) (b + d) \\ = Δ + μ_{R} μ_{C} . \end{aligned}

$\eqalign{d &= (1)d = (a+b+c+d)d = ad +bd +cd + d^2 \\ &= ad + (-bc + bc) + bd + cd + d^2 \\ &= (ad - bc) + (c+d)(b+d) \\&= \Delta + \mu_R\mu_C.}$

Encontrar , , y procede de manera similar debido a las simetrías del problema: intercambiando las columnas permutas y , y , mientras que el cambio a y negando , donde $a$ $b$ $c$ $a$ $b$ $c$ $d$ $\mu_C$ $1-\mu_C$ $\Delta$

c = - Δ + μ_{R} (1 - μ_{C}) .

$c = -\Delta + \mu_R(1-\mu_C).$

Intercambiando las permutas de filas y , y , mientras que el cambio a y negando , de donde $a$ $c$ $b$ $d$ $\mu_R$ $1-\mu_R$ $\Delta$

b = - Δ + (1 - μ_{R}) μ_{C} .

$b = -\Delta + (1-\mu_R)\mu_C.$

Al intercambiar tanto filas como columnas se obtienen

a = Δ + (1 - μ_{R}) (1 - μ_{C}) .

$a = \Delta + (1-\mu_R)(1-\mu_C).$

Dadas estas expresiones para , es simple verificar que y , y solo un poco más difícil de verifique que . $a,b,c,d$ $a+b+c+d=1, c+d=\mu_R,$ $b+d=\mu_C$ $ad-bc=\Delta$

— whuber
fuente

Una nota para otros que podrían usar esta respuesta (¡correcta!): Puede producir valores de a, b, c o d que son negativos. En otras palabras, no todas las combinaciones de phi en [-1,1], mu_R en [0,1] y mu_C en [0,1] pueden crearse mediante matrices de probabilidad. Para whuber: ¡Gracias!

— John K. Kruschke

Eso es correcto, John, pero no mencioné ese hecho porque presumiblemente , y habían obtenido de una tabla válida en primer lugar. Asumiendo que y son frecuencias válidas (en el intervalo ), será real. Debe estar en el intervalo

μ_{R}

$\mu_R$

μ_{C}

$\mu_C$

ϕ

$\phi$

μ_{R}

$\mu_R$

μ_{C}

$\mu_C$

[0, 1]

$[0,1]$

Δ

$\Delta$

[- min (μ_{R} μ_{C}, (1 - μ_{R}) (1 - μ_{C})), min (μ_{R} (1 - μ_{C}), (1 - μ_{R}) μ_{C})] .

$[-\min(\mu_R\mu_C, (1-\mu_R)(1-\mu_C)), \ \min(\mu_R(1-\mu_C), (1-\mu_R)\mu_C)].$

— whuber