¿Correlación significativa en cada grupo pero no significativa sobre todos?

9

Supongamos que prueba la correlación de Pearson entre la variable y en los grupos y . ¿Es posible que la correlación sea significativa en cada uno de y , pero no significativa cuando se combinan los datos de ambos grupos? En este caso, ¿podría darnos una explicación? $x$ $y$ $A$ $B$ $(x,y)$ $A$ $B$

correlation

— qed
fuente

21

Sí, es posible y podría suceder de muchas maneras. Un ejemplo obvio es cuando la membresía de A y B se elige de alguna manera que refleje los valores de x e y. Son posibles otros ejemplos, por ejemplo, el comentario de @ Macro sugiere una posibilidad alternativa.

Considere el siguiente ejemplo, escrito en R. x e y son variables normales estándar iid, pero si las asigno a grupos basados en los valores relativos de x e y obtengo la ubicación que usted nombre. Dentro del grupo A y el grupo B existe una fuerte correlación estadísticamente significativa entre x e y, pero si ignora la estructura de agrupación no hay correlación.

ingrese la descripción de la imagen aquí

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

— Peter Ellis
fuente

+1. Este es un ejemplo muy inteligente que no se me había ocurrido.

— Macro

13

Una posibilidad es que los efectos puedan ir en diferentes direcciones en cada grupo y se cancelen cuando los agregue . Esto también está relacionado con cómo, cuando se omite un término de interacción importante en un modelo de regresión, los efectos principales pueden ser engañosos.

$\rm A$ $y_i$ $x_i$

mi (y_{yo} El | X_{yo}, sol r o tu pag UNA) = 1 + X_{yo}

$E(y_i|x_i, {\rm Group \ A}) = 1 + x_i$

$\rm B$

mi (y_{yo} El | X_{yo}, sol r o tu pag si) = 1 - X_{yo}

$E(y_i|x_i, {\rm Group \ B}) = 1 - x_i$

PAG (sol r o tu pag UNA) = 1 - PAG (sol r o tu pag si) = pag

$P({\rm Group \ A}) = 1-P( {\rm Group \ B}) = p$

E (y_{i} | x_{i})

$E(y_i|x_i)$

\begin{aligned} mi (y_{yo} El | X_{yo}) = mi (mi (y_{yo} El | X_{yo}, sol r o tu pag)) & = pag (1 + X_{yo}) + (1 - pag) (1 - X_{yo}) \\ = pag + pag X_{yo} + 1 - X_{yo} - pag + pag X_{yo} \\ = 1 - X_{yo} (2 pag - 1) \end{aligned}

$\begin{align*} E(y_i | x_i) = E( E(y_i|x_i,{\rm Group}) ) &= p(1+ x_i) + (1-p)(1-x_i) \\ &= p + px_i + 1 - x_i - p + px_i \\ &= 1 - x_i(2p-1) \end{align*}$

$p = 1/2$ $E(y_i | x_i) = 1$ $x_i$ $x_i$ $y_i$

$p$

Nota: con errores normales, la importancia de un coeficiente de regresión lineal es equivalente a la importancia de la correlación de Pearson, por lo que este ejemplo resalta una explicación de lo que está viendo.

— Macro
fuente