¿Por qué el coeficiente de correlación entre las variables aleatorias X y XY tiende a ser 0.7

49

Tomado de Estadísticas prácticas para la investigación médica donde Douglas Altman escribe en la página 285:

... para cualesquiera dos cantidades, X e Y, X se correlacionará con XY. De hecho, incluso si X e Y son muestras de números aleatorios, esperaríamos que la correlación de X e XY sea 0.7

Intenté esto en R y parece ser el caso:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

¿Porqué es eso? ¿Cuál es la teoría detrás de esto?

correlation random-variable intuition

— no hay stock
fuente

¿Para qué parte quieres una explicación? ¿Desea la ecuación simplificada para la correlación que resulta debido a la correlación conocida entre x e y, y la covarianza entre x y xy? ¿O simplemente quieres saber por qué hay alguna covarianza aquí?

— John

¿Es esto cierto para cualquier

e

? Supongamos que

y

no están correlacionados y dejar que

. Entonces sospechoso

no se correlaciona con

.

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

— Henry

69

Si e son variables aleatorias no correlacionadas con igual varianza , entonces tenemos esa $X$ $Y$ $\sigma^2$ En consecuencia,

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

Entonces, cuando encuentre

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$

la correlación muestral de

y

para un conjunto de datos grande

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

extraído de una población con estas propiedades, que incluye "números aleatorios" como un caso especial, el resultado tiende a estar cerca del valor de correlación de población

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

— Dilip Sarwate
fuente

¿Podría explicar un poco más cómocov(X,X)-cov(X,Y)=s^2

— Nostock

55

cov (X, X) es otro nombre para var (X). cov (X, Y) = 0 ya que se supone que X e Y no están correlacionados (por lo tanto, covarianza = 0).

— Dilip Sarwate

58

Una explicación geométrica-estadística.

$n$ $2$ $X$ $Y$ $X$ $Y$

$X$ $Y$ $r=0$

$X$ $Y$

$X-Y$ $X+Y$

$X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

ingrese la descripción de la imagen aquí

— ttnphns
fuente

44

Un gran +1 para compartir este enfoque.

— whuber

(+1) ¡Esa es una forma muy clara de presentar esto!

— Matt Krause

Ahh ... fotos! (+1) Bien hecho. :-)

— cardenal

11

Creo que aquí también hay una intuición simple basada en la simetría. Como X e Y tienen las mismas distribuciones y tienen una covarianza de 0, la relación de X ± Y con X debería "explicar" la mitad de la variación en X ± Y; la otra mitad debería explicarse por Y. Entonces, R ² debería ser 1/2, lo que significa que R es 1 / √2 ≈ 0.707.

— denn333
fuente

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

No, eso realmente no es más estándar. (Si necesita evidencia, busque la respuesta principal. Las 38 personas que ya votaron por ella no objetaron con la misma notación).

— denn333

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

3

Aquí hay una manera simple de pensar por qué hay una correlación aquí.

Imagine lo que sucede cuando resta dos distribuciones. Si el valor de x es bajo, entonces, en promedio, x - yserá un valor más bajo que si el valor de x es alto. A medida que x aumenta, entonces x - yaumenta, en promedio, y por lo tanto, una correlación positiva.

— John
fuente

44

No creo que su afirmación sea siempre cierta "Siempre habrá una correlación entre dos distribuciones aleatorias cuando haya una relación matemática". por ejemplo x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

— curious_cat

44

@curious_cat: O, tal vez para ser aún más evocador, descartar por ycompleto. :-)

— cardenal