¿Cómo funciona la fórmula para generar variables aleatorias correlacionadas?

19

Si tenemos 2 variables aleatorias normales no correlacionadas entonces podemos crear 2 variables aleatorias correlacionadas con la fórmula $X_1, X_2$

$Y=\rho X_1+ \sqrt{1-\rho^2} X_2$

y luego tendrá una correlación con . $Y$ $\rho$ $X_1$

¿Alguien puede explicar de dónde viene esta fórmula?

correlation normal-distribution covariance

— Lanza
fuente

1

Una discusión extensa sobre este y otros temas relacionados aparece en mi respuesta en stats.stackexchange.com/a/71303 . Entre otras cosas, deja claro que (1) la suposición de Normalidad es irrelevante y (2) debe hacer suposiciones adicionales: las varianzas de y deben ser iguales para que la correlación de con sea .

X_{1}

$X_1$

X_{2}

$X_2$

Y

$Y$

X_{1}

$X_1$

ρ

$\rho$

— whuber

Muy interesante enlace. No estoy seguro de entender lo que quieres decir con que la normalidad es irrelevante. Si o no es normal, y se hace más difícil controlar la densidad de través del algoritmo Kaiser-Dickman. Esta es la razón por la cual los algoritmos especializados generan datos correlacionados no normales (por ejemplo, Headrick, 2002; Ruscio y Kaczetow, 2008; Vale y Maurelli, 1983). Por ejemplo, imagine que su objetivo es generar ~ normal, ~ uniforme , con = .5. El uso de ~ uniform da como resultado una que no es uniforme ( termina siendo una combinación lineal de normal y uniforme).

X_{1}

$X_1$

X_{2}

$X_2$

Y

$Y$

X

$X$

Y

$Y$

ρ

$\rho$

X_{2}

$X_2$

Y

$Y$

Y

$Y$

— Anthony

@Anthony La pregunta solo se refiere a la correlación , que es puramente una función del primer y segundo momento. La respuesta no depende de ninguna otra propiedad de las distribuciones. Lo que está discutiendo es un tema completamente diferente.

— whuber

17

Supongamos que desea encontrar una combinación lineal de y modo que $X_1$ $X_2$

corr (α X_{1} + β X_{2}, X_{1}) = ρ

$\text{corr}(\alpha X_1 + \beta X_2, X_1) = \rho$

Tenga en cuenta que si multiplica tanto como por la misma constante (distinta de cero), la correlación no cambiará. Por lo tanto, vamos a agregar una condición para preservar la varianza: $\alpha$ $\beta$ $\text{var}(\alpha X_1 + \beta X_2) = \text{var}(X_1)$

Esto es equivalente a

ρ = \frac{cov (α X_{1} + β X_{2}, X_{1})}{\sqrt{var (α X_{1} + β X_{2}) var (X_{1})}} = \frac{α \overset{= var (X_{1})}{\overset{⏞}{cov (X_{1}, X_{1})}} + \overset{= 0}{\overset{⏞}{β cov (X_{2}, X_{1})}}}{\sqrt{var (α X_{1} + β X_{2}) var (X_{1})}} = α \sqrt{\frac{var (X_{1})}{α^{2} var (X_{1}) + β^{2} var (X_{2})}}

$\rho = \frac{\text{cov}(\alpha X_1 + \beta X_2, X_1)}{\sqrt{\text{var}(\alpha X_1 + \beta X_2) \text{var}(X_1)}} = \frac{\alpha \overbrace{\text{cov}(X_1, X_1)}^{=\text{var}(X_1)} + \overbrace{\beta \text{cov}(X_2, X_1)}^{=0}}{\sqrt{\text{var}(\alpha X_1 + \beta X_2) \text{var}(X_1)}} = \alpha \sqrt{\frac{\text{var}(X_1)}{\alpha^2 \text{var}(X_1) + \beta^2 \text{var}(X_2)}}$

Asumiendo que ambas variables aleatorias tienen la misma varianza (¡esta es una suposición crucial!) ( ), obtenemos $\text{var}(X_1) = \text{var}(X_2)$

ρ \sqrt{α^{2} + β^{2}} = α

$\rho \sqrt{\alpha^2 + \beta^2} = \alpha$

Hay muchas soluciones para esta ecuación, por lo que es hora de recordar la condición de preservación de la varianza:

var (X_{1}) = var (α X_{1} + β X_{2}) = α^{2} var (X_{1}) + β^{2} var (X_{2}) \Rightarrow α^{2} + β^{2} = 1

$\text{var}(X_1) = \text{var}(\alpha X_1 + \beta X_2) = \alpha^2 \text{var}(X_1) + \beta^2 \text{var}(X_2) \Rightarrow \alpha^2 + \beta^2 = 1$

Y esto nos lleva a

α = ρ β = \pm \sqrt{1 - ρ^{2}}

$\alpha = \rho \\ \beta = \pm \sqrt{1-\rho^2}$

UPD . Con respecto a la segunda pregunta: sí, esto se conoce como blanqueamiento .

— Artem Sobolev
fuente

9

La ecuación es una forma bivariada simplificada de descomposición de Cholesky . Esta ecuación simplificada a veces se llama algoritmo de Kaiser-Dickman (Kaiser y Dickman, 1962).

Tenga en cuenta que y deben tener la misma variación para que este algoritmo funcione correctamente. Además, el algoritmo se usa típicamente con variables normales. Si o no son normales, podría no tener la misma forma de distribución que . $X_1$ $X_2$ $X_1$ $X_2$ $Y$ $X_2$

Referencias

Kaiser, HF y Dickman, K. (1962). Muestra y matrices de puntuación de población y muestras de matrices de correlación de una matriz de correlación de población arbitraria Psychometrika, 27 (2), 179-182.

— Antonio
fuente

2

Supongo que no necesita variables normales estandarizadas, solo tener la misma varianza debería ser suficiente.

— Artem Sobolev

2

Y

$Y$

X_{1}

$X_1$

X_{2}

$X_2$

Y

$Y$

3

$\cos$ $n^{th}$ $n^{th}$ $\cos\theta$ $sin\theta$ $X_1,X_2$
$\rho = cos \theta$ $\sqrt{1-{\rho}^2}=\pm sin \theta$

$X_1, X_2$

— Dmitry Rubanovich
fuente

2

T E X

$\TeX$