La matemática necesaria para obtener un resultado exacto es desordenada, pero podemos derivar un valor exacto para el coeficiente de correlación al cuadrado esperado de manera relativamente sencilla. Ayuda a explicar por qué sigue apareciendo un valor cercano a y por qué aumentar la longitud de la caminata aleatoria no cambiará las cosas.1/2n
Existe la posibilidad de confusión sobre los términos estándar. La correlación absoluta a la que se hace referencia en la pregunta, junto con las estadísticas que la componen (varianzas y covarianzas) son fórmulas que se pueden aplicar a cualquier par de realizaciones de caminatas aleatorias. La pregunta se refiere a lo que sucede cuando miramos muchas realizaciones independientes. Para eso, debemos tener expectativas sobre el proceso de caminata aleatoria.
(Editar)
Antes de continuar, quiero compartir algunas ideas gráficas con usted. Un par de caminatas aleatorias independientes es una caminata aleatoria en dos dimensiones. Podemos trazar la ruta que va de cada uno a . Si esta ruta tiende hacia abajo (de izquierda a derecha, trazada en los ejes XY habituales), para estudiar el valor absoluto de la correlación , neguemos todos los valores deTrace los recorridos en ejes dimensionados para dar a los valores e mismas desviaciones estándar y superponer el ajuste de mínimos cuadrados de a(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX. Las pendientes de estas líneas serán los valores absolutos de los coeficientes de correlación, siempre entre y .01
Esta figura muestra tales caminatas, cada una de de longitud (con diferencias normales estándar). Pequeños círculos abiertos marcan sus puntos de partida. Las ojeras marcan sus ubicaciones finales.15960
Estas pendientes tienden a ser bastante grandes. Los diagramas de dispersión perfectamente aleatorios de tantos puntos siempre tendrían pendientes muy cercanas a cero. Si tuviéramos que describir los patrones que están surgiendo aquí, podríamos decir que la mayoría de las caminatas aleatorias en 2D migran gradualmente de un lugar a otro. (¡Sin embargo, estas no son necesariamente sus ubicaciones iniciales y finales!) Entonces, aproximadamente la mitad del tiempo, esa migración ocurre en una dirección diagonal, y la pendiente es, por consiguiente, alta.
El resto de esta publicación esboza un análisis de esta situación.
Una caminata aleatoria es una secuencia de sumas parciales de donde son independientes de media cero distribuidas idénticamente. Que su varianza común sea .(Xi)(W1,W2,…,Wn)Wiσ2
En una realización de dicha caminata, la "varianza" se calcularía como si fuera un conjunto de datos:x=(x1,…,xn)
V(x)=1n∑(xi−x¯)2.
Una buena manera de calcular este valor es tomar la mitad del promedio de todas las diferencias al cuadrado:
V(x)=1n(n−1)∑j>i(xj−xi)2.
Cuando se ve como el resultado de una caminata aleatoria de pasos, la expectativa de esto esxXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
Las diferencias son sumas de variables iid,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
Expande la plaza y toma expectativas. Debido a que son independientes y tienen cero medios, las expectativas de todos los términos cruzados son cero. Eso deja solo términos como , cuya expectativa es . AsíWkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
Se sigue fácilmente que
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
La covarianza entre dos realizaciones independientes e en el sentido de conjuntos de datos, no de variables aleatorias, se puede calcular con la misma técnica (pero requiere más trabajo algebraico; se trata de una suma cuádruple). El resultado es que el cuadrado esperado de la covarianza esxy
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
En consecuencia, la expectativa del coeficiente de correlación al cuadrado entre e , tomado en pasos, esXYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
Aunque esto no es constante, rápidamente se acerca a un valor límite de . Su raíz cuadrada, aproximadamente , por lo tanto, se aproxima al valor absoluto esperado de (y lo subestima).9/400.47ρ(n)
Estoy seguro de que he cometido errores de cálculo, pero las simulaciones confirman la precisión asintótica. En los siguientes resultados que muestran los histogramas de para simulaciones cada uno, las líneas rojas verticales muestran las medias mientras que las líneas azules discontinuas muestran el valor de la fórmula. Claramente es incorrecto, pero asintóticamente es correcto. Evidentemente, toda la distribución de se acerca a un límite a medida que aumenta. Del mismo modo, la distribución de(que es la cantidad de interés) se acercará a un límite.ρ2(n)1000ρ2(n)n|ρ(n)|
Este es el R
código para producir la figura.
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}