Valor esperado de correlación espuria

Dibujamos muestras, cada una de tamaño , independientemente de una distribución Normal . $N$ $n$ $(\mu,\sigma^2)$

De las muestras, elegimos las 2 muestras que tienen la correlación de Pearson más alta (absoluta) entre sí. $N$

¿Cuál es el valor esperado de esta correlación?

Gracias [PD Esto no es tarea]

— P Sellaz
fuente

(+1) Sería una pregunta de tarea bastante desafiante :-). ¿Necesita una respuesta general o podría (quizás) centrar su atención en valores específicos de o ? Por ejemplo, puede ser posible desarrollar buenas aproximaciones cuando es mucho mayor que ; se necesitarían diferentes aproximaciones en otros casos.

N

$N$

n

$n$

n

$n$

N

$N$

— whuber

Esperaba una respuesta general, pero una donde la suposición estaría bien. Para valores específicos de y , no sería tan interesante, ya que puedo mirar a estos casos específicos por simulación (que es lo que estoy haciendo en este momento), pero aún podría ser de su interés.

n >> N

$n>>N$

N

$N$

n

$n$

— P Sellaz

Creo que una solución general de cualquier utilidad real es probablemente improbable, aunque podría estar equivocado. Está bastante relacionado con algunos problemas abiertos en la interfaz de la geometría y el álgebra lineal. En las aplicaciones, la necesidad de información sobre tales cantidades surge, por ejemplo, en la detección comprimida.

— cardenal

FWIW, este es el resultado de una simulación que acabo de ejecutar: usando Normal (0,1), descubrí que la correlación media, (más de 1000 simulaciones) y el número de muestras están aproximadamente relacionados por para y usando un modelo de regresión lineal. El ajuste del modelo y los diagnósticos habituales fueron bastante buenos. También descubrí que la correlación media estaba aproximadamente distribuida normalmente (aunque ligeramente sesgada a la derecha).

ρ

$\rho$

N

$N$

ρ = 0.025 + 0.113 \ln (N) - 0.008 \ln (N)^{2}

$\rho=0.025+0.113\ln(N)-0.008\ln(N)^2$

n = 100

$n=100$

4 \leq N \leq n

$4\leq N \leq n$

— P Sellaz

Respuestas:

Encontré el siguiente artículo, que aborda este problema: Jiang, Tiefeng (2004). Las distribuciones asintóticas de las entradas más grandes de las matrices de correlación de muestras. Los Anales de Probabilidad Aplicada, 14 (2), 865-880

Jiang muestra la distribución asintótica de la estadística, donde es la correlación entre los vectores aleatorios th y th de longitud (con ), es $L_n = \max_{1\leq i<j\leq N} |\rho_{ij}|$ $\rho_{ij}$ $i$ $j$ $n$ $i\neq j$

lim_{n \to \infty} Pr [n L_{n}^{2} - 4 \log n + \log (\log (n)) \leq y] = \exp (- \frac{1}{a^{2} \sqrt{8 π}} \exp (- y / 2)),

$\lim_{n \to \infty} \Pr[ nL_n^2 - 4\log n + \log(\log(n)) \leq y] = \exp\left(-\frac{1}{a^2\sqrt{8\pi}}\exp(-y/2)\right) \,,$ donde se supone que existe en el documento y es una función de .

a = lim_{n \to \infty} n / N

$a = \lim_{n\to\infty} n/N$

N

$N$

n

$n$

Aparentemente, este resultado es válido para ~~cualquier distribución de~~ distribución con un número suficiente de momentos finitos ( Editar: Ver el comentario de @ cardinal a continuación). Jiang señala que esta es una distribución de valor extremo Tipo I. La ubicación y la escala son

σ = 2, μ = 2 \log (\frac{1}{a^{2} \sqrt{8 π}}) .

$\sigma=2,\quad\mu = 2\log\left( \frac{1}{a^2\sqrt{8\pi}} \right).$

El valor esperado de la distribución EV Tipo-I es , donde denota la constante de Euler. Sin embargo, como se señaló en los comentarios, la convergencia en la distribución no garantiza, en sí misma, la convergencia de los medios con la de la distribución limitante. $\mu + \sigma \gamma$ $\gamma$

Si pudiéramos mostrar tal resultado en este caso, entonces el valor asintótico esperado desería $n L_n^2 -4\log n + \log(\log(n))$

lim_{n \to \infty} E [n L_{n}^{2} - 4 \log n + \log (\log (n))] = - 2 \log (a^{2} \sqrt{8 π}) + 2 γ .

$\lim_{n\to\infty} \mathbb E\left[ nL_n^2 - 4\log n + \log(\log(n)) \right] = -2\log\left(a^2\sqrt{8\pi} \right) + 2\gamma \,.$

Tenga en cuenta que esto daría el valor asintótico esperado de la correlación cuadrada más grande, mientras que la pregunta solicitó el valor esperado de la correlación absoluta más grande. Así que no está 100% allí, pero cerca.

Hice algunas simulaciones breves que me llevaron a pensar: 1) hay un problema con mi simulación (probable), 2) hay un problema con mi transcripción / álgebra (también probable), o 3) la aproximación no es válida para valores de y I usado. ¿Quizás el OP puede influir en algunos resultados de simulación utilizando esta aproximación? $n$ $N$

— jmtroos
fuente

Y un comentario: realmente me gustó esta pregunta, me he preguntado sobre esta pregunta antes. Me sorprendió la conexión con la distribución de Tipo I: me pareció genial. Ojalá entendiera las matemáticas que conducen a eso ...

— jmtroos 05 de

(+1) ¡¡Buen hallazgo !! Creo que podemos suponer que la raíz cuadrada positiva de este es equivalente al valor esperado de la mayor correlación absoluta? En su expresión para la expectativa, ¿no podemos simplemente eliminar todas las partes que involucran para producir: ? De todos modos, he comparado esto con mis simulaciones y se ve bastante cerca. Mi código R es realmente descuidado, así que intentaré arreglarlo más tarde hoy o mañana y publicarlo ...

L_{n}

$L_n$

n

$n$

E [L_{n}^{2}] = \frac{1}{n} {2 \log (\frac{N^{2}}{n^{2} \sqrt{8 π}}) + 2 γ + 4 \log n - \log (\log (n))}

$E\left[L_n^2 \right]= \frac{1}{n} \left \{ 2\log\left( \frac{N^2}{n^2\sqrt{8\pi}} \right) + 2\gamma+ 4\log n - \log(\log(n))\right \}$

— P Sellaz 05 de

Por cierto, el documento está disponible directamente desde aquí projecteuclid.org/DPubS/Repository/1.0/…

— P Sellaz

(+1) Este es un documento muy bueno, y solo lo he leído, pero tenemos que tener un poco de cuidado aquí. Algunas observaciones: ( 1 ) Los resultados son para el régimen , por lo que la dimensión de los vectores tiene que crecer más o menos proporcionalmente al número de vectores bajo consideración para estos resultados sostener. ( 2 ) Incluso en este caso, los resultados no son válidos para "ninguna" distribución; de hecho, ¡las condiciones en el documento requieren que las variables aleatorias sean "limitadas casi exponencialmente" en el sentido de que esencialmente requerimos que el trigésimo momento sea finito! (cont.)

n / p \to γ \in (0, \infty)

$n/p \to \gamma \in (0,\infty)$

— cardenal

(cont.) ( 3 ) La convergencia en la distribución no garantiza la convergencia de los medios con la de la distribución limitante. Para eso, normalmente usamos algo similar a la integrabilidad uniforme del conjunto . Esto no se ha demostrado en el documento y, dado que tratar con distribuciones de valores extremos, bien podría no ser cierto. Uno de mis ejemplos favoritos de este fenómeno es una secuencia de variables aleatorias que converge en distribución a a , pero se puede hacer que los medios converjan a cualquier constante positiva que se elija.

{L_{n}}

$\{L_n\}$

χ_{1}^{2}

$\chi^2_1$

— cardenal

Además de la respuesta proporcionada por @jmtroos, a continuación están los detalles de mi simulación, y una comparación con la derivación de @ jmtroos de la expectativa de Jiang (2004) , es decir:

E [L_{n}^{2}] = \frac{1}{n} {2 \log (\frac{N^{2}}{n^{2} \sqrt{8 π}}) + 2 γ + 4 \log n - \log (\log (n))}

$E\left[L_n^2 \right]= \frac{1}{n} \left \{ 2\log\left( \frac{N^2}{n^2\sqrt{8\pi}} \right) + 2\gamma+ 4\log n - \log(\log(n))\right \}$

Los valores de esta expectativa parecen estar por encima de los valores simulados para pequeño y por debajo para grande y parecen divergir ligeramente a medida que aumenta. Sin embargo, las diferencias disminuyen al aumentar , como cabría esperar ya que el artículo afirma que la distribución es asintótica. He intentado varios . La siguiente simulación usa . Soy bastante nuevo en R, por lo que cualquier sugerencia o sugerencia para mejorar mi código sería bienvenida. $N$ $N$ $N$ $n$ $n \in [100,500]$ $n=200$

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

— P Sellaz
fuente

Vea mis comentarios a la otra respuesta, que puede (o no) ayudar a explicar algunas de las discrepancias que nota.

— cardenal