Distribución estimada de valores propios para datos iid (uniformes o normales)

Suponiendo que tengo un conjunto de datos con dimensiones (por ejemplo, ) de modo que cada dimensión es iid (alternativamente, cada dimensión ) e independiente de El uno al otro. $d$ $d=20$ $X_i \sim U[0;1]$ $X_i \sim \mathcal N[0;1]$

Ahora dibujo un objeto aleatorio de este conjunto de datos y tomo el vecinos más cercanos y calculo PCA en este conjunto. En contraste con lo que uno podría esperar, los valores propios no son todos iguales. En 20 dimensiones uniformes, un resultado típico se ve así: $k=3\cdot d$

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Para los datos distribuidos normales, los resultados parecen ser muy similares, al menos al reescalarlos a una suma total de (la distribución claramente tiene una mayor varianza en primer lugar). $1$ $\mathcal N[0;1]^d$

Me pregunto si hay algún resultado que prediga este comportamiento. Estoy buscando una prueba si la serie de valores propios es algo regular, y cuántos de los valores propios son los esperados y cuáles difieren significativamente de los valores esperados.

Para un tamaño de muestra dado (pequeño) , ¿hay un resultado si un coeficiente de correlación para dos variables es significativo? Incluso las variables iid tendrán un resultado distinto de 0 ocasionalmente para bajo . $k$ $k$

normal-distribution uniform eigenvalues

— HA SALIDO - Anony-Mousse
fuente

hmmm, ¿podrías imprimir esos resultados con menos higos? No puedo analizarlos fácilmente ...

— shabbychef

Bueno, como puede ver, la magnitud es de interés. Ingenuamente, uno esperaría que todos tuvieran la misma magnitud.

— HA SALIDO - Anony-Mousse

Existe una gran literatura sobre la distribución de valores propios para matrices aleatorias (puede intentar buscar en Google la teoría de matrices aleatorias). En particular, la distribución de Marcenko-Pastur predice la distribución de valores propios para la matriz de covarianza de los datos de con media de cero e igual varianza a medida que el número de variables y observaciones llega al infinito. Estrechamente relacionado está la distribución de semicírculo de Wigner. $i.i.d.$

— Juan
fuente