Distribución estimada de valores propios para datos iid (uniformes o normales)


9

Suponiendo que tengo un conjunto de datos con dimensiones (por ejemplo, ) de modo que cada dimensión es iid (alternativamente, cada dimensión ) e independiente de El uno al otro.dd=20XiU[0;1]XiN[0;1]

Ahora dibujo un objeto aleatorio de este conjunto de datos y tomo el vecinos más cercanos y calculo PCA en este conjunto. En contraste con lo que uno podría esperar, los valores propios no son todos iguales. En 20 dimensiones uniformes, un resultado típico se ve así:k=3d

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Para los datos distribuidos normales, los resultados parecen ser muy similares, al menos al reescalarlos a una suma total de (la distribución claramente tiene una mayor varianza en primer lugar).1N[0;1]d

Me pregunto si hay algún resultado que prediga este comportamiento. Estoy buscando una prueba si la serie de valores propios es algo regular, y cuántos de los valores propios son los esperados y cuáles difieren significativamente de los valores esperados.

Para un tamaño de muestra dado (pequeño) , ¿hay un resultado si un coeficiente de correlación para dos variables es significativo? Incluso las variables iid tendrán un resultado distinto de 0 ocasionalmente para bajo .kk


1
hmmm, ¿podrías imprimir esos resultados con menos higos? No puedo analizarlos fácilmente ...
shabbychef

Bueno, como puede ver, la magnitud es de interés. Ingenuamente, uno esperaría que todos tuvieran la misma magnitud.
HA SALIDO - Anony-Mousse

Respuestas:


7

Existe una gran literatura sobre la distribución de valores propios para matrices aleatorias (puede intentar buscar en Google la teoría de matrices aleatorias). En particular, la distribución de Marcenko-Pastur predice la distribución de valores propios para la matriz de covarianza de los datos de con media de cero e igual varianza a medida que el número de variables y observaciones llega al infinito. Estrechamente relacionado está la distribución de semicírculo de Wigner.i.i.d.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.