Suponiendo que tengo un conjunto de datos con dimensiones (por ejemplo, ) de modo que cada dimensión es iid (alternativamente, cada dimensión ) e independiente de El uno al otro.
Ahora dibujo un objeto aleatorio de este conjunto de datos y tomo el vecinos más cercanos y calculo PCA en este conjunto. En contraste con lo que uno podría esperar, los valores propios no son todos iguales. En 20 dimensiones uniformes, un resultado típico se ve así:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Para los datos distribuidos normales, los resultados parecen ser muy similares, al menos al reescalarlos a una suma total de (la distribución claramente tiene una mayor varianza en primer lugar).
Me pregunto si hay algún resultado que prediga este comportamiento. Estoy buscando una prueba si la serie de valores propios es algo regular, y cuántos de los valores propios son los esperados y cuáles difieren significativamente de los valores esperados.
Para un tamaño de muestra dado (pequeño) , ¿hay un resultado si un coeficiente de correlación para dos variables es significativo? Incluso las variables iid tendrán un resultado distinto de 0 ocasionalmente para bajo .