Tiendo a escuchar que generalmente los 3 valores propios más grandes son los más importantes, mientras que los cercanos a cero son ruido
Puedes probar para eso. Consulte el documento vinculado en esta publicación para obtener más detalles. Nuevamente, si se trata de series de tiempo financieras, es posible que desee corregir primero la leptokurticidad (es decir, considere la serie de retornos ajustados por garch, no los retornos sin procesar).
He visto algunos trabajos de investigación que investigan cómo las distribuciones de valores propios que ocurren naturalmente difieren de las calculadas a partir de matrices de correlación aleatorias (de nuevo, distinguiendo el ruido de la señal).
Edward:> Por lo general, uno lo haría de otra manera: mira la distribución multivariada de los valores propios (de las matrices de correlación) que provienen de la aplicación que deseas. Una vez que haya identificado un candidato creíble para la distribución de valores propios, debería ser bastante fácil generar a partir de ellos.
El mejor procedimiento sobre cómo identificar la distribución multivariada de sus valores propios depende de cuántos activos desee considerar simultáneamente (es decir, cuáles son las dimensiones de su matriz de correlación). Hay un buen truco si ( es el número de activos).p ≤ 10p
Editar (comentarios de Shabbychef)
procedimiento de cuatro pasos:
- Suponga que tiene submuestras de datos multivariados. Necesita un estimador de la matriz de varianza-covarianza para cada submuestra (podría usar el estimador clásico o una alternativa robusta como el MCD rápido , que está bien implementado en matlab, SAS, S, R, ...). Como de costumbre, si se trata de series de tiempo financieras, desearía considerar la serie de retornos ajustados por garch, no los retornos sin procesar.j=1,...,JC~jj
- Para cada submuestra , calcule , ..., , los valores propios de .jΛ~j= log(λ~j1)log(λ~jp)C~j
- Calcule , el casco convexo de la matriz cuya entrada j-ésima es (nuevamente, esto está bien implementado en Matlab, R, ...) .CV(Λ~)J×pΛ~j
- Dibuje puntos al azar desde dentro de (esto se hace dando peso a cada uno de los bordes de donde , donde es un sorteo de una distribución exponencial unitaria (más detalles aquí ).w i C V ( ˜ Λ ) w i = γ iCV(Λ~)wiCV(Λ~) γiwi=γi∑pi=1γiγi
Una limitación es que el cálculo rápido del casco convexo de una serie de puntos se vuelve extremadamente lento cuando el número de dimensiones es mayor que 10.J≥2