¿Intuición / interpretación de una distribución de valores propios de una matriz de correlación?

13

¿Cuál es su intuición / interpretación de una distribución de valores propios de una matriz de correlación? Tiendo a escuchar que generalmente los 3 valores propios más grandes son los más importantes, mientras que los cercanos a cero son el ruido. Además, he visto algunos trabajos de investigación que investigan cómo las distribuciones de valores propios que ocurren naturalmente difieren de las calculadas a partir de matrices de correlación aleatorias (nuevamente, distinguiendo el ruido de la señal).

Por favor, siéntase libre de elaborar sus ideas.

distributions correlation

— Eduardas
fuente

¿Tiene en mente alguna aplicación en particular, es decir, busca consejos generales acerca de cuántos vehículos eléctricos debemos considerar aparte de cualquier aplicación (es decir, en un lado matemático puro) o debe aplicarse a un contexto específico (por ejemplo, análisis factorial, PCA, etc.)?

— chl

Me interesa más el lado matemático, es decir, los valores propios como una propiedad de los datos subyacentes a una matriz de correlación. Si tiene sentido discutir esto en términos de contexto específico, siéntase libre de hacerlo también.

— Eduardas

4

Tiendo a escuchar que generalmente los 3 valores propios más grandes son los más importantes, mientras que los cercanos a cero son ruido

Puedes probar para eso. Consulte el documento vinculado en esta publicación para obtener más detalles. Nuevamente, si se trata de series de tiempo financieras, es posible que desee corregir primero la leptokurticidad (es decir, considere la serie de retornos ajustados por garch, no los retornos sin procesar).

He visto algunos trabajos de investigación que investigan cómo las distribuciones de valores propios que ocurren naturalmente difieren de las calculadas a partir de matrices de correlación aleatorias (de nuevo, distinguiendo el ruido de la señal).

Edward:> Por lo general, uno lo haría de otra manera: mira la distribución multivariada de los valores propios (de las matrices de correlación) que provienen de la aplicación que deseas. Una vez que haya identificado un candidato creíble para la distribución de valores propios, debería ser bastante fácil generar a partir de ellos.

El mejor procedimiento sobre cómo identificar la distribución multivariada de sus valores propios depende de cuántos activos desee considerar simultáneamente (es decir, cuáles son las dimensiones de su matriz de correlación). Hay un buen truco si ( es el número de activos). $p\leq 10$ $p$

Editar (comentarios de Shabbychef)

procedimiento de cuatro pasos:

Suponga que tiene submuestras de datos multivariados. Necesita un estimador de la matriz de varianza-covarianza para cada submuestra (podría usar el estimador clásico o una alternativa robusta como el MCD rápido , que está bien implementado en matlab, SAS, S, R, ...). Como de costumbre, si se trata de series de tiempo financieras, desearía considerar la serie de retornos ajustados por garch, no los retornos sin procesar. $j=1,...,J$ $\tilde{C}_j$ $j$
Para cada submuestra , calcule , ..., , los valores propios de . $j$ $\tilde{\Lambda}_j=$ $\log(\tilde{\lambda}_1^j)$ $\log(\tilde{\lambda}_p^j)$ $\tilde{C}_j$
Calcule , el casco convexo de la matriz cuya entrada j-ésima es (nuevamente, esto está bien implementado en Matlab, R, ...) . $CV(\tilde{\Lambda})$ $J \times p$ $\tilde{\Lambda}_j$
Dibuje puntos al azar desde dentro de (esto se hace dando peso a cada uno de los bordes de donde , donde es un sorteo de una distribución exponencial unitaria (más detalles aquí ). $CV(\tilde{\Lambda})$ $w_i$ $CV(\tilde{\Lambda})$ $w_i=\frac{\gamma_i}{\sum_{i=1}^{p}\gamma_i}$ $\gamma_i$

Una limitación es que el cálculo rápido del casco convexo de una serie de puntos se vuelve extremadamente lento cuando el número de dimensiones es mayor que 10. $J\geq2$

— usuario603
fuente

1

Tengo curiosidad: ¿cuál es el truco?

— shabbychef

¿Te refieres a los vectores propios de en 3? no valores ?

\tilde{C}

$\tilde{C}$

— shabbychef

No. es un escalar.

λ_{1}

$\lambda_1$

— user603

Este es un procedimiento muy extraño; ¿Ha sido publicado en alguna parte?

— shabbychef

@Shabbychev:> no, pero tuve la oportunidad de trabajar en un problema relacionado (solo que no incluye series de tiempo) hace un tiempo (el mismo problema que este stats.stackexchange.com/questions/2572/… )

— usuario603

11

Los valores propios dan magnitudes de los componentes principales de la propagación de datos.

_{(fuente: yaroslavvb.com ) El}
primer conjunto de datos se generó a partir de Gauss con matriz de covarianza segundo conjunto de datos es el primer conjunto de datos girado por $\left(\matrix{3&0\\\\0&1}\right)$ $\pi/4$

— Yaroslav Bulatov
fuente

2

$k$

Por lo general, el primer portafolio propio tiene una ponderación casi igual en cada nombre, es decir, el portafolio de "mercado" que consiste en todos los activos con pesos iguales en dólares. El segundo portafolio propio puede tener algún significado semántico, dependiendo del período de tiempo que revise: por ejemplo, en su mayoría acciones de energía o acciones bancarias, etc. En mi experiencia, sería difícil hacer una historia del quinto portafolio propio o más allá, y esto depende en alguna parte de la selección del universo y del período de tiempo considerado. Esto está bien porque generalmente el quinto valor propio más o menos no está demasiado lejos de los límites impuestos por la distribución Marchenko-Pastur.

— shabbychef
fuente

1

$N$ $N$

— Vili
fuente