¿Una medida de "varianza" de la matriz de covarianza?


17

Si los datos son 1d, la varianza muestra hasta qué punto los puntos de datos son diferentes entre sí. Si los datos son multidimensionales, obtendremos una matriz de covarianza.

¿Existe una medida que proporcione un número único de cómo los puntos de datos son diferentes entre sí en general para los datos multidimensionales?

Siento que puede haber muchas soluciones ya, pero no estoy seguro del término correcto para buscarlas.

Tal vez pueda hacer algo como sumar los valores propios de la matriz de covarianza, ¿suena sensato?


2
Determinante de la matriz de covarianza. Publicaré una respuesta más detallada pronto.
user603

55
La traza se usa con mucha frecuencia. Por ejemplo, en PCA, la fracción de varianza explicada por cada componente es una fracción de la "varianza total" que se define como la traza de la matriz de covarianza. @ user603 Esperamos su respuesta.
ameba dice Reinstate Monica

2
adding up the eigenvalues of the covariance matrixes igual a la traza ameba mencionada anteriormente.
ttnphns

¿Para qué se va a utilizar la medida?
HelloGoodbye

@HelloGoodbye hola en realidad tengo algunos datos [ruidosos] con etiquetas, y supongo de antemano que los puntos de datos [verdaderos] dentro de la misma categoría no deberían ser muy diferentes. Estoy buscando una manera de medir el grado de diferencias de los puntos de datos dentro de cada categoría, para poder tener una idea de cuán ruidosos son los datos para cada categoría.
dontloo

Respuestas:


15

(La respuesta a continuación simplemente presenta y establece el teorema probado en [0]. La belleza de ese artículo es que la mayoría de los argumentos se formulan en términos de álgebra lineal básica. Para responder a esta pregunta será suficiente establecer los resultados principales, pero por supuesto, ve a ver la fuente original).

En cualquier situación en la que el patrón multivariado de los datos pueda describirse mediante una distribución elíptica variable k , la inferencia estadística, por definición, reducirá el problema de ajustar (y caracterizar) un vector de ubicación variable k (digamos θ ) y a k por k matriz simétrica semi positiva positiva simétrica (digamos Σ ) a los datos. Por las razones que explico a continuación (pero que ya asume como premisas), a menudo será más significativo descomponer Σ en un componente de forma (una matriz SPSD del mismo tamaño que Σ ) que representa la forma de los contornos de densidad de su distribución multivariada y un escalar σS expresando la escala de estos contornos.

En datos univariados ( k=1 ), Σ , la matriz de covarianza de sus datos es un escalar y, como se verá en la discusión a continuación, el componente de forma de Σ es 1, de modo que Σ es igual a su componente de escala Σ=σS siempre y No es posible la ambigüedad.

En datos multivariados, son posibles muchas opciones de escalado σSUno en particular ( σS=|ΣΣ|1/k ) se destaca por tener una propiedad clave deseable. Esto debería convertirlo en la opción preferida de factor de escala en el contexto de familias elípticas.


Muchos problemas en las estadísticas de MV implican la estimación de una matriz de dispersión, definida como una función (al) Σ simétrica semi positiva definida en y satisfactoria:Rk×k

(para matrices no singulares

(0)Σ(AX+b)=AΣ(X)A
y vectores b ). Por ejemplo, la estimación clásica de covarianza satisface (0) pero de ninguna manera es la única. Ab

En presencia de datos distribuidos elípticos, donde todos los contornos de densidad son elipses definidos por la misma matriz de formas, hasta la multiplicación por un escalar, es natural considerar versiones normalizadas de de la forma:Σ

VS=Σ/S(Σ)

donde es una función 1-honrosa satisfactoria:S

(1)S(λΣ)=λS(Σ)

para todo . Entonces, V S se llama el componente de forma de la matriz de dispersión (en la matriz de forma corta) y σ S = S 1 / 2 ( Σ ) se llama el componente de escala de la matriz de dispersión. Ejemplos de problemas de estimación multivariada donde la función de pérdida solo depende de Σ a través de su componente de formaλ>0VSσS=S1/2(Σ)Σ incluyen pruebas de esfericidad, PCA y CCA, entre otros.VS

Por supuesto, hay muchas funciones de escala posibles, por lo que esto deja abierta la cuestión de qué (si hay alguna) de varias opciones de función de normalización es, en cierto sentido, óptima. Por ejemplo:S

  • (por ejemplo, la propuesta por @amoeba en su comentario debajo de la pregunta del OP. Ver también [1], [2], [3])S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (la primera entrada de la matriz de covarianza)Σ11
  • (el primer valor propio de Σ )λ1(Σ)Σ

Sin embargo, es la única función de escala para la cual la matriz de información de Fisher para las estimaciones correspondientes de escala y forma, en familias localmente asintóticamente normales, es diagonal de bloque (es decir, los componentes de escala y forma del problema de estimación son asintóticamente ortogonales) [0 ] Esto significa, entre otras cosas, que la escala funcional S = | Σ | 1 / k es la única opción de S para la cual la no especificación de σ S no causa ninguna pérdida de eficiencia al realizar inferencia en V SS=|Σ|1/kS=|Σ|1/kSσSVS .

No conozco ninguna caracterización de optimización comparablemente fuerte para ninguna de las muchas opciones posibles de que satisfacen (1).S

  • [0] Paindaveine, D., Una definición canónica de forma, Estadísticas y Cartas de Probabilidad, Volumen 78, Número 14, 1 de octubre de 2008, Páginas 2240-2247. Enlace no delegado
  • [1] Dumbgen, L. (1998). En Tyler M-funcional de dispersión en alta dimensión, Ann. Inst. Estadístico. Matemáticas. 50, 471–491.
  • [2] Ollila, E., TP Hettmansperger y H. Oja (2004). Métodos de signos multivariados equivalentes afines. Preprint, Universidad de Jyvaskyla.
  • [3] Tyler, DE (1983). Propiedades de robustez y eficiencia de las matrices de dispersión, Biometrika 70, 411–420.
  • [4] Dumbgen, L. y DE Tyler (2005). Sobre las propiedades de desglose de algunos M-Funcionales multivariados, Scand. J. Statist. 32, 247–264.
  • [5] Hallin, M. y D. Paindaveine (2008). Pruebas óptimas basadas en el rango para la homogeneidad de la dispersión, Ann. Estadista., Para aparecer.
  • [6] Salibian-Barrera, M., S. Van Aelst y G. Willems (200 6). Análisis de componentes principales basado en estimadores MM multivariados con bootstrap rápido y robusto, J. Amer. Estadístico. Asoc. 101, 1198-1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila y H. O ja (2006). Funciones de influencia y eficiencias de la correlación canónica y estimaciones de vectores basadas en matrices de dispersión y forma, J. Multivariate Anal. 97, 359-384.
  • [8] Tatsuoka, KS y DE Tyler (2000). Sobre la unicidad de los S-Funcionales y M-funcionales bajo distribuciones no elípticas, Ann. Estadístico. 28, 1219-1243.

1
Además, es una extraña elección para el componente de escala, ya que no es la rotación invariante ...Σ11
ameba dice Restablecer Monica

Gracias por la respuesta deliberada! aunque me llevará un tiempo entenderlo completamente :)
dontloo

@amoeba: aplicado a XΣ . Dejo caer la XXX en el resto de la respuesta porque no hay confusión posible. Estoy de acuerdo en que es un poco torpe, así que ahora uso Σ ( XXX . Estoy de acuerdo con tu segundo comentario. Por el mismo tocken λ 1 ( Σ ) no es invariable para reescalar. En este sentido, la restricción de homogeneidad colocada en S es una barra muy baja. Σ(XX)λ1(Σ)S
user603

Espere; ¿por qué uno querría o esperaría que el componente de escala sea ​​invariable para reescalar?
ameba dice Reinstate Monica

Lo siento, quise decir que si usa como función de escala, la matriz de forma resultante no es equivalente a la reescalada. λ1(Σ)
user603

11

La varianza de una variable escalar se define como la desviación al cuadrado de la variable de su media:

Var(X)=E[(XE[X])2]

Se puede obtener una generalización de una varianza escalar para variables aleatorias con valores vectoriales interpretando la desviación como la distancia euclidiana :

Vars(X)=E[XE[X]22]

Esta expresión puede reescribirse como

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

donde es la matriz de covarianza. Finalmente, esto se puede simplificar aC

Vars(X)=tr(C)

cuál es el rastro de la matriz de covarianza.


4

Aunque la traza de la matriz de covarianza, tr (C) , le da una medida de la varianza total, no tiene en cuenta la correlación entre las variables.

Si necesita una medida de la varianza general que es grande cuando sus variables son independientes entre sí y es muy pequeña cuando las variables están altamente correlacionadas, puede usar el determinante de la matriz de covarianza, | C |.

Por favor, vea este artículo para una mejor aclaración.


4

If you need just one number, then I suggest a largest eigen value of a covariance matrix. This is also an explained variance of the first principal component in PCA. It tells you how much total variance can be explained if you reduce the dimensionality of your vector to one. See this answer on math SE.

The idea's that you collapse your vector into just one dimension by combining all variables linearly into one series. You end up with 1d problem.

The explained variance can be reported in % terms to the total variance. In this case you'll see immediately if there is a lot of linear correlation between series. In some applications this number can be 80% and higher, e.g. interest rate curve modeling in finance. It means that you can construct a linear combination of variables that explains 80 of variance of all variables.


3

The entropy concept from information theory seems to suit the purpose, as a measure of unpredictability of information content, which is given by

H(X)=p(x)logp(x)dx.

If we assume a multivariate Gaussian distribution for p(x) with mean μ and covariance Σ derived from the data, according to wikipedia, the differential entropy is then,

H(X)=12log((2πe)ndet(Σ))
where n is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.


This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber

@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?
dontloo

That sounds like it's going somewhere useful and more general.
whuber

1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.