(La respuesta a continuación simplemente presenta y establece el teorema probado en [0]. La belleza de ese artículo es que la mayoría de los argumentos se formulan en términos de álgebra lineal básica. Para responder a esta pregunta será suficiente establecer los resultados principales, pero por supuesto, ve a ver la fuente original).
En cualquier situación en la que el patrón multivariado de los datos pueda describirse mediante una distribución elíptica variable k , la inferencia estadística, por definición, reducirá el problema de ajustar (y caracterizar) un vector de ubicación variable k (digamos θ ) y a k por k matriz simétrica semi positiva positiva simétrica (digamos Σ ) a los datos. Por las razones que explico a continuación (pero que ya asume como premisas), a menudo será más significativo descomponer Σ en un componente de forma (una matriz SPSD del mismo tamaño que Σ ) que representa la forma de los contornos de densidad de su distribución multivariada y un escalar σS expresando la escala de estos contornos.
En datos univariados ( k=1 ), Σ , la matriz de covarianza de sus datos es un escalar y, como se verá en la discusión a continuación, el componente de forma de Σ es 1, de modo que Σ es igual a su componente de escala Σ=σS siempre y No es posible la ambigüedad.
En datos multivariados, son posibles muchas opciones de escalado σSUno en particular ( σS= | ΣΣEl |1 / k ) se destaca por tener una propiedad clave deseable. Esto debería convertirlo en la opción preferida de factor de escala en el contexto de familias elípticas.
Muchos problemas en las estadísticas de MV implican la estimación de una matriz de dispersión, definida como una función (al)
Σ simétrica semi positiva definida en y satisfactoria:Rk × k
(para matrices no singulares
( 0 )Σ( A X+ b ) = A Σ( X) A⊤
y vectores
b ). Por ejemplo, la estimación clásica de covarianza satisface (0) pero de ninguna manera es la única.
UNsi
En presencia de datos distribuidos elípticos, donde todos los contornos de densidad son elipses definidos por la misma matriz de formas, hasta la multiplicación por un escalar, es natural considerar versiones normalizadas de de la forma:Σ
VS=Σ/S(Σ)
donde es una función 1-honrosa satisfactoria:S
( 1 )S( λ Σ) = λ S( Σ)
para todo . Entonces, V S se llama el componente de forma de la matriz de dispersión (en la matriz de forma corta) y σ S = S 1 / 2 ( Σ ) se llama el componente de escala de la matriz de dispersión. Ejemplos de problemas de estimación multivariada donde la función de pérdida solo depende de Σ a través de su componente de formaλ > 0VSσS= S1 / 2( Σ)Σ incluyen pruebas de esfericidad, PCA y CCA, entre otros.VS
Por supuesto, hay muchas funciones de escala posibles, por lo que esto deja abierta la cuestión de qué (si hay alguna) de varias opciones de función de normalización es, en cierto sentido, óptima. Por ejemplo:S
- (por ejemplo, la propuesta por @amoeba en su comentario debajo de la pregunta del OP. Ver también [1], [2], [3])S=tr(Σ)/k
- ([4], [5], [6], [7], [8])S=|Σ|1/k
- (la primera entrada de la matriz de covarianza)Σ11
- (el primer valor propio de Σ )λ1(Σ)Σ
Sin embargo, es la única función de escala para la cual la matriz de información de Fisher para las estimaciones correspondientes de escala y forma, en familias localmente asintóticamente normales, es diagonal de bloque (es decir, los componentes de escala y forma del problema de estimación son asintóticamente ortogonales) [0 ] Esto significa, entre otras cosas, que la escala funcional S = | Σ | 1 / k es la única opción de S para la cual la no especificación de σ S no causa ninguna pérdida de eficiencia al realizar inferencia en V SS=|Σ|1/kS=|Σ|1/kSσSVS .
No conozco ninguna caracterización de optimización comparablemente fuerte para ninguna de las muchas opciones posibles de que satisfacen (1).S
- [0] Paindaveine, D., Una definición canónica de forma, Estadísticas y Cartas de Probabilidad, Volumen 78, Número 14, 1 de octubre de 2008, Páginas 2240-2247. Enlace no delegado
- [1] Dumbgen, L. (1998). En Tyler M-funcional de dispersión en alta dimensión, Ann. Inst. Estadístico. Matemáticas. 50, 471–491.
- [2] Ollila, E., TP Hettmansperger y H. Oja (2004). Métodos de signos multivariados equivalentes afines. Preprint, Universidad de Jyvaskyla.
- [3] Tyler, DE (1983). Propiedades de robustez y eficiencia de las matrices de dispersión, Biometrika 70, 411–420.
- [4] Dumbgen, L. y DE Tyler (2005). Sobre las propiedades de desglose de algunos M-Funcionales multivariados, Scand. J. Statist. 32, 247–264.
- [5] Hallin, M. y D. Paindaveine (2008). Pruebas óptimas basadas en el rango para la homogeneidad de la dispersión, Ann. Estadista., Para aparecer.
- [6] Salibian-Barrera, M., S. Van Aelst y G. Willems (200 6). Análisis de componentes principales basado en estimadores MM multivariados con bootstrap rápido y robusto, J. Amer. Estadístico. Asoc. 101, 1198-1211.
- [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila y H. O ja (2006). Funciones de influencia y eficiencias de la correlación canónica y estimaciones de vectores basadas en matrices de dispersión y forma, J. Multivariate Anal. 97, 359-384.
- [8] Tatsuoka, KS y DE Tyler (2000). Sobre la unicidad de los S-Funcionales y M-funcionales bajo distribuciones no elípticas, Ann. Estadístico. 28, 1219-1243.