Combinando dos matrices de covarianza


11

Estoy calculando la covarianza de una distribución en paralelo y necesito combinar los resultados distribuidos en gaussiano singular. ¿Cómo combino los dos?

La interpolación lineal entre los dos casi funciona, si están distribuidos y dimensionados de manera similar.

Wikipedia proporciona una forumla en la parte inferior para la combinación, pero no parece correcta; dos distribuciones idénticamente distribuidas deben tener la misma covarianza, pero la fórmula en la parte inferior de la página duplica la covarianza.

¿Hay alguna manera de combinar dos matrices?


3
La fórmula de Wikipedia responde a su pregunta, Matt: es posible que no haya notado que es una fórmula parcial donde luego debe dividir por el tamaño de la muestra.
whuber

1
He resuelto esto ahora, con tu ayuda; si pones esto en una respuesta, lo marcaré como respondido.
Matt Kemp

Respuestas:


12

Esta pregunta surge mucho en varias formas. Lo que es común para ellos es

¿Cómo puedo combinar estadísticas basadas en momentos calculadas a partir de subconjuntos disjuntos de mis datos?

La aplicación más simple se refiere a datos que se han dividido en dos grupos. Conoces los tamaños de grupo y los medios del grupo. Solo en términos de estas cuatro cantidades, ¿cuál es la media general de los datos?

Otras aplicaciones generalizan desde medias hasta variaciones, desviaciones estándar, matrices de covarianza, sesgos y estadísticas multivariadas; y podría involucrar múltiples subgrupos de datos. Observe que muchas de estas cantidades son combinaciones de momentos algo complicadas: la desviación estándar, por ejemplo, es la raíz cuadrada de una combinación cuadrática del primer y segundo momento (media y media cuadrática).

Todos estos casos se manejan fácilmente reduciendo los diversos momentos a sumas, porque las sumas se combinan de manera obvia y fácil: se agregan. Matemáticamente, todo se reduce a esto: tiene un lote de datosque se han separado en grupos disjuntos de tamaños:. Llamemos alésimo grupo. Por definición, elésimo momento de cualquier lote de datoses el promedio deX=(x1,x2,,xn)j1,j2,,jgi(x1,x2,,xj1;xj1+1,,xj1+j2;xj1+j2+1,;;,xn)iX(i)=(xji+1,xji+2,,xji+1)ky1,,yjkth poderes,

μk(y)=(y1k+y2k++yjk)/j.

Obviamente es la suma de las ésimas potencias. Por lo tanto, refiriéndonos a nuestra descomposición previa de datos en subgrupos, podemos dividir una suma de potencias en grupos de sumas, obteniendojμk(y)kgn

nμk(X)=(x1k+x2k++xnk)=(x1k+x2k++xj1k)++(xj1++jg1+1k+xj1++jg1+2k++xnk)=j1μk(X(1))+j2μk(X(2))++jgμk(X(g)).

Dividiendo por exhibe el ésimo momento de todo el lote en términos de la ésimo momentos de sus subgrupos.nkk

En la presente solicitud, las entradas en la matriz de covarianza son, por supuesto, covarianzas, que se pueden expresar en términos de segundos momentos y primeros momentos multivariados. La parte clave del cálculo se reduce a esto: en cada paso se habrá centrado en dos componentes particulares de sus datos multivariados; vamos a llamarlos e . Los números que está viendo están en el formularioxy

((x1,y1),(x2,y2),,(xn,yn)),

dividido como antes en grupos . Para cada grupo conoce la suma promedio de productos de : este es el momento multivariado , . Para combinar estos valores de grupo, los multiplicará por los tamaños de grupo, sumará esos resultados y dividirá el total entre .gxiyi(1,1)μ(1,1)n

Para aplicar este enfoque, debe pensar en el futuro : no es posible combinar, por ejemplo, covarianzas si solo conoce las covarianzas y los tamaños de los subgrupos: también necesita conocer los medios de los subgrupos (porque los medios están involucrados de una manera esencial en todas las fórmulas de covarianza), o algo algebraicamente reducible a las medias. También es posible que tenga que tener cuidado con las constantes que aparecen en las fórmulas; La trampa principal para los incautos es confundir una "covarianza de muestra" (que implica una suma de productos dividida por ) con una "covarianza de población" (donde la división es por ). Esto no introduce nada nuevo; solo debe recordar multiplicar la covarianza de la muestra por (o covarianza de grupo porn1nn1ji1 ) para recuperar la suma, en lugar de por (o ).nji


Oh, sí: sobre la presente pregunta. La fórmula dada en el artículo de Wikipedia se da en términos de medios grupales (primeros momentos) y las sumas grupales de productos. Como describí anteriormente, estos se combinarán agregándolos y luego ajustando los resultados con una división para obtener las covarianzas. La división final por no se muestra.n


Estoy un poco confundido sobre la definición del k-ésimo momento. ¿Está suponiendo cero datos medios?
reschu

@reschu Parece que estás pensando en los momentos centrales . Para asegurarme de que esta publicación se entendería correctamente, definí lo que quise decir con " moment". La definición aparece justo antes de la primera fórmula. kth
whuber

Que mal! Estaba mezclando momentos 'centrales' y 'crudos'. ¡Gracias por la aclaración!
reschu

Creo que "para conocer las medias de los tamaños de los subgrupos" en el penúltimo párrafo debería leer "para conocer las medias de los subgrupos". (Dudo en editar esto yo mismo ya que no me molesté en estudiar la respuesta con mucho cuidado)
Juho Kokkala

@Juho Tienes toda la razón. ¡Gracias por notar eso!
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.