Esta pregunta surge mucho en varias formas. Lo que es común para ellos es
¿Cómo puedo combinar estadísticas basadas en momentos calculadas a partir de subconjuntos disjuntos de mis datos?
La aplicación más simple se refiere a datos que se han dividido en dos grupos. Conoces los tamaños de grupo y los medios del grupo. Solo en términos de estas cuatro cantidades, ¿cuál es la media general de los datos?
Otras aplicaciones generalizan desde medias hasta variaciones, desviaciones estándar, matrices de covarianza, sesgos y estadísticas multivariadas; y podría involucrar múltiples subgrupos de datos. Observe que muchas de estas cantidades son combinaciones de momentos algo complicadas: la desviación estándar, por ejemplo, es la raíz cuadrada de una combinación cuadrática del primer y segundo momento (media y media cuadrática).
Todos estos casos se manejan fácilmente reduciendo los diversos momentos a sumas, porque las sumas se combinan de manera obvia y fácil: se agregan. Matemáticamente, todo se reduce a esto: tiene un lote de datosque se han separado en grupos disjuntos de tamaños:. Llamemos alésimo grupo. Por definición, elésimo momento de cualquier lote de datoses el promedio deX=(x1,x2,…,xn)j1,j2,…,jgi(x1,x2,…,xj1;xj1+1,…,xj1+j2;xj1+j2+1,…;…;…,xn)iX(i)=(xji+1,xji+2,…,xji+1)ky1,…,yjkth poderes,
μk(y)=(yk1+yk2+⋯+ykj)/j.
Obviamente es la suma de las ésimas potencias. Por lo tanto, refiriéndonos a nuestra descomposición previa de datos en subgrupos, podemos dividir una suma de potencias en grupos de sumas, obteniendojμk(y)kgn
nμk(X)=(xk1+xk2+⋯+xkn)=(xk1+xk2+⋯+xkj1)+⋯+(xkj1+⋯+jg−1+1+xkj1+⋯+jg−1+2+⋯+xkn)=j1μk(X(1))+j2μk(X(2))+⋯+jgμk(X(g)).
Dividiendo por exhibe el ésimo momento de todo el lote en términos de la ésimo momentos de sus subgrupos.nkk
En la presente solicitud, las entradas en la matriz de covarianza son, por supuesto, covarianzas, que se pueden expresar en términos de segundos momentos y primeros momentos multivariados. La parte clave del cálculo se reduce a esto: en cada paso se habrá centrado en dos componentes particulares de sus datos multivariados; vamos a llamarlos e . Los números que está viendo están en el formularioxy
((x1,y1),(x2,y2),…,(xn,yn)),
dividido como antes en grupos . Para cada grupo conoce la suma promedio de productos de : este es el momento multivariado , . Para combinar estos valores de grupo, los multiplicará por los tamaños de grupo, sumará esos resultados y dividirá el total entre .gxiyi(1,1)μ(1,1)n
Para aplicar este enfoque, debe pensar en el futuro : no es posible combinar, por ejemplo, covarianzas si solo conoce las covarianzas y los tamaños de los subgrupos: también necesita conocer los medios de los subgrupos (porque los medios están involucrados de una manera esencial en todas las fórmulas de covarianza), o algo algebraicamente reducible a las medias. También es posible que tenga que tener cuidado con las constantes que aparecen en las fórmulas; La trampa principal para los incautos es confundir una "covarianza de muestra" (que implica una suma de productos dividida por ) con una "covarianza de población" (donde la división es por ). Esto no introduce nada nuevo; solo debe recordar multiplicar la covarianza de la muestra por (o covarianza de grupo porn−1nn−1ji−1 ) para recuperar la suma, en lugar de por (o ).nji
Oh, sí: sobre la presente pregunta. La fórmula dada en el artículo de Wikipedia se da en términos de medios grupales (primeros momentos) y las sumas grupales de productos. Como describí anteriormente, estos se combinarán agregándolos y luego ajustando los resultados con una división para obtener las covarianzas. La división final por no se muestra.n