Usa las definiciones de media
μ1:n=1n∑i=1nxi
y varianza muestral
σ21:n=1n∑i=1n(xi−μ1:n)2=n−1n(1n−1∑i=1n(xi−μ1:n)2)
(el último término entre paréntesis es el estimador de varianza imparcial que a menudo se calcula por defecto en el software estadístico) para encontrar la suma de los cuadrados de todos los datos . Ordenemos los índices i para que i = 1 , ... , n designe elementos del primer grupo e i = n + 1 , ... , n + m designe elementos del segundo grupo. Divida esa suma de cuadrados por grupo y vuelva a expresar las dos piezas en términos de las varianzas y las medias de los subconjuntos de datos:xiii=1,…,ni=n+1,…,n+m
(m+n)(σ21:m+n+μ21:m+n)=∑i=11:n+mx2i=∑i=1nx2i+∑i=n+1n+mx2i=n(σ21:n+μ21:n)+m(σ21+n:m+n+μ21+n:m+n).
Resolver algebraicamente esto para en términos de los rendimientos de otras cantidades (conocidas)σ2m+n
σ21:m+n=n(σ21:n+μ21:n)+m(σ21+n:m+n+μ21+n:m+n)m+n−μ21:m+n.
μ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)
μ1:n=μ1+n:m+n=μ1:m+n), the solution for σ2m+n is a weighted mean of the group sample variances.