Esta es una vieja pregunta, pero la respuesta aceptada no es correcta o completa. El usuario desea calcular la desviación estándar en datos de 12 meses donde la media y la desviación estándar ya se calculan cada mes. Suponiendo que el número de muestras en cada mes es el mismo, entonces es posible calcular la media y la varianza de la muestra a lo largo del año a partir de los datos de cada mes. Por simplicidad, supongamos que tenemos dos conjuntos de datos:
X={x1,....xN}
Y={y1,....,yN}
con valores conocidos de media muestral y varianza muestral, , , , .μxμyσ2xσ2y
Ahora queremos calcular las mismas estimaciones para
Z={x1,....,xN,y1,...,yN} .
Tenga en cuenta que , se calculan como:μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
Para estimar la media y la varianza sobre el conjunto total necesitamos calcular:
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
que se proporciona en la respuesta aceptada. Sin embargo, para variar, la historia es diferente:
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
Entonces, si tiene la varianza sobre cada subconjunto y desea la varianza sobre todo el conjunto, puede promediar las varianzas de cada subconjunto si todas tienen la misma media. De lo contrario, debe agregar la varianza de la media de cada subconjunto.
Digamos que durante la primera mitad del año producimos exactamente 1000 MWh por día y en la segunda mitad, producimos 2000 MWh por día. Entonces, la media y la varianza de la producción de energía en la primera y segunda mitad son 1000 y 2000 para la media y la varianza es 0 para ambas mitades. Ahora hay dos cosas diferentes que nos pueden interesar:
1- Queremos calcular la variación de la producción de energía durante todo el año : luego, promediando las dos variaciones llegamos a cero, lo cual no es correcto ya que la energía por día durante todo el año no es constante. En este caso, necesitamos agregar la varianza de todas las medias de cada subconjunto. Matemáticamente, en este caso, la variable aleatoria de interés es la producción de energía por día. Tenemos estadísticas de muestra sobre subconjuntos y queremos calcular las estadísticas de muestra durante un tiempo más largo.
2- Queremos calcular la variación de la producción de energía por año: en otras palabras, estamos interesados en cuánto cambia la producción de energía de un año a otro. En este caso, promediar la varianza conduce a la respuesta correcta, que es 0, ya que en cada año estamos produciendo exactamente 1500 MHW en promedio. Matemáticamente, en este caso, la variable aleatoria de interés es el promedio de producción de energía por día, donde el promedio se realiza durante todo el año.