Soy un novato en estadísticas, así que ¿podrían ayudarme aquí?
Mi pregunta es la siguiente: ¿Qué significa realmente la varianza agrupada ?
Cuando busco una fórmula para la varianza agrupada en Internet, encuentro mucha literatura usando la siguiente fórmula (por ejemplo, aquí: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Pero, ¿qué calcula realmente ? Porque cuando uso esta fórmula para calcular mi varianza agrupada, me da una respuesta incorrecta.
Por ejemplo, considere estas "muestras principales":
La varianza de esta muestra original es , y su media es .
Ahora, supongamos que divido esta muestra principal en dos submuestras:
- La primera submuestra es 2,2,2,2,2 con media y varianza .
- La segunda submuestra es 8,8,8,8,8 con media y varianza .
Ahora, claramente, usar la fórmula anterior para calcular la varianza agrupada / principal de estas dos submuestras producirá cero, porque y . Entonces, ¿qué calcula realmente esta fórmula ?
Por otro lado, después de una larga derivación, encontré que la fórmula que produce la varianza agrupada / principal correcta es:
En la fórmula anterior, y d 2 = ¯ x 2 - ˉ x p .
Encontré una fórmula similar a la mía, por ejemplo aquí: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html y también en Wikipedia. Aunque tengo que admitir que no se parecen exactamente a los míos.
Entonces, de nuevo, ¿qué significa realmente la varianza agrupada? ¿No debería significar la varianza de la muestra principal de las dos submuestras? ¿O estoy completamente equivocado aquí?
Gracias de antemano.
EDITAR 1: Alguien dice que mis dos submuestras anteriores son patológicas ya que tienen variación cero. Bueno, podría darte un ejemplo diferente. Considere esta muestra principal:
La varianza de esta muestra original es , y su media es ˉ x p = 25.5 .
Ahora, supongamos que divido esta muestra principal en dos submuestras:
- La primera submuestra es 1,2,3,4,5 con media , y varianza S 2 1 = 2.5 .
- La segunda submuestra es 46,47,48,49,50 con media y varianza S 2 2 = 2.5 .
Ahora, si usa la "fórmula de la literatura" para calcular la varianza agrupada, obtendrá 2.5, lo cual es completamente incorrecto, porque la varianza principal / agrupada debería ser 564.7. En cambio, si usa "mi fórmula", obtendrá la respuesta correcta.
Por favor, comprenda, uso ejemplos extremos aquí para mostrarle a la gente que la fórmula realmente está mal. Si uso "datos normales" que no tienen muchas variaciones (casos extremos), entonces los resultados de esas dos fórmulas serán muy similares, y las personas podrían descartar la diferencia debido a un error de redondeo, no porque la fórmula en sí sea incorrecto.