Tengo un conjunto de datos de observaciones de muestra, almacenadas como recuentos dentro de intervalos. p.ej:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Ahora, encontrar una estimación del promedio de esto es bastante sencillo. Simplemente use la media (o mediana) de cada intervalo de rango como observación y el recuento como un peso y encuentre el promedio ponderado:
Para mi caso de prueba, esto me da 53.82.
Mi pregunta ahora es, ¿cuál es el método correcto para encontrar la desviación estándar (o varianza)?
A través de mi búsqueda, encontré varias respuestas, pero no estoy seguro de cuál, si alguna, es realmente apropiado para mi conjunto de datos. Pude encontrar la siguiente fórmula tanto en otra pregunta aquí como en un documento NIST aleatorio .
Lo que da una desviación estándar de 8.35 para mi caso de prueba. Sin embargo, el artículo de Wikipedia sobre medios ponderados ofrece la fórmula:
y
Que dan desviaciones estándar de 8.66 y 7.83, respectivamente, para mi caso de prueba.
Actualizar
Gracias a @whuber que sugirió investigar las correcciones de Sheppard y sus útiles comentarios relacionados con ellas. Desafortunadamente, me está costando entender los recursos que puedo encontrar al respecto (y no puedo encontrar ningún buen ejemplo). Sin embargo, para resumir, entiendo que lo siguiente es una estimación sesgada de la varianza:
También entiendo que la mayoría de las correcciones estándar para el sesgo son para muestras aleatorias directas de una distribución normal. Por lo tanto, veo dos problemas potenciales para mí:
- Estas son muestras aleatorias agrupadas (que, estoy bastante seguro, es donde entran las correcciones de Sheppard).
- No se sabe si los datos son o no para una distribución normal (por lo tanto, supongo que no, lo que, estoy bastante seguro, invalida las correcciones de Sheppard).
Entonces, mi pregunta actualizada es; ¿Cuál es el método apropiado para manejar el sesgo impuesto por la fórmula de desviación / varianza estándar ponderada "simple" en una distribución no normal? Más específicamente con respecto a los datos agrupados.
Nota: estoy usando los siguientes términos:
- es la varianza ponderada
- es el número de observaciones. (es decir, el número de contenedores)
- es el número de pesos distintos de cero. (es decir, el número de contenedores con recuentos)
- son los pesos (es decir, los recuentos)
- son las observaciones. (es decir, el bin significa)
- es la media ponderada.