¿Por qué cambia la varianza de una muestra si las observaciones están duplicadas?

25

Se dice que la varianza es una medida de propagación. Entonces, pensé que la varianza de 3,5es igual a la varianza de 3,3,5,5ya que los números están igualmente distribuidos. Pero este no es el caso, la varianza de 3,5es 2mientras que la varianza de 3,3,5,5es 1 1/3.

Esto me desconcierta, dada la explicación de que se supone que la varianza es una medida de propagación.

Entonces, en ese contexto, ¿qué significa medida de propagación ?

variance

— René Nyffenegger
fuente

32

Si define la varianza como $s^2_{n}=$ $\,\text{MSE}\,$ $=\frac1n \sum_{i=1}^n (x_i-\bar{x})^2$ : similar a la varianza de la población pero con una media muestral para $\mu$ , entonces ambas muestras tendrían la misma varianza.

Entonces, la diferencia se debe únicamente a la corrección de Bessel en la fórmula habitual para la varianza de la muestra ( $s^2_{n-1}=\frac{n}{n-1}\cdot \text{MSE}=\frac{n}{n-1}\cdot \frac1n \sum_{i=1}^n (x_i-\bar{x})^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$ , que se ajusta por el hecho de que lamedia delamuestraestá más cerca de los datos que la media de la población, para que sea imparcial (tomando el valor correcto "en promedio").

El efecto desaparece gradualmente al aumentar el tamaño de la muestra, ya que $\frac{n-1}{n}$ va a 1 como $n\to\infty$ .

Por cierto, no hay una razón particular por la que tenga que usar el estimador imparcial para la varianza: $s^2_n$ es un estimador perfectamente válido y, en algunos casos, podría tener ventajas sobre la forma más común (la imparcialidad no es necesariamente tan grande) acuerdo).

La variación en sí misma no es directamente una medida de propagación. Si doblo todos los valores en mi conjunto de datos, afirmo que son el doble de "dispersos". Pero la varianza aumenta en un factor de 4. Por lo tanto, más comúnmente, se dice que la desviación estándar, en lugar de la varianza, es una medida de propagación.

Por supuesto, el mismo problema ocurre con la desviación estándar (la versión habitual $s_{n-1}$ ) que con la varianza: cuando duplica los puntos, la desviación estándar cambia, por la misma razón que sucede con la varianza.

En muestras pequeñas, la corrección de Bessel hace que la desviación estándar sea algo menos intuitiva como medida de propagación debido a ese efecto (que duplicar la muestra cambia el valor). Pero muchas medidas de propagación conservan el mismo valor al duplicar la muestra; Mencionaré algunos.

$s_n$ (por supuesto)
la desviación media (absoluta) de la media
la desviación media (absoluta) de la mediana
el rango intercuartil (al menos para algunas definiciones de cuartiles de muestra)

— Glen_b -Reinstate a Monica
fuente

3

"No hay una razón particular por la que tenga que usar el estimador imparcial"; de hecho, no necesariamente debe estimar nada. La varianza de {3, 5}sí mismo es 1, según la primera fórmula. Como usted señala, el interlocutor ha intentado estimar la varianza de una población de la cual se presume que es una muestra, pero quién sabe si es o no.

— Steve Jessop

1

Como una especie de mnemotecnia, $V\,X = E\,V\,X + V\,E\,X$

La fórmula habitual de la varianza de la muestra compensa eso, y la varianza de la media de la muestra escala inversamente con el tamaño de la muestra.

Como ejemplo extremo, tomar una sola muestra siempre mostrará una varianza muestral de 0, obviamente no indica una varianza de 0 para la distribución subyacente.

$2/1$ $4/3$ $2/3$ $1$ $4$

— usuario80227
fuente

2

Al combinar estimadores con estadísticas , esta respuesta confunde, en lugar de aclarar, la pregunta. Lea la respuesta original de Glen_b en este hilo. El argumento en los primeros dos párrafos es misterioso porque parece ser irrelevante para la pregunta.

— whuber