La razón más obvia es que a menudo no hay una secuencia de tiempo en los valores. Entonces, si mezcla los datos, no hay diferencia en la información transmitida por los datos. Si seguimos su método, cada vez que mezcle los datos obtendrá una variación de muestra diferente.
La respuesta más teórica es que la varianza muestral estima la varianza verdadera de una variable aleatoria. La verdadera varianza de una variable aleatoria es
E [ ( X - E X ) 2 ] .X
E[(X−EX)2].
Aquí representa la expectativa o "valor promedio". Entonces, la definición de la varianza es la distancia cuadrática promedio entre la variable y su valor promedio. Cuando observa esta definición, no hay "orden de tiempo" aquí ya que no hay datos. Es solo un atributo de la variable aleatoria.E
Cuando recopila datos iid de esta distribución, tiene realizaciones . La mejor manera de estimar la expectativa es tomar los promedios de muestra. La clave aquí es que obtuvimos los datos de iid y, por lo tanto, no hay pedidos para los datos. La muestra x 1 , x 2 , ... , x n es la misma que la muestra x 2 , x 5 , x 1 , x n . .x1,x2,…,xnx1,x2,…,xnx2,x5,x1,xn. .
EDITAR
La varianza de la muestra mide un tipo específico de dispersión para la muestra, el que mide la distancia promedio desde la media. Existen otros tipos de dispersión, como el rango de datos y el rango intercuartil.
Incluso si ordena sus valores en orden ascendente, eso no cambia las características de la muestra. La muestra (datos) que obtiene son realizaciones de una variable. Calcular la varianza de la muestra es similar a comprender cuánta dispersión hay en la variable. Entonces, por ejemplo, si muestreas 20 personas y calculas su altura, entonces esas son 20 "realizaciones" de la variable aleatoria altura de las personas. Ahora se supone que la varianza muestral mide la variabilidad en la altura de los individuos en general. Si solicita los datos
100 , 110 , 123 , 124 , ... ,X=
100,110,123,124,…,
eso no cambia la información en la muestra.
Veamos un ejemplo más. digamos que usted tiene 100 observaciones de una variable aleatoria ordenado de esta manera Luego, la distancia subsiguiente promedio es de 1 unidades, por lo que según su método, la varianza será 1.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
La forma de interpretar "varianza" o "dispersión" es entender qué rango de valores es probable para los datos. En este caso, obtendrá un rango de .99 unidades, que por supuesto no representa bien la variación.
Si en lugar de tomar el promedio simplemente suma las diferencias subsiguientes, entonces su varianza será 99. Por supuesto, eso no representa la variabilidad en la muestra, porque 99 le da el rango de los datos, no una sensación de variabilidad.