Hoy enseñé una clase introductoria de estadística y un estudiante se me ocurrió una pregunta, que reformulo aquí como: "¿Por qué la desviación estándar se define como sqrt de varianza y no como el sqrt de la suma de cuadrados sobre N?"
Definimos varianza poblacional:
Y desviación estándar: .
La interpretación podemos dar a es que da la desviación promedio de unidades en la población de la media poblacional de .
Sin embargo, en la definición de sd dividimos el sqrt de la suma de cuadrados a través de . La pregunta que plantea el estudiante es por qué no dividimos el sqrt de la suma de cuadrados porlugar. Así llegamos a una fórmula competitiva:
Pensé que esta pregunta no es estúpida. Me gustaría dar una respuesta al alumno que va más allá de decir que el sd se define como sqrt de la varianza, que es la desviación cuadrática promedio. Dicho de otra manera, ¿por qué el estudiante debe usar la fórmula correcta y no seguir su idea?
Esta pregunta se relaciona con un hilo anterior y las respuestas proporcionadas aquí . Las respuestas van en tres direcciones:
- es la desviación raíz cuadrática media (RMS), no la desviación "típica" de la media (es decir, ). Por lo tanto, se define de manera diferente.
- Tiene buenas propiedades matemáticas.
- Además, el sqrt devolvería las "unidades" a su escala original. Sin embargo, este también sería el caso de , que se divide por lugar.
Ambos puntos 1 y 2 son argumentos a favor del SD como RMS, pero no veo un argumento en contra del uso de . ¿Cuáles serían los buenos argumentos para convencer a los estudiantes de nivel introductorio del uso de la distancia RMS promedio de la media?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
¿Podría ser que lo que está entre paréntesis se perdió de alguna manera en la pregunta?