¿Por qué tomamos la raíz cuadrada de la varianza para crear una desviación estándar?


26

Lo siento si esto se ha respondido en otro lugar, no he podido encontrarlo.

Me pregunto por qué tomamos la raíz cuadrada , en particular, de la varianza para crear la desviación estándar. ¿De qué se trata de sacar la raíz cuadrada que produce un valor útil?



2
Piense en la desviación estándar como una norma vectorial euclidiana y luego en la varianza como el cuadrado. Esta definición de varianza y desviación estándar resultan tener propiedades analíticas útiles.
Theideasmith

Respuestas:


44

En cierto sentido, esta es una pregunta trivial, pero en otro, ¡en realidad es bastante profunda!

  • Como otros han mencionado, tomando la raíz cuadrada implica tiene las mismas unidades que .Stdev(X)X

  • Tomar la raíz cuadrada le da homogeneidad absoluta, también conocida como escalabilidad absoluta . Para cualquier variable escalar y aleatoria , tenemos: La homogeneidad absoluta es una propiedad requerida de una norma . La desviación estándar se puede interpretar como una norma (en el espacio vectorial de las variables aleatorias medias cero) de manera similar a que es la norma euclidiana estándar en un tridimensional espacio. La desviación estándar es una medida de distancia entre una variable aleatoria y su media.αX

    Stdev[αX]=|α|Stdev[X]
    x2+y2+z2

Desviación estándar y la normaL2

Caso de dimensión finita:

En un espacio vectorial dimensional, la norma euclidiana estándar, también conocida como la norma se define como:nL2

x2=ixi2

En términos más generales, la -norm toma la raíz th para obtener absoluta homogeneidad: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Si tiene pesos entonces la suma ponderada también es una norma válida. Además, es la desviación estándar si representa probabilidades yqiixi2qiqiE[x]ixiqi=0

Caso de dimensión infinita:

En un espacio de Hilbert de dimensión infinita, podemos definir de manera similar la norma :L2

X2=ωX(ω)2dP(ω)

Si es una variable aleatoria media cero y es la medida de probabilidad, ¿cuál es la desviación estándar? Es lo mismo: .XPωX(ω)2dP(ω)

Resumen:

Tomar la raíz cuadrada significa que la desviación estándar satisface la homogeneidad absoluta , una propiedad requerida de una norma .

En un espacio de variables aleatorias, es un producto interno y la norma inducida por ese producto interno . Por lo tanto, la desviación estándar es la norma de una variable aleatoria degradada: Es una medida de distancia desde la media a .X,Y=E[XY]X2=E[X2]

Stdev[X]=XE[X]2
E[X]X

(Punto técnico: mientras es una norma, la desviación estándar no es una norma sobre variables aleatorias en general porque un requisito para un espacio vectorial normado es si y solo si . Una desviación estándar de 0 no t implica que la variable aleatoria es el elemento cero).E[X2]E[(XE[X])2]x=0x=0


1
Esta respuesta realmente llega al corazón del problema, haciéndola más informativa que la actualmente aceptada.
00prometheus

26

La varianza de se define como , por lo que es una expectativa de una diferencia al cuadrado entre X y su valor esperado.XV(X)=E(XE(X))2

Si es tiempo en segundos, está en segundos, pero está en y está nuevamente en segundos.XXE(X)V(X)seconds2V(X)


Ah, ya veo, ¿solo está deshaciendo el cambio de escala que resultó de cuadrar las diferencias en el cálculo de la varianza?
Dave

11
Correcto, pero cambia en dimensiones , no en escala.
Jean-François Corbett

Pero no es que haya un solo término allí: hay muchos y cada uno cuando está en el poder 2, trae más o menos que otros términos. Pero cuando sacamos la raíz cuadrada, descuidamos esa diferencia, ¿no? No obtendríamos el numerador inicial, la suma de todas las diferencias de esa manera. ¿No sería mejor sacar una raíz cuadrada de cada término individual?
analista el

Parece que está pensando en la estimación , basada en una muestra. En ese caso, si lo hiciera, las diferencias se reducirían a cero: . V^i=1n(xix¯)=i=1nxii=1nxi=0
HStamper

@EricMittman Excepto que , no , en cuyo caso obtendría el error absoluto medio . a2=|a|a
Dougal

6

La respuesta simple es que las unidades están en la misma escala que la media. Ejemplo: calculo que la media para estudiantes de secundaria es de 160 cm con una desviación estándar (DE) de 20 cm. Es intuitivamente más fácil tener una idea de la variación con el SD que la variación de 400 cm ^ 2.


0

En términos más simples, la desviación estándar está diseñada para darnos un número positivo que dice algo acerca de la difusión de nuestros datos sobre su media.

Si tuviéramos que sumar las distancias de todos los puntos de la media, entonces los puntos en las direcciones positiva y negativa se combinarían de una manera que tendería a gravitar hacia la media y perderíamos información sobre la propagación. Esta es la razón por la cual medimos primero la varianza, de modo que todas las distancias se conservan como cantidades positivas a través de la cuadratura y no se cancelan entre sí. Al final, queremos un valor positivo que represente las unidades con las que comenzamos, esto ya se ha comentado anteriormente, por lo que tomamos la raíz cuadrada positiva.


-3

Es una estupidez histórica que continuamos debido a la pereza intelectual. Eligieron cuadrar las diferencias de la media para deshacerse del signo menos. Luego tomaron la raíz cuadrada para llevarla a una escala similar a la media.

Alguien debería generar nuevas estadísticas, calcular la varianza y la DE utilizando módulos o valores absolutos de desviación de la media. Esto eliminaría toda esta cuadratura y luego tomaría el negocio de la raíz cuadrada.


1
Ya tenemos eso, en forma de desviación absoluta media (o mediana), normas L1 y similares. Sin embargo, la principal ventaja del enfoque tradicional es que, a diferencia de los valores absolutos, es diferenciable, lo que le permite minimizar y maximizar analíticamente las cosas.
Matt Krause

1
Si no proporciona una justificación sustantiva para su postura, proporcione un argumento matemático claramente establecido. La suma de valores absolutos escala de manera muy diferente a la raíz cuadrada de la suma de cuadrados. Este último enfatiza la contribución de los valores extremos, que es una propiedad útil. Además, SSQ es fundamental para los métodos analíticos de mínimos cuadrados. Tómese el tiempo para ampliar los problemas de SD y cómo se comparan las alternativas para que los lectores puedan comprender su punto de vista. .
ReneBt

(-1) Es demasiado fácil leer frases como "estupidez histórica" ​​y "pereza intelectual" como autorreferenciales.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.