¿Cuál es la diferencia entre la varianza y la desviación estándar?


127

Me preguntaba cuál es la diferencia entre la varianza y la desviación estándar.

Si calcula los dos valores, está claro que obtiene la desviación estándar de la varianza, pero ¿qué significa eso en términos de la distribución que está observando?

Además, ¿por qué realmente necesitas una desviación estándar?



12
Probablemente ya tienes la respuesta. Aún así, este enlace tiene la explicación más simple y mejor. mathsisfun.com/data/standard-deviation.html

2
La desviación estándar es útil ya que el valor está en la misma escala que los datos a partir de los cuales se calculó. Si mide metros, la desviación estándar será metros. La varianza, en contraste, será de metros cuadrados.
Vladislavs Dovgalecs

1
La variación estándar puede ser imparcial, pero la desviación estándar no puede porque la función de raíz cuadrada no es lineal.
Daksh Gargas

Respuestas:


85

La desviación estándar es la raíz cuadrada de la varianza.

La desviación estándar se expresa en las mismas unidades que la media, mientras que la varianza se expresa en unidades cuadradas, pero para observar una distribución, puede usar cualquiera de ellos siempre que tenga claro lo que está usando. Por ejemplo, una distribución Normal con media = 10 y sd = 3 es exactamente lo mismo que una distribución Normal con media = 10 y varianza = 9.


58
Sí, esa es la forma matemática de explicar estos dos parámetros, PERO ¿cuál es la explicación lógica? ¿Por qué realmente necesito dos parámetros para mostrar lo mismo (la desviación alrededor de la media aritmética) ...
Le Max

55
Realmente no necesitas ambos. Si informa uno, no necesita informar el otro
Peter Flom

8
Necesitamos ambos: la desviación estándar es buena para la interpretación, la presentación de informes. Para desarrollar la teoría, la varianza es mejor.
kjetil b halvorsen

44
El beneficio de informar la desviación estándar es que permanece en la escala de datos. Digamos, una muestra de alturas de adultos está en metros, luego la desviación estándar también estará en metros.
Vladislavs Dovgalecs

55
@RushatRai Cuando se trata de sumas de variables aleatorias, las variaciones se suman. Para variables aleatorias independientes, . Existe una expresión similar en el caso general sin independencia (con una corrección usando términos de covarianza). En general, la transformación de raíz cuadrada complica las cosas y hace que la desviación estándar sea más difícil de trabajar analíticamente. Var(Xi)=Var(Xi)
Knrumsey

49

No necesitas los dos. Cada uno tiene diferentes propósitos. El SD ​​suele ser más útil para describir la variabilidad de los datos, mientras que la varianza suele ser mucho más útil matemáticamente. Por ejemplo, la suma de distribuciones no correlacionadas (variables aleatorias) también tiene una variación que es la suma de las variaciones de esas distribuciones. Esto no sería cierto para el SD. Por otro lado, la SD tiene la conveniencia de expresarse en unidades de la variable original.


24

Si John se refiere a variables aleatorias independientes cuando dice "distribuciones no relacionadas", entonces su respuesta es correcta. Sin embargo, para responder a su pregunta, se pueden agregar varios puntos:

  1. La media y la varianza son los dos parámetros que determinan una distribución normal.

  2. La desigualdad de Chebyshev limita la probabilidad de que una variable aleatoria observada esté dentro de desviaciones estándar de la media.k

  3. La desviación estándar se usa para normalizar estadísticas para pruebas estadísticas (por ejemplo, la desviación estándar conocida se usa para normalizar una media muestral para la prueba que la media difiere de o la desviación estándar muestral se usa para normalizar la media muestral cuando el estándar verdadero la desviación es desconocida, lo que resulta en la prueba ).0 tz0t

  4. Para una distribución normal, el por ciento de la distribución está dentro de desviación estándar. dentro de desviaciones estándar y más de dentro de desviaciones estándar.1 95.4 % 2 99 % 368%195.4%299%3

  5. El margen de error se expresa como un múltiplo de la desviación estándar de la estimación.

  6. La varianza y el sesgo son medidas de incertidumbre en una cantidad aleatoria. El error cuadrado medio para una estimación es igual a la varianza + el sesgo al cuadrado.


44
Probablemente no debería decir "parámetro natural", que son medias divididas por la varianza, y 1 dividido por la varianza: en.wikipedia.org/wiki/Natural_parameter
Neil G

De acuerdo con el enlace de wikipedia, los parámetros naturales para la distribución normal en términos de su forma de familia exponencial dependen de si se supone o no que es conocido o desconocido. Pero entiendo su punto y he tomado "parámetros naturales" de mi respuesta. σ
Michael Chernick

En el punto 3, ¿no debería ser "la desviación estándar se utiliza para estandarizar las estadísticas" en lugar de normalizar?
Harry

15

La varianza de un conjunto de datos mide la dispersión matemática de los datos en relación con la media. Sin embargo, aunque este valor es teóricamente correcto, es difícil de aplicar en un sentido del mundo real porque los valores utilizados para calcularlo fueron al cuadrado. La desviación estándar, ya que la raíz cuadrada de la varianza da un valor que está en las mismas unidades que los valores originales, lo que hace que sea mucho más fácil trabajar con él y más fácil de interpretar junto con el concepto de la curva normal.


Esto hace un gran trabajo explicando por qué en términos simples.
GWG

3
Otro buen punto a destacar sería que cada métrica sd y var miden la extensión de la variable sobre la media. Tomar la raíz cuadrada de la varianza para obtener la desviación estándar podría verse como un factor de escala aplicado para obtener la métrica nuevamente en unidades de la variable.
Matt L.

6

En términos de distribución, son equivalentes (aunque obviamente no son intercambiables), pero tenga en cuenta que en términos de estimadores no lo son: la raíz cuadrada de una estimación de la varianza NO es un estimador (imparcial) de la desviación estándar. Solo para un número moderadamente grande de muestras (y dependiendo de los estimadores) los dos se acercan entre sí. Para tamaños de muestra pequeños, necesita conocer la forma paramétrica de la distribución para convertir entre los dos, que puede volverse ligeramente circular.


4

Mientras calculamos la varianza, elevamos al cuadrado las desviaciones. Significa que si los datos (observaciones) dados están en metros, se convertirán en metros cuadrados. Espero que no sea una representación correcta sobre las desviaciones. Entonces, volvemos a la raíz cuadrada (SD) que no es más que SD.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.