¿Qué es una desviación estándar, cómo se calcula y cuál es su uso en estadísticas?
¿Qué es una desviación estándar, cómo se calcula y cuál es su uso en estadísticas?
Respuestas:
La desviación estándar es un número que representa la "dispersión" o "dispersión" de un conjunto de datos. Existen otras medidas para la propagación, como el rango y la varianza.
Aquí hay algunos ejemplos de conjuntos de datos y sus desviaciones estándar:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Los conjuntos de datos anteriores tienen la misma media.
La desviación significa "distancia de la media".
"Estándar" aquí significa "estandarizado", lo que significa que la desviación estándar y la media están en las mismas unidades, a diferencia de la varianza.
Por ejemplo, si la altura media es de 2 metros , la desviación estándar podría ser de 0,3 metros , mientras que la varianza sería de 0,09 metros cuadrados .
Es conveniente saber que al menos el 75% de los puntos de datos siempre se encuentran dentro de las 2 desviaciones estándar de la media (o alrededor del 95% si la distribución es Normal).
Por ejemplo, si la media es 100 y la desviación estándar es 15, entonces al menos el 75% de los valores están entre 70 y 130.
Si la distribución resulta ser Normal, entonces el 95% de los valores están entre 70 y 130.
En términos generales, los puntajes de las pruebas de CI se distribuyen normalmente y tienen un promedio de 100. Alguien que es "muy brillante" tiene dos desviaciones estándar por encima de la media, lo que significa un puntaje de prueba de CI de 130.
Una cita de Wikipedia .
Muestra cuánta variación hay del "promedio" (valor medio o esperado / presupuestado). Una desviación estándar baja indica que los puntos de datos tienden a estar muy cerca de la media, mientras que la desviación estándar alta indica que los datos se extienden en un amplio rango de valores.
Al describir una variable, generalmente la resumimos utilizando dos medidas: una medida de centro y una medida de propagación. Las medidas comunes de centro incluyen la media, la mediana y la moda. La medida común de propagación incluye la varianza y el rango intercuartil.
La varianza (representada por la sigma griega minúscula elevada a la potencia dos) se usa comúnmente cuando se informa la media. La varianza es la desviación cuadrática promedio de la variable. La desviación se calcula restando la media de cada observación. Esto es al cuadrado porque la suma sería cero y la cuadratura elimina este problema mientras se mantiene el tamaño relativo de las desviaciones. El problema con el uso de la variación como medida de propagación es que está en unidades cuadradas. Por ejemplo, si nuestra variable de interés era la altura medida en pulgadas, la varianza se informaría en pulgadas cuadradas, lo que tiene poco sentido. La desviación estándar (representada por la sigma en minúscula griega) es la raíz cuadrada de la varianza y devuelve la medida de propagación a las unidades originales.
Cuando se usa la desviación estándar, hay que tener cuidado con los valores atípicos, ya que sesgarán la desviación estándar (y la media) ya que no son medidas resistentes de propagación. Un ejemplo simple ilustrará esta propiedad. La media de mis terribles puntajes de bateo de cricket de 13, 14, 16, 23, 26, 28, 33, 39 y 61 es 28.11. Si consideramos que 61 es un valor atípico y lo eliminamos, la media sería 24.
Así es como respondería esta pregunta usando un diagrama.
Digamos que pesamos 30 gatos y calculamos el peso medio. Luego producimos un diagrama de dispersión, con peso en el eje yy identidad de gato en el eje x. El peso medio se puede dibujar como una línea horizontal. Luego podemos dibujar líneas verticales que conectan cada punto de datos con la línea media: estas son las desviaciones de cada punto de datos de la media, y las llamamos residuales. Ahora, estos residuos pueden ser útiles porque nos pueden decir algo sobre la difusión de los datos: si hay muchos residuos grandes, entonces los gatos varían mucho en masa. Por el contrario, si los residuos son principalmente pequeños, entonces los gatos se agrupan bastante cerca del peso promedio. Entonces, si pudiéramos tener alguna métrica que nos diga el promediolongitud de un residuo en este conjunto de datos, esta sería una forma práctica de denotar la extensión que hay en los datos. La desviación estándar es, efectivamente, la longitud del residuo promedio.
Seguiría con esto dando el cálculo para sd, explicando por qué cuadramos y luego raíz cuadrada (me gusta la breve y dulce explicación de Vaibhav). Luego mencionaría los problemas de los valores atípicos, como lo hace Graham en su último párrafo.
Si la información requerida es la distribución de datos sobre la media, la desviación estándar es útil.
La suma de la diferencia de cada valor de la media es cero (obviamente, dado que el valor se distribuye uniformemente alrededor de la media), por lo tanto, cuadramos cada diferencia para convertir los valores negativos en positivos, sumarlos a través de la población y tomar su raíz cuadrada. Este valor se divide por el número de muestras (o el tamaño de la población). Esto da la desviación estándar.
Una desviación estándar es la raíz cuadrada del segundo momento central de una distribución. Un momento central es la diferencia esperada del valor esperado de la distribución. Un primer momento central generalmente sería 0, por lo que definimos un segundo momento central como el valor esperado de la distancia al cuadrado de una variable aleatoria de su valor esperado.
Para ponerlo en una escala que esté más en línea con las observaciones originales, tomamos la raíz cuadrada de ese segundo momento central y lo llamamos la desviación estándar.
La desviación estándar es una propiedad de una población. Mide cuánta "dispersión" promedio hay en esa población. ¿Están todas las obsrvaciones agrupadas alrededor de la media, o están muy extendidas?
Para estimar la desviación estándar de una población, a menudo calculamos la desviación estándar de una "muestra" de esa población. Para hacer esto, tome observaciones de esa población, calcule una media de esas observaciones y luego calcule la raíz cuadrada de la desviación cuadrática promedio de esa "media de muestra".
Para obtener un estimador imparcial de la varianza, en realidad no calcula la desviación cuadrática promedio de la media de la muestra, sino que divide entre (N-1) donde N es el número de observaciones en su muestra. Tenga en cuenta que esta "desviación estándar muestral" no es un estimador imparcial de la desviación estándar, pero el cuadrado de la "desviación estándar muestral" es un estimador imparcial de la varianza de la población.
¡La mejor forma en que he entendido la desviación estándar es pensar en una peluquería! (Debe recopilar datos de una peluquera y calcular su velocidad de corte de cabello para que este ejemplo funcione).
Al peluquero le toma un promedio de 30 minutos cortar el cabello de una persona.
Suponga que hace el cálculo (la mayoría de los paquetes de software lo harán por usted) y descubre que la desviación estándar es de 5 minutos. Significa lo siguiente:
¿Cómo se esto? Debe observar la curva normal, donde el 68% cae dentro de 1 desviación estándar y el 96% cae dentro de 2 desviaciones estándar de la media (en este caso, 30 minutos). Entonces sumas o restas la desviación estándar de la media.
Si se desea consistencia, como en este caso, cuanto menor sea la desviación estándar, mejor. En este caso, el peluquero pasa un máximo de aproximadamente 40 minutos con cualquier cliente. ¡Necesitas cortar el pelo rápido para ejecutar un salón exitoso!