¿Por qué cuadrar la diferencia en lugar de tomar el valor absoluto en la desviación estándar?
Cuadramos la diferencia de las x de la media porque la distancia euclidiana, proporcional a la raíz cuadrada de los grados de libertad (número de x, en una medida de población), es la mejor medida de dispersión.
Calcular distancia
¿Cuál es la distancia del punto 0 al punto 5?
- 5−0=5 ,
- |0−5|=5 y
- 52−−√=5
Ok, eso es trivial porque es una sola dimensión.
¿Qué tal la distancia para un punto en el punto 0, 0 al punto 3, 4?
Si solo podemos ir en 1 dimensión a la vez (como en bloques de ciudades), entonces solo sumamos los números. (Esto a veces se conoce como la distancia de Manhattan).
¿Pero qué hay de ir en dos dimensiones a la vez? Luego (según el teorema de Pitágoras que todos aprendimos en la escuela secundaria), cuadramos la distancia en cada dimensión, sumamos los cuadrados y luego tomamos la raíz cuadrada para encontrar la distancia desde el origen hasta el punto.
32+42−−−−−−√=25−−√=5
¿Qué tal la distancia desde un punto en 0, 0, 0 hasta el punto 1, 2, 2?
Esto es simplemente
12+22+22−−−−−−−−−−√=9–√=3
porque la distancia para las dos primeras x forma la pata para calcular la distancia total con la x final.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
Podemos continuar extendiendo la regla de cuadrar la distancia de cada dimensión, esto se generaliza a lo que llamamos una distancia euclidiana, para mediciones ortogonales en el espacio hiperdimensional, así:
distance=∑i=1nx2i−−−−−√
y entonces la suma de los cuadrados ortogonales es la distancia al cuadrado:
distance2=∑i=1nx2i
¿Qué hace que una medición sea ortogonal (o en ángulo recto) a otra? La condición es que no hay relación entre las dos mediciones. Buscaríamos que estas mediciones sean independientes y se distribuyan individualmente ( iid ).
Diferencia
Ahora recuerde la fórmula para la varianza de la población (de la cual obtendremos la desviación estándar):
σ2=∑i=1n(xi−μ)2n
Si ya hemos centrado los datos en 0 restando la media, tenemos:
σ2=∑i=1n(xi)2n
Entonces, vemos que la varianza es solo la distancia al cuadrado dividida por el número de grados de libertad (el número de dimensiones en las que las variables pueden variar libremente). Esta es también la contribución promedio a la por medición. "Varianza cuadrática media" también sería un término apropiado.distance2
Desviación Estándar
Luego tenemos la desviación estándar, que es solo la raíz cuadrada de la varianza:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
Lo que es equivalente, la distancia , dividida por la raíz cuadrada de los grados de libertad:
σ=∑i=1n(xi)2−−−−−−−√n−−√
Desviación media absoluta
La desviación absoluta media (MAD), es una medida de dispersión que utiliza la distancia de Manhattan, o la suma de valores absolutos de las diferencias con respecto a la media.
MAD=∑i=1n|xi−μ|n
Nuevamente, suponiendo que los datos estén centrados (la media restada) tenemos la distancia de Manhattan dividida por el número de mediciones:
MAD=∑i=1n|xi|n
Discusión
- La desviación media absoluta es aproximadamente .8 veces (en realidad2/π−−−√ ) el tamaño de la desviación estándar para un conjunto de datos distribuido normalmente.
- Independientemente de la distribución, la desviación absoluta media es menor o igual que la desviación estándar. MAD subestima la dispersión de un conjunto de datos con valores extremos, en relación con la desviación estándar.
- La desviación absoluta media es más robusta para los valores atípicos (es decir, los valores atípicos no tienen un efecto tan grande en la estadística como lo tienen en la desviación estándar).
- Geométricamente hablando, si las mediciones no son ortogonales entre sí (iid), por ejemplo, si se correlacionan positivamente, la desviación absoluta media sería una mejor estadística descriptiva que la desviación estándar, que se basa en la distancia euclidiana (aunque esto generalmente se considera correcto) )
Esta tabla refleja la información anterior de una manera más concisa:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
Comentarios:
¿Tiene una referencia para "la desviación absoluta media es aproximadamente .8 veces el tamaño de la desviación estándar para un conjunto de datos distribuido normalmente"? Las simulaciones que estoy ejecutando muestran que esto es incorrecto.
Aquí hay 10 simulaciones de un millón de muestras de la distribución normal estándar:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Conclusión
Preferimos las diferencias al cuadrado al calcular una medida de dispersión porque podemos explotar la distancia euclidiana, lo que nos da una mejor estadística descriptiva de la dispersión. Cuando hay valores más extremos, la distancia euclidiana explica eso en la estadística, mientras que la distancia de Manhattan le da a cada medida el mismo peso.