¿Por qué cuadrar la diferencia en lugar de tomar el valor absoluto en la desviación estándar?


408

En la definición de desviación estándar, ¿por qué tenemos que cuadrar la diferencia de la media para obtener la media (E) y recuperar la raíz cuadrada al final? ¿No podemos simplemente tomar el valor absoluto de la diferencia y obtener el valor esperado (promedio) de esos, y eso no mostraría también la variación de los datos? El número va a ser diferente del método cuadrado (el método de valor absoluto será más pequeño), pero aún debe mostrar la propagación de datos. ¿Alguien sabe por qué tomamos este enfoque cuadrado como estándar?

La definición de desviación estándar:

σ=E[(Xμ)2].

¿No podemos simplemente tomar el valor absoluto y seguir siendo una buena medida?

σ=E[|Xμ|]


25
En cierto modo, la medición que propuso es ampliamente utilizada en caso de análisis de error (calidad del modelo), luego se denomina MAE, "error absoluto medio".

8
Al aceptar una respuesta, me parece importante que prestemos atención a si la respuesta es circular. La distribución normal se basa en estas medidas de varianza de los términos de error al cuadrado, pero eso no es en sí mismo una justificación para usar (XM) ^ 2 sobre | XM |.
russellpierce

2
¿Crees que el término estándar significa que este es EL estándar hoy? ¿No es como preguntar por qué los componentes principales son "principales" y no secundarios?
robin girard

51
Cada respuesta ofrecida hasta ahora es circular. Se centran en la facilidad de los cálculos matemáticos (lo cual es bueno pero de ninguna manera fundamental) o en las propiedades de la distribución gaussiana (normal) y OLS. Alrededor de 1800 Gauss comenzó con mínimos cuadrados y varianza, y de aquellos derivados de la distribución Normal, está la circularidad. Una razón verdaderamente fundamental que aún no se ha invocado en ninguna respuesta es el papel único que desempeña la variación en el Teorema del límite central . Otra es la importancia en la teoría de la decisión de minimizar la pérdida cuadrática.
whuber

2
Taleb hace el caso en Edge.org para retirar la desviación estándar y usar la desviación media absoluta.
Alex Holcombe

Respuestas:


188

Si el objetivo de la desviación estándar es resumir la extensión de un conjunto de datos simétricos (es decir, en general, qué tan lejos está cada dato de la media), entonces necesitamos un buen método para definir cómo medir esa extensión.

Los beneficios de la cuadratura incluyen:

  • La cuadratura siempre da un valor positivo, por lo que la suma no será cero.
  • La cuadratura enfatiza las diferencias más grandes, una característica que resulta ser buena y mala (piense en el efecto que tienen los valores atípicos).

Sin embargo, la cuadratura tiene un problema como medida de propagación y es que todas las unidades están al cuadrado, mientras que podríamos preferir que la distribución esté en las mismas unidades que los datos originales (piense en libras al cuadrado, dólares al cuadrado o manzanas al cuadrado) . Por lo tanto, la raíz cuadrada nos permite volver a las unidades originales.

Supongo que se podría decir que la diferencia absoluta asigna igual peso a la difusión de datos, mientras que la cuadratura enfatiza los extremos. Sin embargo, técnicamente, como otros han señalado, la cuadratura hace que el álgebra sea mucho más fácil de trabajar y ofrece propiedades que el método absoluto no (por ejemplo, la varianza es igual al valor esperado del cuadrado de la distribución menos el cuadrado del media de la distribución)

Sin embargo, es importante tener en cuenta que no hay ninguna razón por la que no pueda tomar la diferencia absoluta si esa es su preferencia sobre cómo desea ver 'propagación' (algo así como algunas personas ven el 5% como un umbral mágico para losvalores, cuando de hecho depende de la situación). De hecho, existen varios métodos competitivos para medir la propagación.p

Mi opinión es usar los valores al cuadrado porque me gusta pensar en cómo se relaciona con el Teorema de estadística de Pitágoras: ... esto también me ayuda a recordar eso cuando trabajo con variables aleatorias independientes , agregan variaciones, las desviaciones estándar no. Pero esa es solo mi preferencia subjetiva personal que en su mayoría solo uso como ayuda para la memoria, no dude en ignorar este párrafo.c=a2+b2

Un análisis mucho más profundo se puede leer aquí .


72
"La cuadratura siempre da un valor positivo, por lo que la suma no será cero". y también lo hacen los valores absolutos.
robin girard

32
@robin girard: Eso es correcto, por eso he precedido ese punto con "Los beneficios de la cuadratura incluyen". No estaba insinuando nada sobre los valores absolutos en esa declaración. Sin embargo, tomo su punto, consideraré eliminarlo / reformularlo si otros sienten que no está claro.
Tony Breyal

15
Gran parte del campo de las estadísticas robustas es un intento de lidiar con la excesiva sensibilidad a los valores atípicos que es una consecuencia de elegir la varianza como una medida de la dispersión de datos (técnicamente escala o dispersión). en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

55
El artículo vinculado en la respuesta es un envío de Dios.
traggatmot

1
Creo que el párrafo sobre Pitágoras es perfecto. Puede pensar en el error como un vector en dimensiones, siendo el número de muestras. El tamaño en cada dimensión es la diferencia de la media para esa muestra. La longitud de ese vector (Pitágoras) es la raíz de los cuadrados sumados, es decir, la desviación estándar. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

La diferencia al cuadrado tiene mejores propiedades matemáticas; es continuamente diferenciable (agradable cuando desea minimizarlo), es una estadística suficiente para la distribución gaussiana, y es (una versión de) la norma L2 que es útil para probar la convergencia, etc.

La desviación media absoluta (la notación de valor absoluto que sugiere) también se usa como una medida de dispersión, pero no es tan "bien portada" como el error al cuadrado.


2
dijo "es continuamente diferenciable (agradable cuando quieres minimizarlo)" ¿quieres decir que el valor absoluto es difícil de optimizar?
robin girard

29
@robin: mientras que la función de valor absoluto es continua en todas partes, su primera derivada no lo es (en x = 0). Esto hace que la optimización analítica sea más difícil.
Vince

12
Sí, pero encontrar el número real que desea, en lugar de solo un descriptor, es más fácil bajo la pérdida de error al cuadrado. Considere el caso de 1 dimensión; puede expresar el minimizador del error al cuadrado por la media: operaciones O (n) y forma cerrada. Puede expresar el valor del minimizador de error absoluto por la mediana, pero no hay una solución de forma cerrada que le indique cuál es el valor de la mediana; requiere un tipo de búsqueda, que es algo así como O (n log n). Las soluciones de mínimos cuadrados tienden a ser una operación simple de tipo plug-and-chug, las soluciones de valor absoluto generalmente requieren más trabajo para encontrar.
Rico

55
@Rich: Tanto la varianza como la mediana se pueden encontrar en tiempo lineal y, por supuesto, no más rápido. La mediana no requiere clasificación.
Neil G


84

Una forma de pensar en esto es que la desviación estándar es similar a una "distancia de la media".

Compare esto con las distancias en el espacio euclidiano: le da la distancia real, donde lo que sugirió (que, por cierto, es la desviación absoluta ) es más como un cálculo de distancia de Manhattan .


17
Bonita analogía del espacio euclidiano!
c4il

2
Excepto que en una dimensión las y son lo mismo, ¿no es así? l 2l1l2
naught101

55
@ naught101: No es una dimensión, sino más bien dimensiones donde es el número de muestras. La desviación estándar y la desviación absoluta son distancias (escaladas) y respectivamente, entre los dos puntos y donde es el media. n l 2 l 1 ( x 1 , x 2 , ... , x n ) ( μ , μ , ... , μ ) μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR

1
Esto debe modificarse como distancia mínima de la media. Es esencialmente una ecuación pitagórica.
John

56

La razón por la que calculamos la desviación estándar en lugar del error absoluto es que estamos asumiendo que el error se distribuye normalmente . Es parte del modelo.

Suponga que estaba midiendo longitudes muy pequeñas con una regla, entonces la desviación estándar es una mala métrica de error porque sabe que nunca medirá accidentalmente una longitud negativa. Una mejor métrica sería una para ayudar a ajustar una distribución Gamma a sus mediciones:

log(E(x))E(log(x))

Al igual que la desviación estándar, esto también es no negativo y diferenciable, pero es una mejor estadística de error para este problema.


3
Me gusta tu respuesta. El SD ​​no siempre es la mejor estadística.
RockScience

2
Gran contraejemplo sobre cuándo la desviación estándar no es la mejor manera de pensar en los tamaños de fluctuación.
Hbar

¿No debería tener un signo opuesto en la cantidad para obtener una medida positiva, utilizando un convexo lugar de cóncavo ? log xlogxlogx
COMO

@AS No, ya siempre es positivo. Es cero cuando todas las muestras son iguales, y de lo contrario su magnitud mide la variación. x
Neil G

Te equivocas. para cóncavo . gE(g(X))g(E(X))g
COMO

25

La respuesta que mejor me satisfizo es que cae naturalmente de la generalización de una muestra al espacio euclidiano n-dimensional. Ciertamente es discutible si eso es algo que debe hacerse, pero en cualquier caso:

Suponga que sus medidas son cada una un eje en . Entonces sus datos definen un punto en ese espacio. Ahora puede notar que todos los datos son muy similares entre sí, por lo que puede representarlos con un único parámetro de ubicación que está limitado a la línea definida por . Proyectar su punto de datos en esta línea obtiene , y la distancia desde el punto proyectado al punto de datos real es.nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

Este enfoque también le ofrece una interpretación geométrica para la correlación, .ρ^=cos(x~,y~)


77
Esto es correcto y atractivo. Sin embargo, al final solo parece reformular la pregunta sin responderla realmente: a saber, ¿por qué deberíamos usar la distancia euclidiana (L2)?
whuber

20
@sesqu Las desviaciones estándar no se volvieron comunes hasta que Gauss en 1809 derivó su desviación epónima usando el error al cuadrado, en lugar del error absoluto, como punto de partida. Sin embargo, lo que los llevó a la cima (creo) fue la teoría de regresión de Galton (en la que usted insinúa) y la capacidad de ANOVA para descomponer sumas de cuadrados, lo que equivale a una reformulación del Teorema de Pitágoras, una relación que solo disfruta el Norma L2. Por lo tanto, el SD se convirtió en una medida ómnibus natural de propagación defendida en los "Métodos estadísticos para trabajadores de investigación" de 1925 de Fisher y aquí estamos, 85 años después.
whuber

13
(+1) Continuando en la línea de @ whuber, apuesto a que el Estudiante había publicado un artículo en 1908 titulado, "Error probable de la media - ¡Hola, muchachos, echen un vistazo a ese MAE en el Denominador!" entonces las estadísticas tendrían una cara completamente diferente por ahora. Por supuesto, él no publicó un artículo así, y por supuesto que no podría haberlo hecho, porque el MAE no cuenta con todas las buenas propiedades que tiene S ^ 2. Una de ellas (relacionada con Student) es su independencia de la media (en el caso normal), que por supuesto es una reafirmación de la ortogonalidad, lo que nos lleva de vuelta a L2 y al producto interno.

3
Esta respuesta fue estimulante y creo que mi forma preferida de verla. En 1-D es difícil entender por qué cuadrar la diferencia se considera mejor. Pero en múltiples dimensiones (o incluso solo 2) se puede ver fácilmente que la distancia euclidiana (cuadratura) es preferible a la distancia de Manhattan (suma del valor absoluto de las diferencias).
thecity2

1
@whuber ¿Puede explicar qué significa "la línea definida por Xᵢ = μ"? ¿Es la línea que pasa por el origen y el punto (μ, μ, ..., μ)? Además, ¿dónde puedo leer más sobre esto?
Arch Stanton

18

Cuadrar la diferencia de la media tiene un par de razones.

  • La varianza se define como el segundo momento de la desviación (el RV aquí es ) y, por lo tanto, el cuadrado como momentos son simplemente las expectativas de potencias más altas de la variable aleatoria.(xμ)

  • Tener un cuadrado en lugar de la función de valor absoluto proporciona una buena función continua y diferenciable (el valor absoluto no es diferenciable en 0), lo que la convierte en la opción natural, especialmente en el contexto del análisis de estimación y regresión.

  • La formulación al cuadrado también cae naturalmente fuera de los parámetros de la Distribución Normal.


17

Otra razón (además de las excelentes anteriores) proviene del propio Fisher, quien demostró que la desviación estándar es más "eficiente" que la desviación absoluta. Aquí, eficiente tiene que ver con cuánto fluctuará el valor de una estadística en diferentes muestreos de una población. Si su población se distribuye normalmente, la desviación estándar de varias muestras de esa población, en promedio, tenderá a darle valores que son bastante similares entre sí, mientras que la desviación absoluta le dará números que se extenderán un poco más. Ahora, obviamente, esto está en circunstancias ideales, pero esta razón convenció a mucha gente (además de que las matemáticas son más limpias), por lo que la mayoría de la gente trabajó con desviaciones estándar.


66
Su argumento depende de los datos que se distribuyen normalmente. Si suponemos que la población tiene una distribución "doble exponencial", entonces la desviación absoluta es más eficiente (de hecho, es una estadística suficiente para la escala)
probabilidad es

77
Sí, como dije, "si su población se distribuye normalmente".
Eric Suh

Además de suponer una distribución normal, la prueba de Fisher supone mediciones sin errores. Con pequeños errores como 1%, la situación se invierte y la desviación absoluta promedio es más eficiente que la desviación estándar
juanrga

14

Para que la gente sepa, hay una pregunta de desbordamiento matemático sobre el mismo tema.

¿Por qué es tan genial para los números cuadrados en términos de encontrar la desviación estándar?

El mensaje para llevar es que usar la raíz cuadrada de la varianza conduce a matemáticas más fáciles. Rich y Reed dan una respuesta similar.


3
La "matemática más fácil" no es un requisito esencial cuando queremos que nuestras fórmulas y valores reflejen más verdaderamente un conjunto dado de datos. Las computadoras hacen todo el trabajo duro de todos modos.
Dan W

Definir pi como 3.14 facilita las matemáticas, pero eso no lo hace correcto.
James

13

variaciones son aditivas: para variables aleatorias independientes , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) .X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Observe lo que esto hace posible: supongamos que lanzo una moneda justa 900 veces. ¿Cuál es la probabilidad de que el número de caras que obtengo esté entre 440 y 455 inclusive? Solo encuentre el número esperado de cabezas ( ), y la varianza del número de cabezas ( ), luego encuentre la probabilidad con una distribución normal (o gaussiana) con la expectativa y la desviación estándar está entre y . Abraham de Moivre hizo esto con lanzamientos de monedas en el siglo XVIII, lo que demuestra primero que la curva en forma de campana vale algo.225 = 15 2 450 15 439,5 455,5450225=15245015439.5455.5


¿Las desviaciones absolutas medias no son aditivas de la misma manera que las variaciones?
russellpierce

66
No, no lo son.
Michael Hardy

10

Creo que el contraste entre el uso de desviaciones absolutas y desviaciones cuadradas se vuelve más claro una vez que se mueve más allá de una sola variable y piensa en la regresión lineal. Hay una buena discusión en http://en.wikipedia.org/wiki/Least_absolute_deviations , en particular la sección "Contrastar los mínimos cuadrados con las menos desviaciones absolutas", que enlaza con algunos ejercicios de los estudiantes con un conjunto ordenado de applets en http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Para resumir, las desviaciones menos absolutas son más robustas para los valores atípicos que los mínimos cuadrados ordinarios, pero puede ser inestable (un pequeño cambio en un solo dato puede dar un gran cambio en la línea ajustada) y no siempre tiene una solución única: puede haber Toda una gama de líneas ajustadas. Además, las desviaciones menos absolutas requieren métodos iterativos, mientras que los mínimos cuadrados ordinarios tienen una solución simple de forma cerrada, aunque eso no es tan importante ahora como lo fue en los días de Gauss y Legendre, por supuesto.


el argumento de "solución única" es bastante débil, realmente significa que hay más de un valor bien respaldado por los datos. Además, la penalización de los coeficientes, como L2, resolverá el problema de la unicidad y también el problema de la estabilidad en cierta medida.
probabilityislogic

10

Hay muchas razones; probablemente lo principal es que funciona bien como parámetro de distribución normal.


44
Estoy de acuerdo. La desviación estándar es la forma correcta de medir la dispersión si supone una distribución normal. Y muchas distribuciones y datos reales son aproximadamente normales.
Łukasz Lew

2
No creo que deba decir "parámetro natural": los parámetros naturales de la distribución normal son la media y la precisión de los tiempos medios. ( en.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@NeilG Buen punto; Estaba pensando en el significado "casual" aquí. Pensaré en una palabra mejor.

8

En muchos sentidos, el uso de la desviación estándar para resumir la dispersión está llegando a una conclusión. Se podría decir que SD asume implícitamente una distribución simétrica debido a su tratamiento igual de la distancia por debajo de la media como la distancia por encima de la media. El SD ​​es sorprendentemente difícil de interpretar para los no estadísticos. Se podría argumentar que la diferencia media de Gini tiene una aplicación más amplia y es significativamente más interpretable. No requiere que uno declare su elección de una medida de tendencia central como lo hace el uso de SD para la media. La diferencia media de Gini es la diferencia absoluta promedio entre dos observaciones diferentes. Además de ser robusto y fácil de interpretar, resulta ser 0.98 tan eficiente como SD si la distribución fuera realmente gaussiana.


2
Solo para agregar a la sugerencia de @ Frank sobre Gini, hay un buen artículo aquí: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Repasa varias medidas de dispersión y también brinda una perspectiva histórica informativa.
Thomas Speidel

1
También me gustan estas ideas, pero hay una definición paralela menos conocida de la varianza (y, por lo tanto, la SD) que no hace referencia a los medios como parámetros de ubicación. La varianza es la mitad del cuadrado medio sobre todas las diferencias por pares entre valores, así como la diferencia de medias de Gini se basa en los valores absolutos de todas las diferencias por pares.
Nick Cox

7

Estimar la desviación estándar de una distribución requiere elegir una distancia.
Se puede usar cualquiera de las siguientes distancias:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Usualmente usamos la distancia euclidiana natural ( ), que es la que todos usan en la vida diaria. La distancia que propone es la que tiene . Ambos son buenos candidatos pero son diferentes.n = 1n=2n=1

Uno podría decidir usar también.n=3

No estoy seguro de que le guste mi respuesta, mi punto contrario a los demás es no demostrar que es mejor. Creo que si desea estimar la desviación estándar de una distribución, puede usar absolutamente una distancia diferente.n=2


6

Depende de lo que esté hablando cuando dice "difusión de los datos". Para mí esto podría significar dos cosas:

  1. El ancho de una distribución de muestreo.
  2. La precisión de una estimación dada

Para el punto 1) no hay una razón particular para usar la desviación estándar como medida de dispersión, excepto cuando tiene una distribución de muestreo normal. La medida es una medida más apropiada en el caso de una distribución de muestreo de Laplace . Supongo que la desviación estándar se usa aquí debido a la intuición transferida desde el punto 2). Probablemente también debido al éxito del modelado de mínimos cuadrados en general, para el cual la desviación estándar es la medida adecuada. Probablemente también porque calcular es generalmente más fácil que calcular para la mayoría de las distribuciones.E ( X 2 ) E ( | X | )E(|Xμ|)E(X2)E(|X|)

Ahora, para el punto 2) hay una muy buena razón para usar la varianza / desviación estándar como la medida de la propagación, en un caso particular, pero muy común. Puedes verlo en la aproximación de Laplace a una posterior. Con los datos y la información previa , escriba la parte posterior de un parámetro como:I θDIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

He usado como variable ficticia para indicar que el denominador no depende de . Si el posterior tiene un único máximo bien redondeado (es decir, no demasiado cerca de un "límite"), podemos ampliar la probabilidad de registro sobre su máximo . Si tomamos los dos primeros términos de la expansión taylor que obtenemos (usando primo para la diferenciación):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

Pero tenemos aquí que porque es un "bien redondeado", , entonces tenemos:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Si conectamos esta aproximación obtenemos:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

Lo cual, pero para la notación es una distribución normal, con una media igual a , y una varianza igual aE(θDI)θmax

V(θDI)[h(θmax)]1

( siempre es positivo porque tenemos un máximo bien redondeado). Esto significa que en "problemas regulares" (que es la mayoría de ellos), la varianza es la cantidad fundamental que determina la precisión de las estimaciones para . Entonces, para las estimaciones basadas en una gran cantidad de datos, la desviación estándar tiene mucho sentido teóricamente: básicamente le dice todo lo que necesita saber. Esencialmente se aplica el mismo argumento (con las mismas condiciones requeridas) en caso multidimensional con es una matriz de Hesse. Las entradas diagonales también son esencialmente variaciones aquí también.h(θmax)θh(θ)jk=h(θ)θjθk

El frecuentista que usa el método de máxima verosimilitud llegará esencialmente a la misma conclusión porque el MLE tiende a ser una combinación ponderada de los datos, y para muestras grandes se aplica el Teorema del límite central y básicamente obtienes el mismo resultado si tomamos pero con y intercambiados: (vea si puede adivinar qué paradigma prefiero: P). De cualquier manera, en la estimación de parámetros, la desviación estándar es una medida teórica importante de propagación.θ θ max p ( θ maxθ ) N ( θ , [ - h ( θ max ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"¿Por qué cuadrar la diferencia" en lugar de "tomar el valor absoluto"? Para responder de manera muy exacta, existe literatura que da las razones por las cuales fue adoptada y el caso de por qué la mayoría de esas razones no son válidas. "¿No podemos simplemente tomar el valor absoluto ...?". Soy consciente de la literatura en la que la respuesta es sí, se está haciendo y se dice que hacerlo es ventajoso.

El autor Gorard afirma, primero, que el uso de cuadrados se adoptó previamente por razones de simplicidad de cálculo, pero que esas razones originales ya no son válidas. Gorard afirma, en segundo lugar, que se adoptó OLS porque Fisher descubrió que los resultados en muestras de análisis que usaban OLS tenían desviaciones más pequeñas que las que usaban diferencias absolutas (más o menos). Por lo tanto, parece que OLS puede tener beneficios en algunas circunstancias ideales; sin embargo, Gorard continúa señalando que existe cierto consenso (y afirma que Fisher estuvo de acuerdo) que en condiciones del mundo real (medición imperfecta de observaciones, distribuciones no uniformes, estudios de una población sin inferencia de una muestra), usar cuadrados es peor que diferencias absolutas

La respuesta de Gorard a su pregunta "¿No podemos simplemente tomar el valor absoluto de la diferencia y obtener el valor esperado (promedio) de esos?" Es sí. Otra ventaja es que el uso de diferencias produce medidas (medidas de errores y variaciones) que están relacionadas con la forma en que experimentamos esas ideas en la vida. Gorard dice que imagina a las personas que dividen la cuenta del restaurante de manera equitativa y algunos pueden notar intuitivamente que ese método es injusto. Nadie allí cuadrará los errores; Las diferencias son el punto.

Finalmente, usando las diferencias absolutas, señala, trata cada observación por igual, mientras que, al contrastar, las diferencias otorgan a las observaciones predichas un peso poco mayor que las predichas bien, lo que es como permitir que ciertas observaciones se incluyan en el estudio varias veces. En resumen, su idea general es que hoy en día no hay muchas razones ganadoras para usar cuadrados y que, por el contrario, usar diferencias absolutas tiene ventajas.

Referencias


1
Gracias @Jen, esto me recuerda la historia del teclado QWERTY. Oye, ¿por qué lleva tanto tiempo escribir QWERTY?
toto_tico

5

Porque los cuadrados pueden permitir el uso de muchas otras operaciones o funciones matemáticas más fácilmente que los valores absolutos.

Ejemplo: los cuadrados se pueden integrar, diferenciar, se pueden usar en funciones trigonométricas, logarítmicas y de otro tipo, con facilidad.


2
Me pregunto si hay una profecía autocumplida aquí. Obtenemos
chanceislogic

5

Al agregar variables aleatorias, se suman sus variaciones, para todas las distribuciones. La varianza (y, por lo tanto, la desviación estándar) es una medida útil para casi todas las distribuciones, y de ninguna manera se limita a las distribuciones gaussianas (también conocidas como "normales"). Eso favorece usarlo como nuestra medida de error. La falta de unicidad es un problema serio con diferencias absolutas, ya que a menudo hay un número infinito de "ajustes" de igual medida y, sin embargo, claramente el "uno en el medio" es el más realista. Además, incluso con las computadoras actuales, la eficiencia computacional es importante. Trabajo con grandes conjuntos de datos y el tiempo de CPU es importante. Sin embargo, no existe una única "mejor" medida absoluta de residuos, como se señala en algunas respuestas anteriores. Diferentes circunstancias a veces requieren diferentes medidas.


2
No estoy convencido de que las variaciones sean muy útiles para las distribuciones asimétricas.
Frank Harrell

¿Qué pasa con un par de "semi-varianzas", una hacia arriba y otra hacia abajo?
kjetil b halvorsen

3

Naturalmente, puede describir la dispersión de una distribución de cualquier manera significativa (desviación absoluta, cuantiles, etc.).

Un buen hecho es que la varianza es el segundo momento central, y cada distribución se describe de manera única por sus momentos si existen. Otro hecho interesante es que la varianza es mucho más manejable matemáticamente que cualquier métrica comparable. Otro hecho es que la varianza es uno de los dos parámetros de la distribución normal para la parametrización habitual, y la distribución normal solo tiene 2 momentos centrales distintos de cero, que son esos dos parámetros. Incluso para distribuciones no normales, puede ser útil pensar en un marco normal.

Tal como lo veo, la razón por la cual la desviación estándar existe como tal es que en las aplicaciones aparece regularmente la raíz cuadrada de la varianza (como para estandarizar una variable aleatoria), que necesitaba un nombre para ella.


1
Si recuerdo correctamente, ¿no es la distribución logarítmica normal no definida únicamente por sus momentos?
probabilityislogic

1
@probabilityislogic, de hecho, eso es cierto, ver en.wikipedia.org/wiki/Log-normal_distribution en la sección "Función característica y función generadora de momentos".
kjetil b halvorsen

1

Un enfoque diferente y quizás más intuitivo es cuando piensa en la regresión lineal frente a la regresión mediana.

Supongamos que nuestro modelo es que . Luego encontramos b minimizando el residuo cuadrado esperado, .E(y|x)=xββ=argminbE(yxb)2

Si, en cambio, nuestro modelo es la mediana , entonces encontramos nuestras estimaciones de parámetros minimizando los residuos absolutos ,.(y|x)=xββ=argminbE|yxb|

En otras palabras, si usar un error absoluto o cuadrado depende de si desea modelar el valor esperado o el valor medio.

Si la distribución, por ejemplo, muestra heterocedasticidad sesgada, entonces hay una gran diferencia en cómo la pendiente del valor esperado de cambios más de a cómo la pendiente es para la mediana valor de .yxy

Koenker y Hallock tienen un buen artículo sobre regresión cuantil, donde la regresión mediana es un caso especial: http://master272.com/finance/QR/QRJEP.pdf .


0

Mi suposición es esta: la mayoría de las poblaciones (distribuciones) tienden a congregarse alrededor de la media. Cuanto más lejos está un valor de la media, más raro es. Para expresar adecuadamente cuán "fuera de línea" es un valor, es necesario tener en cuenta su distancia de la media y su rareza (normalmente hablando). La cuadratura de la diferencia con respecto a la media hace esto, en comparación con los valores que tienen desviaciones más pequeñas. Una vez que se promedian todas las variaciones, está bien sacar la raíz cuadrada, que devuelve las unidades a sus dimensiones originales.


2
Esto no explica por qué no puedes simplemente tomar el valor absoluto de la diferencia. Esto parece conceptualmente más simple para la mayoría de las estadísticas de 101 estudiantes, y "tomaría en cuenta su distancia de la media y su rareza (normalmente hablando)".
gung

Creo que el valor absoluto de la diferencia solo expresaría la diferencia de la media y no tendría en cuenta el hecho de que las grandes diferencias son doblemente perjudiciales para una distribución normal.
Samuel Berry

2
¿Por qué es importante "doblemente disruptivo" y no, digamos, "triplemente disruptivo" o "cuádruple disruptivo"? Parece que esta respuesta simplemente reemplaza la pregunta original con una pregunta equivalente.
whuber

0

La cuadratura amplifica las desviaciones más grandes.

Si su muestra tiene valores en todo el gráfico, entonces para llevar el 68.2% dentro de la primera desviación estándar, su desviación estándar debe ser un poco más amplia. Si sus datos tienden a caer en torno a la media, entonces σ puede ser más estricto.

Algunos dicen que es para simplificar los cálculos. Usar la raíz cuadrada positiva del cuadrado habría resuelto eso para que el argumento no flote.

|x|=x2

Entonces, si la meta era la simplicidad algebraica, entonces se vería así:

σ=E[(xμ)2] que produce los mismos resultados que .E[|xμ|]

Obviamente, cuadrar esto también tiene el efecto de amplificar los errores periféricos (¡doh!).


Basado en una bandera que acabo de procesar, sospecho que el votante no entendió completamente cómo esta respuesta responde a la pregunta. Creo que veo la conexión (pero, sin embargo, podría considerar hacer algunas ediciones para ayudar a otros lectores a apreciar mejor sus puntos). Sin embargo, su primer párrafo me parece algo así como un argumento circular: el valor del 68.2% se deriva de las propiedades de la desviación estándar, entonces, ¿cómo la invocación de ese número ayuda a justificar el uso de la SD en lugar de alguna otra norma de desviaciones? de la media como una forma de cuantificar la propagación de una distribución? Lp
whuber

El primer párrafo fue la razón de mi voto negativo.
Alexis

3
@Preston Thayne: Dado que la desviación estándar no es el valor esperado de sqrt((x-mu)^2), su fórmula es engañosa. Además, el hecho de que la cuadratura tenga el efecto de amplificar las desviaciones más grandes no significa que esta sea la razón para preferir la variación sobre el MAD . En todo caso, esa es una propiedad neutral ya que muchas veces queremos algo más robusto como el MAD . Por último, el hecho de que la varianza sea ​​más manejable matemáticamente que el MAD es un problema matemático mucho más profundo que el que ha transmitido en esta publicación.
Steve S

0

¿Por qué cuadrar la diferencia en lugar de tomar el valor absoluto en la desviación estándar?

Cuadramos la diferencia de las x de la media porque la distancia euclidiana, proporcional a la raíz cuadrada de los grados de libertad (número de x, en una medida de población), es la mejor medida de dispersión.

Calcular distancia

¿Cuál es la distancia del punto 0 al punto 5?

  • 50=5 ,
  • |05|=5 y
  • 52=5

Ok, eso es trivial porque es una sola dimensión.

¿Qué tal la distancia para un punto en el punto 0, 0 al punto 3, 4?

Si solo podemos ir en 1 dimensión a la vez (como en bloques de ciudades), entonces solo sumamos los números. (Esto a veces se conoce como la distancia de Manhattan).

¿Pero qué hay de ir en dos dimensiones a la vez? Luego (según el teorema de Pitágoras que todos aprendimos en la escuela secundaria), cuadramos la distancia en cada dimensión, sumamos los cuadrados y luego tomamos la raíz cuadrada para encontrar la distancia desde el origen hasta el punto.

32+42=25=5

¿Qué tal la distancia desde un punto en 0, 0, 0 hasta el punto 1, 2, 2?

Esto es simplemente

12+22+22=9=3

porque la distancia para las dos primeras x forma la pata para calcular la distancia total con la x final.

x12+x222+x32=x12+x22+x32

Podemos continuar extendiendo la regla de cuadrar la distancia de cada dimensión, esto se generaliza a lo que llamamos una distancia euclidiana, para mediciones ortogonales en el espacio hiperdimensional, así:

distance=i=1nxi2

y entonces la suma de los cuadrados ortogonales es la distancia al cuadrado:

distance2=i=1nxi2

¿Qué hace que una medición sea ortogonal (o en ángulo recto) a otra? La condición es que no hay relación entre las dos mediciones. Buscaríamos que estas mediciones sean independientes y se distribuyan individualmente ( iid ).

Diferencia

Ahora recuerde la fórmula para la varianza de la población (de la cual obtendremos la desviación estándar):

σ2=i=1n(xiμ)2n

Si ya hemos centrado los datos en 0 restando la media, tenemos:

σ2=i=1n(xi)2n

Entonces, vemos que la varianza es solo la distancia al cuadrado dividida por el número de grados de libertad (el número de dimensiones en las que las variables pueden variar libremente). Esta es también la contribución promedio a la por medición. "Varianza cuadrática media" también sería un término apropiado.distance2

Desviación Estándar

Luego tenemos la desviación estándar, que es solo la raíz cuadrada de la varianza:

σ=i=1n(xiμ)2n

Lo que es equivalente, la distancia , dividida por la raíz cuadrada de los grados de libertad:

σ=i=1n(xi)2n

Desviación media absoluta

La desviación absoluta media (MAD), es una medida de dispersión que utiliza la distancia de Manhattan, o la suma de valores absolutos de las diferencias con respecto a la media.

MAD=i=1n|xiμ|n

Nuevamente, suponiendo que los datos estén centrados (la media restada) tenemos la distancia de Manhattan dividida por el número de mediciones:

MAD=i=1n|xi|n

Discusión

  • La desviación media absoluta es aproximadamente .8 veces (en realidad2/π ) el tamaño de la desviación estándar para un conjunto de datos distribuido normalmente.
  • Independientemente de la distribución, la desviación absoluta media es menor o igual que la desviación estándar. MAD subestima la dispersión de un conjunto de datos con valores extremos, en relación con la desviación estándar.
  • La desviación absoluta media es más robusta para los valores atípicos (es decir, los valores atípicos no tienen un efecto tan grande en la estadística como lo tienen en la desviación estándar).
  • Geométricamente hablando, si las mediciones no son ortogonales entre sí (iid), por ejemplo, si se correlacionan positivamente, la desviación absoluta media sería una mejor estadística descriptiva que la desviación estándar, que se basa en la distancia euclidiana (aunque esto generalmente se considera correcto) )

Esta tabla refleja la información anterior de una manera más concisa:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

Comentarios:

¿Tiene una referencia para "la desviación absoluta media es aproximadamente .8 veces el tamaño de la desviación estándar para un conjunto de datos distribuido normalmente"? Las simulaciones que estoy ejecutando muestran que esto es incorrecto.

Aquí hay 10 simulaciones de un millón de muestras de la distribución normal estándar:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Conclusión

Preferimos las diferencias al cuadrado al calcular una medida de dispersión porque podemos explotar la distancia euclidiana, lo que nos da una mejor estadística descriptiva de la dispersión. Cuando hay valores más extremos, la distancia euclidiana explica eso en la estadística, mientras que la distancia de Manhattan le da a cada medida el mismo peso.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.