¿Cómo saber si mi distribución de datos es simétrica?


23

Sé que si la mediana y la media son aproximadamente iguales, entonces esto significa que hay una distribución simétrica, pero en este caso particular no estoy seguro. La media y la mediana son bastante cercanas (solo una diferencia de 0.487m / gall) lo que me llevaría a decir que hay una distribución simétrica, pero al observar el diagrama de caja, parece que está ligeramente sesgada (la mediana está más cerca de Q1 que de Q3 como se confirmó) por los valores).

(Estoy usando Minitab si tiene algún consejo específico para este software).


Comentario ortogonal sobre un detalle: ¿qué unidades son m / gall? Eso parece metros por galón, y estoy intrigado.
Nick Cox

¡Es una limitación seria aquí que los diagramas de cajas no suelen mostrar medios en absoluto!
Nick Cox

¿Cuál es la desviación estándar de sus datos? Si el valor de 0.487m / gall es mucho más pequeño que su desviación estándar, entonces probablemente tenga razones para creer que su distribución puede ser simétrica. Si ese valor es mucho mayor que su desviación estándar (o MAD o cualquier medida de desviación que mire), probablemente examinar más la simetría de distribución es una pérdida de tiempo.
usεr11852 dice Reinstate Monic el

1
-70,-63,-56,-49,-42,-35,-28,-21,-14,-7 7,0 0,1,4 4,9 9,dieciséis,25,36,49,64,81,100 es deliberadamente no simétrica (uniforme en la mitad inferior pero no en la mitad superior) y un diagrama de caja colocaría la mediana (igual a la media) más cerca del cuartil superior que el cuartil inferior pero también más cerca del mínimo que del máximo.
Henry

@NickCox también podría ser miligal con un error tipográfico. Eso sería casi 500 gal! O menos de g's. (Por supuesto, como se señaló anteriormente, sin alguna escala de dispersión como MAD, no hay forma de saber qué podría ser "significativo".)10 - 4μ10-4 4
GeoMatt22

Respuestas:


29

Sin duda le han dicho lo contrario, pero mean mediana no implica simetría.=

Hay una medida de asimetría basada en la media menos la mediana (la segunda asimetría de Pearson), pero puede ser 0 cuando la distribución no es simétrica (como cualquiera de las medidas de asimetría comunes).

Del mismo modo, la relación entre la media y la mediana no implica necesariamente una relación similar entre la articulación media ( ) y la mediana. Pueden sugerir sesgos opuestos, o uno puede ser igual a la mediana mientras que el otro no.(Q1+Q3)/ /2

Una forma de investigar la simetría es a través de un diagrama de simetría *.

Si son las observaciones ordenadas de menor a mayor (las estadísticas de orden), y es la mediana, entonces un diagrama de simetría traza vs , vs , ... y así sucesivamente. M Y ( n ) - M M - Y ( 1 ) Y ( n - 1 ) - M M - Y ( 2 )Y(1),Y(2),...,Y(norte)METROY(norte)-METROMETRO-Y(1)Y(norte-1)-METROMETRO-Y(2)

* Minitab puede hacer eso . De hecho, planteo esta trama como una posibilidad porque los he visto hacer en Minitab.

Aquí hay cuatro ejemplos:

Parcelas de simetría
Gráficos de simetría del tipo anterior para muestras de cuatro distribuciones

(Las distribuciones reales fueron (de izquierda a derecha, la fila superior primero) - Laplace, Gamma (forma = 0.8), beta (2,2) y beta (5,2). El código es de Ross Ihaka, de aquí )

Con ejemplos simétricos de cola gruesa, a menudo ocurre que los puntos más extremos pueden estar muy lejos de la línea; prestará menos atención a la distancia desde la línea de uno o dos puntos a medida que se acerca a la esquina superior derecha de la figura.

Por supuesto, hay otras tramas (mencioné la trama de simetría no desde un sentido particular de defensa de esa en particular, sino porque sabía que ya estaba implementada en Minitab). Así que exploremos algunos otros.

Aquí están los esqueletos correspondientes que Nick Cox sugirió en los comentarios:

Parcelas de sesgo
Parcelas de inclinación según lo sugerido por Nick Cox en los comentarios

En estas gráficas, una tendencia hacia arriba indicaría una cola derecha típicamente más pesada que la izquierda y una tendencia hacia abajo indicaría una cola izquierda típicamente más pesada que la derecha, mientras que la simetría sería sugerida por una gráfica relativamente plana (aunque quizás bastante ruidosa).

Nick sugiere que esta trama es mejor (específicamente "más directa"). Me inclino a estar de acuerdo; la interpretación de la gráfica parece un poco más fácil, aunque la información en las gráficas correspondientes a menudo es bastante similar (después de restar la pendiente de la unidad en el primer conjunto, obtienes algo muy parecido al segundo conjunto).

[Por supuesto, ninguna de estas cosas nos dirá que la distribución de la que se extrajeron los datos es realmente simétrica; obtenemos una indicación de cuán cercana a la simétrica es la muestra, y hasta ese punto podemos juzgar si los datos son razonablemente consistentes con la extracción de una población casi simétrica.]


3
@ user72943 Si está totalmente satisfecho con él, no olvide volver y seleccionar la respuesta de Glen_b. Es posible que desee esperar un poco para ver si alguien envía una mejor respuesta, pero Glen_b recibirá más crédito si acepta la respuesta.
Wayne

3
+1, pero una objeción. Encuentro una gráfica de (cuantil superior cuantil inferior) / 2 versus (cuantil superior cuantil inferior) más directa que la gráfica de simetría aquí. Para estadísticas de orden de lectura cuantil si así lo desea. La situación de referencia es una distribución simétrica en la que los promedios de cuantiles emparejados son todos iguales a la mediana, por lo que una distribución simétrica se representa como una línea recta. Las asimetrías leves y marcadas son fáciles de detectar, al igual que (p. Ej.) Simetría aproximada en el medio y excepciones marcadas en una o ambas colas. -+-
Nick Cox

66
+1 En EDA , John Tukey simplemente traza una secuencia de rangos medios. Estos son los valores para una secuencia de índices cuidadosamente elegida (aproximando , etc. ) En cierto modo, este gráfico es mejor que los gráficos de simetría en la medida en que filtra un exceso de detalles y ayuda al espectador a centrarse en cómo cambia la simetría (o la falta de ella) a medida que uno se mueve hacia la cola. Tiene el beneficio adicional de ser computable de manera inmediata y fácil una vez que se dispone de un resumen de n letras, que a su vez se puede leer directamente de un diagrama de tallo y hojas. (Y(norte+1-yo)+Y(yo))/ /2yonorte/ /2,norte/ /4 4,norte/ /8
whuber

1
@whuber y yo estamos hablando de la misma idea subyacente. La diferencia es entre trazar todas las estadísticas de orden emparejado (no en la práctica muy molesto) o trazar solo algunas.
Nick Cox

1
Referencias en stata-journal.com/sjpdf.html?articlenum=gr0003 y para usuarios de Stata en la documentación de skewplot(SSC). La idea se remonta al menos a una sugerencia atribuida a JW Tukey en Wilk, MB y Gnanadesikan, R. 1968. Métodos de trazado de probabilidad para el análisis de datos. Biometrika 55: 1-17.
Nick Cox

6

Lo más fácil es calcular el sesgo de la muestra . Hay una función en Minitab para eso. Las distribuciones simétricas tendrán un sesgo cero. La oblicuidad cero no significa necesariamente simétrica, pero en la mayoría de los casos prácticos sí.

Como señaló @NickCox, hay más de una definición de asimetría. Yo uso el que es compatible con Excel , pero puedes usar cualquier otro.


2
Creo que esto necesita explicarse. En particular, no existe tal cosa como "la asimetría". Hay muchas medidas e incluso las poco comunes suelen ser tan útiles o interesantes como las comunes (p. Ej., Momentos M). Aquellos tentados a considerar el tercer momento estandarizado como la medida (y también es mi defecto) deberían tener en cuenta que para Karl Pearson, y para muchos otros autores en el siglo XX, la asimetría se midió con mayor frecuencia en relación con el modo.
Nick Cox

Cualquier coeficiente de asimetría, además de carecer de mucha potencia para detectar asimetrías (como usted observa correctamente), también sufre de ser (extremadamente) no robusto, porque se basa en el tercer momento de muestreo. Además, dado que la simetría se puede violar de muchas (e interesantes) formas, una sola caracterización numérica de la simetría es un mal sustituto del diagnóstico gráfico más rico descrito en la literatura de análisis de datos exploratorios.
whuber

1

Centre sus datos alrededor de cero restando la media muestral. Ahora divida sus datos en dos partes, la negativa y la positiva. Tome el valor absoluto de los puntos de datos negativos. Ahora haga una prueba de Kolmogorov-Smirnov de dos muestras comparando las dos particiones entre sí. Haga su conclusión basada en el valor p.


0

Coloque sus observaciones ordenadas en valores crecientes en una columna, luego ordénelas en valores decrecientes en otra columna.
Luego calcule el coeficiente de correlación (llámelo Rm) entre estas dos columnas.
Calcule el índice quiral: CHI = (1 + Rm) / 2.
CHI toma valores en el intervalo [0..1].
CHI es nulo SI y SOLO SI su muestra está distribuida simétricamente.
No hay necesidad del tercer momento.
Teoría:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(la mayoría de los documentos citados en estas dos páginas no se pueden descargar en pdf)
Esperanza se ayuda, incluso últimamente.


¿No sería la correlación, Rm, necesariamente negativa? No veo cómo CHI podría ser 1 a menos que Rm fuera 1, pero dado que col1 se ordena aumentando y col2 se ordena disminuyendo, RM <= 0, lo que significa que CHI tomaría valores en [0, .5]. ¿Me estoy perdiendo de algo?
gung - Restablece a Monica

Sí, Rm no puede ser positivo y CHI no puede exceder 1/2 para distribuciones de variables aleatorias que toman valores en la línea real. De hecho, el límite superior 1 proviene de la teoría general que introduce el índice quiral. Tiene sentido para distribuciones de variables aleatorias que toman valores en un espacio más general. Esta teoría está fuera del alcance de la discusión actual, pero se presenta en las dos páginas web que mencioné anteriormente.
Petitjean

Registre y / o combine sus cuentas (puede encontrar información sobre cómo hacerlo en la sección Mi cuenta de nuestro centro de ayuda ), luego podrá editar y comentar su propia pregunta.
gung - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.