¿Cómo evaluar la asimetría de un diagrama de caja?

Cómo decidir la asimetría observando un diagrama de caja construido a partir de estos datos:

340, 300, 520, 340, 320, 290, 260, 330

Un libro dice: "Si el cuartil inferior está más alejado de la mediana que el cuartil superior, entonces la distribución está sesgada negativamente". Varias otras fuentes dijeron más o menos lo mismo.

Construí un diagrama de caja usando R. Es como lo siguiente:

diagrama de caja

Supongo que está sesgada negativamente , porque el cuartil inferior está más alejado de la mediana que el cuartil superior. Pero el problema es cuando uso otro método para determinar la asimetría:

media (337.5)> mediana (325)

Esto indica que los datos están sesgados positivamente . ¿Me he perdido algo?

outliers skewness boxplot

— JerryW
fuente

Respuestas:

Una medida de asimetría se basa en la media media: el segundo coeficiente de asimetría de Pearson .

Otra medida de asimetría se basa en las diferencias relativas del cuartil (Q3-Q2) frente a (Q2-Q1) expresadas como una relación

Cuando (Q3-Q2) vs (Q2-Q1) se expresa en cambio como una diferencia (o equivalente a la mediana de la bisagra media), eso se debe escalar para hacerlo adimensional (como generalmente se necesita para una medida de asimetría), digamos por el IQR, como aquí (poniendo ). $u=0.25$

La medida más común es, por supuesto , la asimetría del tercer momento .

No hay razón para que estas tres medidas sean necesariamente consistentes. Cualquiera de ellos podría ser diferente de los otros dos.

Lo que consideramos "asimetría" es un concepto algo resbaladizo y mal definido. Ver aquí para más discusión.

Si miramos sus datos con un qqplot normal:

ingrese la descripción de la imagen aquí

[La línea marcada allí se basa solo en los primeros 6 puntos, porque quiero discutir la desviación de los dos últimos del patrón allí.]

Vemos que los 6 puntos más pequeños se encuentran casi perfectamente en la línea.

Luego, el séptimo punto está debajo de la línea (más cerca del centro relativamente que el segundo punto correspondiente desde el extremo izquierdo), mientras que el octavo punto se encuentra muy por encima.

El séptimo punto sugiere un sesgo izquierdo leve, el último, un sesgo derecho más fuerte. Si ignora cualquier punto, la impresión de asimetría está completamente determinada por el otro.

Si tuviera que decir que era uno u otro, lo llamaría "sesgo correcto", pero también señalaría que la impresión se debió por completo al efecto de ese gran punto. Sin él, realmente no hay nada que decir que está bien sesgado. (Por otro lado, sin el séptimo punto, claramente no está sesgado).

Debemos tener mucho cuidado cuando nuestra impresión está completamente determinada por puntos únicos, y se puede voltear quitando un punto. ¡Esa no es una buena base para seguir!

Comienzo con la premisa de que lo que hace que un "out Outlier" sea el modelo (lo que es un outlier con respeto en un modelo puede ser bastante típico en otro modelo).

Creo que una observación en el percentil superior 0.01 (1/10000) de una normal (3.72 sds por encima de la media) es igualmente un valor atípico para el modelo normal como una observación en el percentil superior 0.01 de una distribución exponencial para el modelo exponencial. (Si transformamos una distribución por su propia transformación integral de probabilidad, cada uno irá al mismo uniforme)

Para ver el problema de aplicar la regla de diagrama de caja incluso a una distribución sesgada moderadamente correcta, simule muestras grandes de una distribución exponencial.

Por ejemplo, si simulamos muestras de tamaño 100 de una normal, promediamos menos de 1 valor atípico por muestra. Si lo hacemos con un exponencial, promediamos alrededor de 5. Pero no hay una base real sobre la cual decir que una mayor proporción de valores exponenciales son "periféricos" a menos que lo hagamos en comparación con (digamos) un modelo normal. En situaciones particulares, podríamos tener razones específicas para tener una regla atípica de alguna forma particular, pero no hay una regla general, que nos deja con principios generales como el que comencé en esta subsección: tratar cada modelo / distribución con sus propias luces (si un valor no es inusual con respecto a un modelo, ¿por qué llamarlo un valor atípico en esa situación?)

Para pasar a la pregunta en el título :

Si bien es un instrumento bastante burdo (es por eso que miré el diagrama QQ), hay varias indicaciones de asimetría en un diagrama de caja: si hay al menos un punto marcado como atípico, hay potencialmente (al menos) tres:

ingrese la descripción de la imagen aquí

En esta muestra (n = 100), los puntos externos (verde) marcan los extremos, y con la mediana sugieren sesgo izquierdo. Luego, las cercas (azul) sugieren (cuando se combinan con la mediana) sugieren un sesgo correcto. Luego, las bisagras (cuartiles, marrones), sugieren sesgo izquierdo cuando se combinan con la mediana.

Como vemos, no necesitan ser consistentes. En qué se centraría depende de la situación en la que se encuentre (y posiblemente de sus preferencias).

Sin embargo, una advertencia sobre cuán tosca es la gráfica de caja. El ejemplo hacia el final aquí , que incluye una descripción de cómo generar los datos, ofrece cuatro distribuciones bastante diferentes con el mismo diagrama de caja:

ingrese la descripción de la imagen aquí

Como puede ver, hay una distribución bastante sesgada con todos los indicadores de asimetría mencionados anteriormente que muestran una simetría perfecta.

Tomemos esto desde el punto de vista "¿qué respuesta esperaba su maestro, dado que este es un diagrama de caja, que marca un punto como un valor atípico?".

Nos queda primero responder "¿esperan que evalúes la asimetría excluyendo ese punto, o con él en la muestra?". Algunos lo excluirían y evaluarían la asimetría de lo que queda, como lo hizo jsk en otra respuesta. Si bien he disputado aspectos de ese enfoque, no puedo decir que esté mal, eso depende de la situación. Algunos lo incluirían (sobre todo porque excluir el 12.5% de su muestra debido a una regla derivada de la normalidad parece un gran paso *).

* Imagine una distribución de la población que es simétrica, excepto por la cola del extremo derecho (construí una de ellas para responder esto, normal pero con la cola del extremo derecho como Pareto, pero no la presenté en mi respuesta). Si saco muestras de tamaño 8, a menudo 7 de las observaciones provienen de la parte de aspecto normal y una proviene de la cola superior. Si excluimos los puntos marcados como outliers de diagrama de caja en ese caso, estamos excluyendo el punto que nos dice que en realidad está sesgado. Cuando lo hacemos, la distribución truncada que permanece en esa situación es sesgada a la izquierda, y nuestra conclusión sería la opuesta a la correcta.

— Glen_b -Reinstate a Monica
fuente

@jsk Eso depende de cómo quieras medir la asimetría. Dado que el grado de asimetría está determinado en parte por los puntos periféricos (una tendencia a ser más periférico en una dirección que en otra), eliminarlos podría pasar por alto el punto de medir el sesgo. Una discusión y análisis más detallado está en mi publicación actualizada. Si no está convencido, no dude en estar en desacuerdo, tales intercambios a menudo son valiosos.

— Glen_b -Reinstale a Monica

@Glen_b Aunque ciertamente respeto y entiendo la postura que está tomando, creo que hay un argumento razonable para juzgar sesgo después de eliminar el valor atípico en lugar de antes. Después de eliminar el valor atípico, la distribución aún se sesgará negativamente después de eliminar el séptimo punto (260). ¿Revisó qqplot y / o comparó la media y la mediana?

— jsk

Quizás el caso es bastante débil después de eliminar el séptimo, pero no veo ninguna razón para justificar juzgar el sesgo después de eliminarlo. No es un caso atípico, aunque el punto es que las medidas de sesgo, no importa cómo se miren en este caso, se basan en puntos únicos.

— jsk

@Glen_ b Q3 + 1.5IQR es la regla general típica que se enseña en este nivel para identificar valores atípicos en la cola superior. Si eliminarlos o no es otra cuestión. ¿Está argumentando que la distribución está sesgada porque la media es mayor? ¿Por qué ignorar el hecho de que Q1 está más lejos de Q2 que Q3?

— jsk

Quiero explicar lo que está cerca de la superficie aquí, pero no del todo: a menudo, los diagramas de caja se condensan demasiado, por lo que es posible que también necesite ver todos los datos.

— Nick Cox

No, no te perdiste nada: en realidad estás viendo más allá de los resúmenes simplistas que se presentaron. Estos datos están sesgados tanto positiva como negativamente (en el sentido de "asimetría" que sugiere alguna forma de asimetría en la distribución de datos).

John Tukey describió una forma sistemática de explorar la asimetría en lotes de datos por medio de su "resumen de números N". Un diagrama de caja es un gráfico de un resumen de 5 números y, por lo tanto, es susceptible de este análisis.

Un diagrama de caja muestra un resumen de 5 números: la mediana , las dos bisagras y , y los extremos y . La idea clave en el enfoque generalizado de Tukey es elegir algunas estadísticas reflejen la mitad superior del lote (en función de los rangos o, de manera equivalente, percentiles), con un aumento de correspondiente a datos más extremos. Cada estadística tiene una contraparte $M$ $H^{+}$ $H^{-}$ $X^{+}$ $X^{-}$ $T_i^{+}$ $i$ $T_i^{+}$ $T_i^{-}$ obtenido al calcular la misma estadística después de poner los datos al revés (negando los valores, por ejemplo). En un lote simétrico, cada par de estadísticas coincidentes debe estar centrado en el medio del lote (y este centro coincidirá con ). Por lo tanto, una gráfica de cuánto varía la estadística con proporciona un diagnóstico gráfico y puede proporcionar una estimación cuantitativa de la asimetría. $M = M^{+}=M^{-}$ $(T_i^{+} + T_i^{-})/2$ $i$

Para aplicar esta idea a un diagrama de caja, solo dibuje los puntos medios de cada par de partes correspondientes: la mediana (que ya está allí), el punto medio de las bisagras (extremos del cuadro, que se muestra en azul) y el punto medio de los extremos (se muestra en rojo).

Diagrama de caja

En este ejemplo, la menor valor de la mitad de bisagra en comparación con la mediana indica el medio de la hornada es ligeramente negativamente sesgada (corroborando de este modo la evaluación citada en la pregunta, mientras que al mismo tiempo adecuadamente limitar su alcance a la mitad del lote ) mientras que el valor (mucho) más alto del extremo medio indica que las colas del lote (o al menos sus extremos) están sesgadas positivamente (aunque, en una inspección más cercana, esto se debe a un solo valor atípico alto). Aunque este es casi un ejemplo trivial, la riqueza relativa de esta interpretación en comparación con una sola estadística de "asimetría" ya revela el poder descriptivo de este enfoque.

Con una pequeña cantidad de práctica, no tiene que dibujar estas estadísticas intermedias: puede imaginar dónde están y leer la información de asimetría resultante directamente de cualquier diagrama de caja.

Un ejemplo del EDA de Tukey (p. 81) utiliza un resumen de nueve números de alturas de 219 volcanes (expresado en cientos de pies). Él llama a estas estadísticas , , , y : corresponden (aproximadamente) a los cuartiles medio, superior e inferior, octavos, dieciseisavos y extremos, respectivamente. Los he indexado en este orden por . La gráfica de la izquierda en la siguiente figura es la gráfica de diagnóstico para los puntos medios de estas estadísticas emparejadas. Desde la pendiente de aceleración, está claro que los datos se vuelven cada vez más sesgados a medida que nos acercamos a ellos. $M$ $H$ $E$ $D$ $X$ $i=1, 2, 3, 4, 5$

Figura 2

Las parcelas medias y derechas muestran lo mismo para las raíces cuadradas (¡de los datos, no de las estadísticas de números medios!) Y los logaritmos (base-10). La estabilidad relativa de los valores de las raíces (observe el rango vertical relativamente pequeño y el nivel inclinado en el medio) indica que este lote de 219 valores se vuelve aproximadamente simétrico tanto en sus porciones medias como en todas las partes de sus colas, casi hasta los extremos cuando las alturas se vuelven a expresar como raíces cuadradas. Este resultado es una base sólida, casi convincente, para continuar el análisis de estas alturas en términos de sus raíces cuadradas.

Entre otras cosas, estas gráficas revelan algo cuantitativo acerca de la asimetría de los datos: en la escala original, revelan inmediatamente la asimetría variable de los datos (arrojando dudas considerables sobre la utilidad de usar una estadística única para caracterizar su asimetría), mientras que en En la escala de raíz cuadrada, los datos son casi simétricos con respecto a su centro y, por lo tanto, se pueden resumir sucintamente con un resumen de cinco números o, de manera equivalente, un diagrama de caja. La asimetría nuevamente varía apreciablemente en una escala logarítmica, lo que muestra que el logaritmo es una forma demasiado "fuerte" de volver a expresar estos datos.

La generalización de un diagrama de caja a resúmenes de siete, nueve y más números es fácil de dibujar. Tukey los llama "tramas esquemáticas". Hoy en día, muchas parcelas tienen un propósito similar, incluyendo reservas como parcelas QQ y novedades relativas como "parcelas de frijoles" y "parcelas de violín". (Incluso el humilde histograma puede ponerse en servicio para este propósito). Usando puntos de tales gráficos, uno puede evaluar la asimetría de manera detallada y realizar una evaluación similar de formas de volver a expresar los datos.

— whuber
fuente

La media de ser menor o mayor que la mediana es un atajo que a menudo funciona para determinar la dirección del sesgo siempre que no haya valores atípicos. En este caso, la distribución está sesgada negativamente pero la media es mayor que la mediana debido al valor atípico.

— jsk
fuente

Eso explica. ¡Los libros que leí no mencionaron esto en absoluto!

— JerryW

¡Esperemos que los libros al menos mencionen cómo la media es mucho menos resistente a los valores atípicos que la mediana!

— jsk

Si eso cuenta como sesgo negativo depende de cómo se mida el sesgo.

— Glen_b -Reinstate a Monica

Lo suficientemente justo. Es un pequeño conjunto de datos que hace que sea especialmente difícil juzgar la asimetría. Supongo que desafortunadamente este ejemplo fue arrojado allí solo por la razón de tener reglas

— generales

Estoy de acuerdo en que pequeños conjuntos de datos como este pueden hacer que sea un desafío, pero es perfectamente posible construir distribuciones continuas que son igualmente desafiantes.

— Glen_b: reinstala a Monica