Una medida de asimetría se basa en la media media: el segundo coeficiente de asimetría de Pearson .
Otra medida de asimetría se basa en las diferencias relativas del cuartil (Q3-Q2) frente a (Q2-Q1) expresadas como una relación
Cuando (Q3-Q2) vs (Q2-Q1) se expresa en cambio como una diferencia (o equivalente a la mediana de la bisagra media), eso se debe escalar para hacerlo adimensional (como generalmente se necesita para una medida de asimetría), digamos por el IQR, como aquí (poniendo ).u = 0.25
La medida más común es, por supuesto , la asimetría del tercer momento .
No hay razón para que estas tres medidas sean necesariamente consistentes. Cualquiera de ellos podría ser diferente de los otros dos.
Lo que consideramos "asimetría" es un concepto algo resbaladizo y mal definido. Ver aquí para más discusión.
Si miramos sus datos con un qqplot normal:
[La línea marcada allí se basa solo en los primeros 6 puntos, porque quiero discutir la desviación de los dos últimos del patrón allí.]
Vemos que los 6 puntos más pequeños se encuentran casi perfectamente en la línea.
Luego, el séptimo punto está debajo de la línea (más cerca del centro relativamente que el segundo punto correspondiente desde el extremo izquierdo), mientras que el octavo punto se encuentra muy por encima.
El séptimo punto sugiere un sesgo izquierdo leve, el último, un sesgo derecho más fuerte. Si ignora cualquier punto, la impresión de asimetría está completamente determinada por el otro.
Si tuviera que decir que era uno u otro, lo llamaría "sesgo correcto", pero también señalaría que la impresión se debió por completo al efecto de ese gran punto. Sin él, realmente no hay nada que decir que está bien sesgado. (Por otro lado, sin el séptimo punto, claramente no está sesgado).
Debemos tener mucho cuidado cuando nuestra impresión está completamente determinada por puntos únicos, y se puede voltear quitando un punto. ¡Esa no es una buena base para seguir!
Comienzo con la premisa de que lo que hace que un "out Outlier" sea el modelo (lo que es un outlier con respeto en un modelo puede ser bastante típico en otro modelo).
Creo que una observación en el percentil superior 0.01 (1/10000) de una normal (3.72 sds por encima de la media) es igualmente un valor atípico para el modelo normal como una observación en el percentil superior 0.01 de una distribución exponencial para el modelo exponencial. (Si transformamos una distribución por su propia transformación integral de probabilidad, cada uno irá al mismo uniforme)
Para ver el problema de aplicar la regla de diagrama de caja incluso a una distribución sesgada moderadamente correcta, simule muestras grandes de una distribución exponencial.
Por ejemplo, si simulamos muestras de tamaño 100 de una normal, promediamos menos de 1 valor atípico por muestra. Si lo hacemos con un exponencial, promediamos alrededor de 5. Pero no hay una base real sobre la cual decir que una mayor proporción de valores exponenciales son "periféricos" a menos que lo hagamos en comparación con (digamos) un modelo normal. En situaciones particulares, podríamos tener razones específicas para tener una regla atípica de alguna forma particular, pero no hay una regla general, que nos deja con principios generales como el que comencé en esta subsección: tratar cada modelo / distribución con sus propias luces (si un valor no es inusual con respecto a un modelo, ¿por qué llamarlo un valor atípico en esa situación?)
Para pasar a la pregunta en el título :
Si bien es un instrumento bastante burdo (es por eso que miré el diagrama QQ), hay varias indicaciones de asimetría en un diagrama de caja: si hay al menos un punto marcado como atípico, hay potencialmente (al menos) tres:
En esta muestra (n = 100), los puntos externos (verde) marcan los extremos, y con la mediana sugieren sesgo izquierdo. Luego, las cercas (azul) sugieren (cuando se combinan con la mediana) sugieren un sesgo correcto. Luego, las bisagras (cuartiles, marrones), sugieren sesgo izquierdo cuando se combinan con la mediana.
Como vemos, no necesitan ser consistentes. En qué se centraría depende de la situación en la que se encuentre (y posiblemente de sus preferencias).
Sin embargo, una advertencia sobre cuán tosca es la gráfica de caja. El ejemplo hacia el final aquí , que incluye una descripción de cómo generar los datos, ofrece cuatro distribuciones bastante diferentes con el mismo diagrama de caja:
Como puede ver, hay una distribución bastante sesgada con todos los indicadores de asimetría mencionados anteriormente que muestran una simetría perfecta.
-
Tomemos esto desde el punto de vista "¿qué respuesta esperaba su maestro, dado que este es un diagrama de caja, que marca un punto como un valor atípico?".
Nos queda primero responder "¿esperan que evalúes la asimetría excluyendo ese punto, o con él en la muestra?". Algunos lo excluirían y evaluarían la asimetría de lo que queda, como lo hizo jsk en otra respuesta. Si bien he disputado aspectos de ese enfoque, no puedo decir que esté mal, eso depende de la situación. Algunos lo incluirían (sobre todo porque excluir el 12.5% de su muestra debido a una regla derivada de la normalidad parece un gran paso *).
* Imagine una distribución de la población que es simétrica, excepto por la cola del extremo derecho (construí una de ellas para responder esto, normal pero con la cola del extremo derecho como Pareto, pero no la presenté en mi respuesta). Si saco muestras de tamaño 8, a menudo 7 de las observaciones provienen de la parte de aspecto normal y una proviene de la cola superior. Si excluimos los puntos marcados como outliers de diagrama de caja en ese caso, estamos excluyendo el punto que nos dice que en realidad está sesgado. Cuando lo hacemos, la distribución truncada que permanece en esa situación es sesgada a la izquierda, y nuestra conclusión sería la opuesta a la correcta.