Hay una generalización de diagramas de caja estándar que conozco en la que las longitudes de los bigotes se ajustan para tener en cuenta los datos asimétricos. Los detalles se explican mejor en un libro blanco muy claro y conciso (Vandervieren, E., Hubert, M. (2004) "Un diagrama de caja ajustado para distribuciones sesgadas", ver aquí ).
Hay una implementación de esto ( ), así como una implementación matlab (en una biblioteca llamada ).Rrobustbase::adjbox()libra
Personalmente, considero que es una mejor alternativa a la transformación de datos (aunque también se basa en una regla ad-hoc, consulte el documento técnico).
Por cierto, encuentro que tengo algo que agregar al ejemplo de Whuber aquí. En la medida en que estamos discutiendo el comportamiento de los bigotes, también deberíamos considerar lo que sucede al considerar los datos contaminados:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
En este modelo de contaminación, B1 tiene esencialmente una distribución logarítmica normal, salvo para el 20 por ciento de los datos que son valores atípicos a la mitad izquierda y mitad a la derecha (el punto de descomposición de adjbox es el mismo que el de los diagramas de caja normales, es decir, supone que, como máximo 25 por ciento de los datos pueden ser malos).
Los gráficos representan los gráficos de caja clásicos de los datos transformados (usando la transformación de raíz cuadrada)
y la gráfica de caja ajustada de los datos no transformados.
En comparación con los diagramas de caja ajustados, la opción anterior enmascara los valores atípicos reales y etiqueta los buenos datos como valores atípicos. En general, logrará ocultar cualquier evidencia de asimetría en los datos clasificando los puntos ofensivos como valores atípicos.
En este ejemplo, el enfoque de usar el diagrama de caja estándar en la raíz cuadrada de los datos encuentra 13 valores atípicos (todos a la derecha), mientras que el diagrama de caja ajustado encuentra 10 valores atípicos derechos y 14 izquierdos.
EDITAR: diagramas de caja ajustados en pocas palabras.
En diagramas de caja 'clásicos' los bigotes se colocan en:
Q1 -1.5 * IQR y + 1.5 * IQRQ3
donde IQR es el rango intercuartil, es el percentil 25 y es el percentil 75 de los datos. La regla general es considerar todo lo que está fuera de la cerca como datos dudosos (la cerca es el intervalo entre los dos bigotes).Q1Q3
Esta regla general es ad-hoc: la justificación es que si la parte no contaminada de los datos es aproximadamente gaussiana, entonces menos del 1% de los datos buenos se clasificarían como malos usando esta regla.
Una debilidad de esta regla de valla, como lo señala el OP, es que la longitud de los dos bigotes es idéntica, lo que significa que la regla de valla solo tiene sentido si la parte no contaminada de los datos tiene una distribución simétrica.
Un enfoque popular es preservar la regla de la cerca y adaptar los datos. La idea es transformar los datos utilizando alguna transformación monótona de corrección sesgada (raíz cuadrada o log o más generalmente transformaciones box-cox). Este es un enfoque un tanto desordenado: se basa en la lógica circular (la transformación debe elegirse para corregir la asimetría de la parte no contaminada de los datos, que en este momento no se puede observar) y tiende a dificultar la interpretación de los datos. visualmente. En cualquier caso, esto sigue siendo un procedimiento extraño por el cual uno cambia los datos para preservar lo que, después de todo, es una regla ad-hoc.
Una alternativa es dejar los datos intactos y cambiar la regla del bigote. El diagrama de caja ajustado permite que la longitud de cada bigote varíe de acuerdo con un índice que mide el sesgo de la parte no contaminada de los datos:
Q1 - 1.5 * IQR y + 1.5 * IQRexp(M,α)Q3exp(M,β)
Donde es un índice de asimetría de la parte no contaminada de los datos (es decir, así como la mediana es una medida de ubicación para la parte no contaminada de los datos o el MAD una medida de propagación para la parte no contaminada de los datos) y son números elegidos de tal manera que para distribuciones asimétricas no contaminadas, la probabilidad de estar fuera de la cerca es relativamente pequeña en una gran colección de distribuciones sesgadas (esta es la parte ad-hoc de la regla de la cerca).Mα β
Para los casos en que la buena parte de los datos es simétrica, y volvemos a los bigotes clásicos.M≈0
Los autores sugieren usar la pareja de medicamentos como un estimador de (ver referencia dentro del libro blanco) debido a su alta eficiencia (aunque en principio podría usarse cualquier índice de inclinación robusto). Con esta elección de , calcularon la y óptima empíricamente (usando una gran cantidad de distribuciones sesgadas) como:MMαβ
Q1 - 1.5 * IQR y + 1.5 * IQR, siexp(−4M)Q3exp(3M)M≥0
Q1 - 1.5 * IQR y + 1.5 * IQR, siexp(−3M)Q3exp(4M)M<0