Yo diría que con datos como estos realmente necesita mostrar resultados en una escala transformada. Ese es el primer imperativo y una cuestión más importante que precisamente cómo dibujar un diagrama de caja.
Pero me hago eco de Frank Harrell al instar a algo más informativo que un diagrama de caja mínimo, incluso con algunos puntos extremos identificados. Tienes suficiente espacio para mostrar mucha más información. Aquí hay uno de los muchos ejemplos, una caja híbrida y una gráfica cuantil. Al igual que en sus datos, se comparan dos grupos.
Tomaré estos dos puntos uno por uno y diré más.
Escala transformada
En el caso más simple, todos sus valores pueden ser positivos y luego debe intentar usar una escala logarítmica.
Si tiene ceros exactos, una escala de raíz cuadrada o raíz cúbica seguirá mejorando la asimetría extrema. Algunas personas están contentas con log (valor + constante), donde constante es más comúnmente 1, como una forma de lidiar con ceros.
Las implicaciones para las gráficas de caja de usar una escala transformada son sutiles.
Si usa la convención común de Tukey de mostrar individualmente todos los puntos más allá del cuartil superior + 1.5 IQR o el cuartil inferior - 1.5 IQR, entonces esos límites deberían calcularse en la escala transformada. Eso no es mismo que calcular esos límites en la escala original y luego transformarlos.
En cambio, apoyaría lo que parece ser una convención minoritaria de seleccionar cuantiles para los extremos de los bigotes. Una de varias ventajas de eso es que la transformación de cuantil = cuantil de transformación, al menos lo suficientemente cerca para fines gráficos en la mayoría de los casos. (La letra pequeña es cuando los cuantiles se calculan por interpolación lineal entre estadísticas de orden adyacentes).
Cleveland (1985) sugirió esta convención cuantil de manera bastante prominente. Para el registro, los gráficos de caja mejorados con cuadros a cuartiles, cuadros más delgados a octiles externos (12.5 y 87.5% puntos) y diagramas de datos de franjas fueron utilizados en geografía y climatología por (por ejemplo) Matthews (1936) y Grove (1956), bajo el nombre "diagramas de dispersión".
Más que parcelas
Las parcelas de cajas fueron reinventadas por Tukey alrededor de 1970 y promocionadas más visiblemente en su libro de 1977. Gran parte de su propósito era promover gráficos que pudieran dibujarse rápidamente con lápiz (cil) y papel en la exploración informal. También estaba sugiriendo formas de identificar posibles valores atípicos. Eso estuvo bien, pero ahora todos tenemos acceso a computadoras, no es difícil dibujar gráficos que muestren, si no todos los datos, al menos muchos más detalles. El papel de resumen de los gráficos de caja es valioso, pero un gráfico también puede mostrar la estructura fina, en caso de que sea interesante o importante. (Y lo que los investigadores piensan que no es interesante o sin importancia podría ser más sorprendente para sus lectores).
Hay mucho espacio para el desacuerdo cortés sobre exactamente lo que funciona mejor, pero las parcelas de cajas desnudas han sido bastante vendidas, en mi opinión.
Los usuarios de Stata pueden encontrar más información sobre el programa que dibujó la figura en esta publicación Statalist . Los usuarios de otro software no deberían encontrar dificultades para dibujar algo tan bueno o mejor (de lo contrario, ¿por qué usar ese software?).
Cleveland, WS 1985. Elementos de datos gráficos. Monterey, CA: Wadsworth.
Grove, AT 1956. Erosión del suelo en Nigeria. En Steel, RW y Fisher, CA (Eds)
Ensayos geográficos en tierras tropicales británicas. Londres: George Philip, 79-111.
Matthews, HA 1936. Una nueva visión de algunas lluvias indias familiares. Scottish Geographical Magazine 52: 84-97.
Tukey, JW 1977. Análisis exploratorio de datos. Lectura, MA: Addison-Wesley.