¿Cuáles son las alternativas a los ejes rotos?

28

Los usuarios suelen verse tentados a romper los valores del eje para presentar datos de diferentes órdenes de magnitud en el mismo gráfico (ver aquí ). Si bien esto puede ser conveniente, no siempre es la forma preferida de mostrar los datos (puede ser engañoso en el mejor de los casos). ¿Cuáles son las formas alternativas de mostrar los datos que son diferentes en varios órdenes de magnitud?

Puedo pensar en dos formas, para transformar los datos mediante log o usar gráficos de red. ¿Cuáles son otras opciones?

data-visualization logarithm

— Roman Luštrik
fuente

1

Esas guías de Excel se ven bastante espeluznantes ...

55

¿Te imaginas cómo se ve un tutorial sobre R para una persona que nunca ha visto una línea de código en su vida? :)

— Roman Luštrik

3

Ok, pero también puedo imaginar a todas esas personas dibujando manualmente docenas de saltos de barra en Excel y creyendo que es una forma única (y por lo tanto más fácil y rápida) de hacer esto. O personas que pasan horas tratando de unificar el formato en un gran documento de Word.

1

"Padre, perdónalos, porque no saben lo que están haciendo". me viene a la mente. :)

— Roman Luštrik

3

Banda oficial de stats.stackexchange.com: The Broken Axes.

— Matt Parker el

17

Tengo mucho cuidado con el uso de ejes logarítmicos en gráficos de barras . El problema es que debe elegir un punto de partida del eje, y esto casi siempre es arbitrario. Puede optar por hacer que dos barras tengan alturas muy diferentes, o casi la misma altura, simplemente cambiando el valor mínimo en el eje. Estos tres gráficos trazan todos los mismos datos: texto alternativo

Una alternativa a los ejes discontinuos, que nadie ha mencionado todavía, es simplemente mostrar una tabla de valores. En muchos casos, las tablas son más fáciles de entender que los gráficos.

— Harvey Motulsky
fuente

3

Esos gráficos se ven muy engañosos también porque no tienes barras de error en ellos. Si agrega barras de error, la diferencia se verá menos sustancial. O puede usar diagramas de caja y bigotes que evitan principalmente este tipo de problemas.

— nico

55

En mi humilde opinión, el origen es un problema de los gráficos de barras, y no tiene nada que ver con el logaritmo. Puede alcanzar la misma impresión engañosa con ejes lineales.

— cbeleites apoya a Monica el

@cbeleites. Sí, puede crear gráficos de barras engañosos con un eje lineal cambiando la línea de base. Pero con un eje lineal, la línea de base natural es cero. Con los ejes logarítmicos, en la mayoría de los contextos, no existe una línea de base natural.

— Harvey Motulsky

@ HarveyMotulsky: Ruego no estar de acuerdo. Existe toda una clase de datos que está bien descrita por los ejes de registro y que tiene una línea de base natural: cambios multiplicativos / razones. En su ejemplo, tal vez la señal tratada sea 15 veces la señal de control. Si esa suposición tiene sentido para la aplicación, tiene una línea de base "natural" para el registro. Si no, ¿quizás otra transformación sea más sensata?

— cbeleites apoya a Monica el

1

@cbeleites Estoy de acuerdo en que si la variable es una relación, entonces 1.0 es una línea de base natural, entonces mostrarla en una escala logarítmica tiene sentido.

— Harvey Motulsky

11

Algunas ideas adicionales:

(1) No necesita limitarse a una transformación logarítmica. Busque en este sitio la etiqueta "transformación de datos", por ejemplo. Algunos datos se prestan bien a ciertas transformaciones como una raíz o un logit. (Tales transformaciones, incluso los registros, generalmente se deben evitar al publicar gráficos para una audiencia no técnica. Por otro lado, pueden ser excelentes herramientas para ver patrones en los datos).

(2) Puede tomar prestada una técnica cartográfica estándar para insertar un detalle de un gráfico dentro o al lado de su gráfico. Específicamente, trazaría los valores extremos por sí mismos en un gráfico y todos (o el) resto de los datos en otro con un rango de eje más limitado, luego organizaría gráficamente los dos junto con las indicaciones (visuales y / o escritas) de la relación entre ellos. Piense en un mapa de los EE. UU. En el que Alaska y Hawai se insertan a diferentes escalas. (Esto no funcionará con todo tipo de gráficos, pero podría ser efectivo con los gráficos de barras en su ilustración). [Veo que esto es similar a la respuesta reciente de mbq.]

(3) Puede mostrar la trama rota de lado a lado con la misma trama en ejes sin romper.

(4) En el caso de su ejemplo de gráfico de barras, elija un eje vertical adecuado (quizás muy estirado) y proporcione una utilidad de desplazamiento. [Esto es más un truco que una técnica realmente útil, en mi humilde opinión, pero podría ser útil en algunos casos especiales.]

(5) Seleccione un esquema diferente para mostrar los datos. En lugar de un gráfico de barras que usa la longitud para representar valores, elija un gráfico en el que las áreas de símbolos representen los valores, por ejemplo. [Obviamente, las compensaciones están involucradas aquí.]

Su elección de técnica probablemente dependerá del propósito de la trama: las tramas creadas para la exploración de datos a menudo difieren de las tramas para audiencias generales, por ejemplo.

— whuber
fuente

8

Tal vez se pueda clasificar como enrejado, pero lo intentaré; trace todas las barras escaladas al máximo en un panel y coloque otro panel que muestre el zoom en las inferiores. Utilicé esta técnica una vez en el caso de un diagrama de dispersión, y el resultado fue bastante bueno.

8

Separaría el problema de los ejes de registro del problema de los gráficos de barras.

$A = lg I_0 - lg I$ $I_0$

Los gráficos de barras nunca pueden ser sensibles si no hay un origen sensible y fijo que tome el papel de un control (línea de base, en blanco). Pero esto no tiene nada que ver con los ejes de registro.
El único uso regular que tengo para los gráficos de barras son los histogramas. Pero me imagino que hacen bien en mostrar la diferencia a este origen (también se ve de inmediato si la diferencia es positiva o negativa). Debido a que las barras representan un área, tiendo a pensar en los gráficos de barras como una versión muy discreta del área bajo una curva. Es decir, el eje x debe tener un significado métrico (que puede ser el caso con el tiempo, pero no con las ciudades).

Si me preguntara qué origen usar para el registro de algo que tenía un origen "natural" en 0, retrocedería y pensaría un poco en lo que está sucediendo. Muy a menudo, estos problemas son solo un indicador de que el registro no es una transformación sensible aquí.

Ahora, un gráfico de barras con ejes de registro enfatizaría los aumentos o disminuciones que ocurren en múltiplos. Ejemplos razonables en los que puedo pensar ahora tienen una relación lineal con un valor de interés. Pero tal vez alguien más encuentre un buen ejemplo.

Así que creo que la transformación de datos debería ser sensata con respecto al significado de los datos disponibles. Este es el caso de las unidades fisicoquímicas que mencioné anteriormente (A es proporcional a las concentraciones y el pH tiene, por ejemplo, una relación lineal con el voltaje en un medidor de pH). De hecho, es el caso, que la unidad de registro recibe un nuevo nombre y se utiliza de forma lineal.

Por último, pero no menos importante, vengo de la espectroscopia vibracional, donde los ejes rotos se usan con bastante frecuencia. Y considero que este uso es uno de los pocos ejemplos en los que la ruptura de los ejes no es engañosa. Sin embargo, no tenemos cambios en el orden de magnitud. Solo tenemos una región no informativa de 30 - 40% de nuestro rango x: Aquí hay un ejemplo: espectro para esta muestra, la parte entre 1800 - 2800 / cm no puede contener ninguna información útil.
Por lo tanto, se elimina el rango espectral no informativo (que también indica los rangos espectrales que realmente utilizamos para el modelado quimiométrico): espectro parte no informativa eliminada

Pero para la interpretación de los datos, necesitamos lecturas precisas de la posición x. Pero generalmente no necesitamos múltiplos que abarquen los diferentes rangos (es decir, existen tales relaciones, pero la mayoría de las conexiones son más complicadas. Por ejemplo: señal a 3050 / cm, por lo que tenemos una sustancia insaturada o aromática. Pero no hay una señal fuerte a 1000 / cm , así que no hay anillo aromático mono, meta ni 1,3,5 sustituido ...)
Por lo tanto, es mejor representar x con una escala más grande (en realidad, a menudo usamos guías en forma de hoja milimétrica o etiquetamos las ubicaciones exactas). Entonces, rompemos el eje y obtenemos una escala x más grande: espectro - eje roto

En realidad, es muy parecido a las facetas: versión facetada
pero el eje roto en mi humilde opinión hace hincapié en que la escala del eje x en ambas partes es la misma. Es decir, los intervalos dentro de las regiones trazadas son iguales.

Para enfatizar pequeñas intensidades (eje y), utilizamos inserciones ampliadas:
ingrese la descripción de la imagen aquí
[ ... Para más detalles, vea la región ampliada (x 20) νCH en azul ... ]

Y esto ciertamente es posible con el ejemplo en las parcelas vinculadas también.

— cbeleites apoya a Monica
fuente

2

Dos ideas a las que se aludió, pero que no se describieron explícitamente cuando miré las excelentes respuestas y comentarios, fueron que está utilizando un gráfico de barras "de manera inconsistente con el etiquetado" y datos normalizados / adimensionales.

Tipo de parcela:

El gráfico de estilo estrella / araña / radar (enlace) (enlace) a menudo es muy bueno para comparar varias cosas diferentes a lo largo de múltiples coordenadas. Hay una serie de tramas muy útiles que (lamentablemente) son raras en las presentaciones de negocios, probablemente porque el liderazgo prefiere usar conclusiones para tomar decisiones en lugar de usar información para obtener comprensión y luego usar la comprensión para tomar las decisiones. En los negocios, a veces es muy difícil llegar a un consenso y, por lo tanto, el enfoque de solo resultados puede tener un mayor rendimiento en un entorno de consenso primero y decisión posterior. Esto informa la popularidad del gráfico de barras / columnas. Considere los ejemplos de otros tipos de gráficos que son buenos para obtener comprensión (enlace) .

Transformación:

Si divide los valores que está trazando por un valor "característico", puede transformar la escala para mejorar la legibilidad sin perder información. Los dinámicos de fluidos prefieren números adimensionales debido a su utilidad predictiva y su elasticidad en la aplicación. Consideran cosas como el teorema de Buckingham Pi como fuentes de formas adimensionales candidatas (enlace) . Los números adimensionales populares y útiles incluyen el número de Reynolds, el número de Mach, el número de Biot, el número de Grashof, el número de Pi, el número de Raleigh, el número de Stokes y el número de Sherwood. (enlazar) No tiene que ser un físico para amar los números adimensionales porque son útiles en aplicaciones no físicas. Medidas como la densidad, homogeneidad, circularidad y coplanaridad pueden definir imágenes, campos de píxeles o distribuciones de probabilidad multivariadas. No solo considere tomar un logaritmo, o una distancia relativa de un valor conocido; también puede considerar invertir los números, tomando sus raíces cuadradas.

La mejor de las suertes. Por favor, háganos saber cómo resultan las cosas.

— EngrStudent - Restablece a Monica
fuente

1

La mayoría de las autoridades de visualización de datos se oponen firmemente al uso de cartas de radar. Son difíciles de interpretar. Una alternativa mucho mejor es un gráfico de coordenadas paralelas .

— Jon Peltier

@ JonPeltier: estoy de acuerdo, pero Excel no tenía (en el momento en que respondí) una forma limpia de hacer un gráfico de coordenadas paralelas, por lo que es probable que su audiencia tenga muchas dificultades para comprender.

— EngrStudent - Restablece a Monica

1

La solución de eje roto funciona mejor cuando hay una ruptura clara a través del gráfico y la ordenada está etiquetada para que el espacio sea obvio. La ventaja de esto es que la escala se conserva en los dos conjuntos de valores. Las parcelas de paneles con diferentes escalas pueden no transmitir la variación relativa dentro de los grupos bajo y alto. Me gusta la idea del gráfico de acercamiento, que programé para diagramas de dispersión pero que no había pensado en usar para diagramas de barras.

— user4983
fuente