¿Cuál es una buena forma de representar gráficamente una gran cantidad de puntos de datos emparejados?


9

En mi campo, la forma habitual de graficar datos emparejados es como una serie de segmentos de línea delgada y delgada, superpuestos con la mediana y el IC de la mediana para los dos grupos:

ingrese la descripción de la imagen aquí

Sin embargo, este tipo de gráfico se vuelve mucho más difícil de leer a medida que aumenta el número de puntos de datos (en mi caso tengo del orden de 10000 pares):

ingrese la descripción de la imagen aquí

Reducir el alfa ayuda un poco, pero aún no es genial. Mientras buscaba una solución, me encontré con este documento y decidí intentar implementar un 'diagrama de línea paralela'. Nuevamente, funciona muy bien para pequeños números de puntos de datos:

ingrese la descripción de la imagen aquí

Pero es aún más difícil hacer que este tipo de trama se vea bien cuando el norte es muy grande:

ingrese la descripción de la imagen aquí

Supongo que podría mostrar por separado las distribuciones para los dos grupos, por ejemplo, con diagramas de caja o violines, y trazar una línea con barras de error en la parte superior que muestre las dos medianas / CI, pero realmente no me gusta esa idea, ya que no transmitiría La naturaleza pareada de los datos.

Tampoco estoy demasiado interesado en la idea de un diagrama de dispersión 2D: preferiría una representación más compacta, e idealmente una en la que los valores para los dos grupos se tracen a lo largo del mismo eje. En aras de la exhaustividad, así es como se ven los datos como una dispersión 2D:

ingrese la descripción de la imagen aquí

¿Alguien sabe de una mejor manera de representar datos emparejados con un tamaño de muestra muy grande? ¿Me podría vincular a algunos ejemplos?

Editar

Lo siento, claramente no he hecho un buen trabajo al explicar lo que estoy buscando. Sí, el diagrama de dispersión 2D funciona, y hay muchas maneras en que podría mejorarse para transmitir mejor la densidad de los puntos: podría codificar con color los puntos según una estimación de densidad del núcleo, podría hacer un histograma 2D , Podría trazar contornos en la parte superior de los puntos, etc., etc.

Sin embargo, creo que esto es excesivo para el mensaje que estoy tratando de transmitir. Realmente no me importa mostrar la densidad 2D de puntos per se , todo lo que necesito hacer es mostrar que los valores para 'barras' son generalmente más grandes que los de 'puntos', de la manera más simple y clara posible , y sin perder la naturaleza esencial emparejada de los datos. Idealmente, me gustaría trazar los valores emparejados para los dos grupos a lo largo de los mismos ejes en lugar de ejes ortogonales, ya que esto hace que sea más fácil compararlos visualmente.

Tal vez no haya una mejor opción que un diagrama de dispersión, pero me gustaría saber si hay alguna alternativa que pueda funcionar.


1
¿Has intentado simplemente trazar los valores correspondientes de baren el doteje horizontal y vertical como un diagrama de dispersión?
Hasta Hoffmann

@TillHoffmann Sí, lo mencioné al final de mi pregunta. Es probablemente la mejor opción que tengo en este momento, pero preferiría una representación más compacta, e idealmente una que represente los valores de ambos grupos a lo largo del mismo eje (tal vez estoy siendo irrazonablemente exigente ...). Agregaré el diagrama de dispersión a mi pregunta.
ali_m

lo siento, me perdí eso. ¿Cómo está generando sus datos sintéticos en este momento?
Hasta Hoffmann

2
¿Podría explicar qué quiere decir con una representación "compacta"? El diagrama de dispersión es claramente superior a todos los demás en términos de mostrar las relaciones, así como datos inusuales individualmente en un área pequeña; solo crece mejor a medida que aumenta el tamaño del conjunto de datos. (10,000 no es grande para un diagrama de dispersión). Usted menciona tantos gráficos diferentes que es imposible deducir lo que realmente necesita. Díganos el propósito de su visualización: ¿exactamente qué tipo de información espera aprender o transmitir a otros? ¿Con qué precisión y rapidez pretendes que sea percibido y entendido?
whuber

1
@whuber Perdón por no estar claro. Lo que esperaba era una forma de representar los datos de manera que los valores para ambos grupos se representaran a lo largo del mismo, en lugar de los ejes ortogonales (como están en los gráficos de 'línea inclinada' y 'línea paralela'). El mensaje es muy simple: que los valores para las 'barras' son generalmente más altos que los de los 'puntos'. Más allá de eso, no me importa mucho representar la densidad de la distribución, aunque me gustaría transmitir que hay una gran cantidad de pares en la muestra.
ali_m

Respuestas:


7

Dado que entiendo su objetivo, simplemente calcularía las diferencias pareadas ( bars - dots), luego trazaría estas diferencias en un gráfico de histograma o de estimación de densidad del núcleo. También puede agregar cualquier combinación de (1) una línea vertical correspondiente a la diferencia cero (2) cualquier elección de percentiles.

Esto destacaría qué parte de los datos ha barsexcedido dotsy, en general, cuáles son las diferencias observadas.

(Supuse que no está interesado en mostrar los valores reales y sin procesar de barsy dotsen el mismo gráfico).

También se podría trazar confianza o intervalos creíbles posteriores para indicar si estas diferencias son significativas. (¡H / T @MrMeritology!)


Además de esta respuesta: también podría trazar intervalos de confianza para las diferencias emparejadas que indicarán visualmente si las diferencias son significativas o no.
MrMeritology

ysi=μ+compensar(yUNA)+Δ(yUNA-y¯UNA

2

ysi-yUNAyUNA

ysi=μ+compensar(yUNA)+Δ(yUNA-y¯UNA)+ϵ
+Δ2(yUNA-y¯UNA)2

Gráficamente, podría mostrar las líneas como ha mostrado, con un factor alfa reducido (*), tal vez reduciendo aún más mostrando solo una muestra aleatoria de líneas. Entonces podrías colorear las líneas según la pendiente ...

Para las parcelas de Bland-Altman, mencionadas en un comentario de Nick Cox, vea, por ejemplo, un Acuerdo de ejemplo entre métodos con múltiples observaciones por individuo o mire a través de la etiqueta .

(*) el factor alfa aquí es un parámetro gráfico que hace que los puntos en la gráfica sean transparentes, por lo que los primeros puntos graficados no se ocultan totalmente por sobreplotación posterior.


1
-

1

Preferiría el diagrama de dispersión 2D. Dibujaría la línea de referencia en gris claro para obtener más contraste en la región abarrotada. Para aliviar el hacinamiento, dibuje los marcadores sin borde, reduzca aún más el alfa, reduzca el tamaño del marcador.

Dicho esto, si está más interesado en los pares típicos que en las alas de la distribución, intente graficar en línea la suma acumulativa de dotsversus la suma acumulativa de bars. La trama sigue siendo 2D pero con mucho menos tinta. Para guardar también el área de trazado, puede rotar el trazado 45 ° para que el marco sirva como dirección de referencia.

Ese gráfico también mostraría cualquier tendencia en los datos. Si el proceso es conocido por ser estacionario, ordenar los pares de, por ejemplo, su media geométrica, sqrt(bars*dots).


0

Recomendaría trazar las líneas como las tiene para la mediana y los cuartiles, o tantos percentiles como desee para el caso. La mediana podría permanecer más gruesa / más discernible que otras líneas de percentiles. Esto ayudaría a preservar la capacidad de ver cómo se comportan los datos a través de la distribución sin comprometer la simplicidad y familiaridad de la trama que se utiliza actualmente en su campo.

Además, con un tamaño de muestra tan alto, la tendencia media o mediana con barras de error probablemente sería suficiente, ya que disfrutaría tanto del teorema del límite central. El campo biomédico también se basa en esos gráficos de líneas emparejadas, pero este suele ser el caso porque el tamaño de la muestra podría ser del orden de 10-20, por lo que es importante visualizar los posibles puntos de apalancamiento.


0

Mi primera sugerencia es un diagrama de dispersión.

Si 10000 puntos distribuidos de manera desigual en su parcela siguen siendo una nube vaga, considere un mapa de calor. El color del píxel en x = 10.5, y = 11.5 indicaría cuántas veces el valor entre 10.45 y 10.55 se asigna a un valor entre 11.45 y 11.55: 0 = blanco = RGB (255,255,255), 1 = azul = RGB (0, 0,255), 2 = RGB (1,0,254), ... 256 y superior = RGB (255,0,0) = rojo


Eso esencialmente me da el mismo tipo de representación que una dispersión 2D, excepto con menos resolución. Puede que termine haciendo algo como esto, pero idealmente esperaba una representación más compacta que trazara los valores para ambos grupos a lo largo del mismo eje, en lugar de ejes ortogonales.
ali_m

1
Al observar su diagrama de dispersión, veo que está perdiendo mucha información en el centro de su "punto de tinta". Debe hacer algo, ya sea aplicando una transformación (¿logaritmo?) O con el mapa de salud que sugiero.
Dirk Horsten

¡Lo siento! Su sugerencia es totalmente razonable: simplemente no he hecho un trabajo lo suficientemente bueno para explicar lo que estoy buscando. Sí, un diagrama bidimensional (dispersión, mapa de calor, diagrama de contorno, etc.) haría un buen trabajo al representar la densidad de los puntos de muestra, pero creo que es más información de la que realmente necesito mostrar. Todo lo que necesito hacer es mostrar que los valores de 'barras' son generalmente más altos que los de 'puntos'. Estoy buscando la forma más simple posible de mostrar esto, preservando la naturaleza emparejada de los datos.
ali_m

¿La diagonal en el diagrama de distribución no indica la dirección lo suficientemente bien?
Dirk Horsten

No, pero quizás tengo expectativas irracionales :-)
ali_m
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.