Estoy tratando de comparar visualmente cómo tres publicaciones de noticias diferentes cubren diferentes temas (determinado a través de un modelo de tema LDA). Tengo dos métodos relacionados para hacerlo, pero he recibido muchos comentarios de colegas de que esto no es muy intuitivo. Espero que alguien tenga una mejor idea para visualizar esto.
En el primer gráfico, muestro las proporciones de cada tema en cada publicación, así:
Esto es bastante sencillo e intuitivo para casi todas las personas con las que he hablado. Sin embargo, es difícil ver las diferencias entre las publicaciones. ¿Qué periódico cubre qué tema más?
Para llegar a esto, tracé la diferencia entre la publicación con la mayor y la segunda mayor proporción de temas, coloreada por la publicación con la mayor. Me gusta esto:
Entonces, la gran barra para el fútbol, por ejemplo, es realmente la distancia entre al-Ahram English y Daily News Egypt (# 2 en cobertura de fútbol), y está coloreada de rojo porque Al-Ahram es # 1. Del mismo modo, las pruebas son verdes porque Egypt Independent tiene la mayor proporción, y el tamaño de la barra es la distancia entre Egypt Independent y Daily News Egypt (# 2 nuevamente).
El hecho de que tenga que explicar que todo en dos párrafos es una señal bastante segura de que el gráfico no pasa la prueba de autosuficiencia. Es difícil saber qué sucede realmente con solo mirarlo.
¿Alguna sugerencia general sobre cómo resaltar visualmente la publicación dominante para cada tema de una manera más intuitiva?
Editar: Datos para jugar: aquí está la dput
salida de R , así como un archivo CSV .
Edición 2: Aquí hay una versión preliminar de diagrama de puntos, con los diámetros de los puntos proporcionales a la proporción del tema en el corpus (que es cómo se ordenaron originalmente los temas). Aunque todavía necesito ajustarlo un poco más, se siente mucho más intuitivo que lo que estaba haciendo antes. ¡Gracias a todos!