¿Cuál es un gráfico apropiado para ilustrar la relación entre dos variables ordinales?
Algunas opciones que se me ocurren:
- Diagrama de dispersión con jitter aleatorio agregado para detener los puntos que se esconden entre sí. Aparentemente un gráfico estándar: Minitab llama a esto un "gráfico de valores individuales". En mi opinión, puede ser engañoso, ya que visualmente fomenta una especie de interpolación lineal entre niveles ordinales, como si los datos fueran de una escala de intervalos.
- Diagrama de dispersión adaptado para que el tamaño (área) del punto represente la frecuencia de esa combinación de niveles, en lugar de dibujar un punto para cada unidad de muestreo. De vez en cuando he visto tales tramas en la práctica. Pueden ser difíciles de leer, pero los puntos se encuentran en un enrejado regularmente espaciado que de alguna manera supera las críticas al diagrama de dispersión nervioso que visualmente "interviene" los datos.
- Particularmente si una de las variables se trata como dependiente, una gráfica de caja agrupada por los niveles de la variable independiente. Es probable que se vea terrible si el número de niveles de la variable dependiente no es lo suficientemente alto (muy "plano" con bigotes faltantes o incluso cuartiles colapsados que hacen imposible la identificación visual de la mediana), pero al menos llama la atención sobre la mediana y los cuartiles que son estadísticas descriptivas relevantes para una variable ordinal.
- Tabla de valores o cuadrícula de celdas en blanco con mapa de calor para indicar la frecuencia. Visualmente diferente pero conceptualmente similar al diagrama de dispersión con área de puntos que muestra la frecuencia.
¿Hay otras ideas o pensamientos sobre qué parcelas son preferibles? ¿Existe algún campo de investigación en el que ciertas parcelas ordinales vs ordinales se consideren estándar? (Parece recordar que el mapa de calor de frecuencia está muy extendido en la genómica, pero sospecho que es más frecuente para nominal-vs-nominal.) Las sugerencias para una buena referencia estándar también serían muy bienvenidas, supongo que algo de Agresti.
Si alguien quiere ilustrar con un gráfico, sigue el código R para datos de muestra falsos.
"¿Qué tan importante es el ejercicio para ti?" 1 = nada importante, 2 = algo sin importancia, 3 = ni importante ni sin importancia, 4 = algo importante, 5 = muy importante.
"¿Con qué frecuencia toma una carrera de 10 minutos o más?" 1 = nunca, 2 = menos de una vez por quincena, 3 = una vez cada una o dos semanas, 4 = dos o tres veces por semana, 5 = cuatro o más veces por semana.
Si fuera natural tratar "a menudo" como una variable dependiente y "importancia" como una variable independiente, si una gráfica distingue entre las dos.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Una pregunta relacionada para variables continuas que encontré útil, tal vez un punto de partida útil: ¿Cuáles son las alternativas a los diagramas de dispersión cuando se estudia la relación entre dos variables numéricas?