Graficando muestras pequeñas


13

Tengo un pequeño conjunto de datos de 14 veces separadas para completar una tarea. Sin embargo, estoy teniendo dificultades para encontrar un gráfico apropiado para usar para graficar los datos. Si la muestra fuera más grande, usaría un diagrama de caja o un histograma, pero no estoy seguro de si sería apropiado usarlo en este caso cuando la muestra es tan pequeña.

Actualización: Los tiempos son 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2


44
No hay nada mejor que mostrar los datos reales que le interesan como un ejemplo concreto para alentar a las personas a publicar diferentes soluciones. De antemano sugiero puntos o diagramas de tiras y diagramas cuantiles con recuadro superpuesto.
Nick Cox

Respuestas:


16

Creo que el principio fundamental aquí es que puedes y debes mostrar todos los valores individuales. Incluso si el detalle no es obviamente interesante o útil, no hay razón para no mostrarlo, o para obligar al lector a decodificar (digamos) un histograma en el que las barras podrían representar solo uno o dos valores.

Ofrezco aquí un pequeño compuesto. Arriba a la izquierda hay un diagrama de puntos o franjas (se han utilizado al menos otros veinte nombres para la misma idea) presentados horizontalmente y arriba a la derecha la misma idea presentada verticalmente. Las instancias del mismo valor se corresponden por apilamiento.

En la parte inferior hay una gráfica de caja de cuantiles, en el sentido de Parzen, en la que la escala horizontal tácita es la probabilidad acumulativa (posición de la gráfica, en una jerga común) y la caja convencional de mediana y cuartiles se puede dibujar de modo que (en principio) la mitad los valores están dentro del cuadro, como siempre se anuncia, y la mitad de los valores afuera. La línea horizontal adicional aquí representa la media. Algunas personas agregan medios a los diagramas de cajas como un punto extra o símbolo de marcador; Creo que puede chocar con mostrar los datos ellos mismos, y prefiero una línea adicional. Si la línea para la mediana y la línea para la media parecieran coincidir, deberías pensar qué hacer. Casi siempre la media y la mediana son perceptiblemente diferentes.

Podría decirse que es estándar hacer explícitas las unidades de medida en el gráfico, pero no veo cuáles son.

ingrese la descripción de la imagen aquí

(Deliberadamente, empujé un punto extra aquí, que es que los gráficos pueden ser muy pequeños pero aún informativos. En la práctica, no los haría tan pequeños).

EDITAR:

Referencias cruzadas agregadas a gráficos de caja de cuantiles en sentido amplio en el sentido de Parzen (más referencias en el segundo a continuación; existen otros usos de "gráficos de caja de cuantiles")

¿Cómo puedo medir la diferencia entre datos no paramétricos con muchos ceros?

¿Cómo usar boxplots para encontrar el punto donde los valores tienen más probabilidades de provenir de diferentes condiciones?

¿Cómo visualizar una prueba t de dos muestras independiente?

¿Cómo obtengo qué experimento funciona mejor con la prueba U de Mann-Whitney?

Shera, DM 1991. Algunos usos de las gráficas de cuantiles para mejorar la presentación de datos. Computing Science and Statistics 23: 50-53.

Militký, J. y M. Meloun. 1993. Algunas ayudas gráficas para el análisis de datos exploratorios univariados. Analytica Chimica Acta 277: 215-221.

Meloun, M. y J. Militký. 1994. Tratamiento de datos asistido por computadora en quimiometría analítica. I. Análisis exploratorio de datos univariados. Chemical Papers 48: 151-157.

EDITAR 2:

El punto principal de estos hilos no es solo responder la pregunta inmediata, sino tocar preguntas muy similares que podrían interesar a otros.

Algunos otros diseños de gráficos en otras respuestas aquí muestran identificadores, etiquetados agnósticamente 1 ... 14 en ausencia de otros detalles. Suponiendo que estos y otros identificadores fueran de utilidad en la interpretación, un diseño simple para mostrarlos es un gráfico de puntos (Cleveland). Aquí hay dos posibilidades, en las cuales el orden del identificador se respeta literalmente (izquierda) y en el que los valores se ordenan (derecha). Hay mucho espacio para etiquetas más largas si es necesario.

Una ventaja de este diseño sobre los gráficos de barras es que la respuesta o el eje de resultados pueden comenzar en un valor que no sea cero si parece una mejor opción.

Rotación de los gráficos para que el eje de respuesta sea vertical también se puede imaginar fácilmente.

ingrese la descripción de la imagen aquí


(+1) A veces he visto el diagrama de puntos o franjas, particularmente si está orientado verticalmente, con los puntos "apilados" alineados centralmente en lugar de alineados a la izquierda (es decir, si hubiera tres puntos apilados, entonces el centro estaría en línea con el puntos sin apilar). Esto da una línea de simetría que es estéticamente agradable pero no estoy seguro de cuán beneficioso es prácticamente. Quizás hace que sea más fácil superponer una caja. ¿Esto tiene un nombre diferente, sabes? ¿Y ha habido algún consejo para evitarlo / adoptarlo?
Silverfish

1
Además, ¿hay alguna posibilidad de que pueda dar una referencia para Parzen? Siempre me han gustado estas tramas, pero nunca he leído una referencia adecuada para ellas.
Silverfish

@Silverfish Centrado (centrado) las variantes son ciertamente populares y a menudo discutidas Los pequeños problemas parecen ser un deseo de simetría, como mencionas, versus un diseño que se parezca al estilo de histograma, que tiendo a preferir un poco, pero es una cuestión de gustos y circunstancias. He agregado referencias cruzadas y, a su vez, agradecería a otros.
Nick Cox

3

@Nick Cox ya ha dado algunos buenos ejemplos, otras dos opciones que uso con cierta frecuencia son el diagrama de caja con puntos superpuestos, o temblando ligeramente,

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Con código R

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

EDITAR: También puede usar una trama de violín si así lo desea

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

ingrese la descripción de la imagen aquí


1
Muchas gracias por la respuesta. Era reacio a usar diagramas de caja en mis análisis originalmente debido al tamaño de la muestra. Pero después de mirar diferentes libros de texto, parece que el tamaño de mi muestra es suficiente.
Eamonn

1

Su pregunta me recordó la técnica descrita en esta publicación de blog . Se trata de la visualización de eventos discretos.

El truco central es trazar the time before an eventx the time after an event.

Tus datos visualizados [1]

Esto puede ser por casualidad, pero el área central superior no contiene datos. Entonces hay alguna estructura visible.


El Rcódigo rápido y sucio .

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

OP dijo 14 veces por separado. Leí que implica que no se trata de una serie. Si son una serie, su idea es ciertamente pertinente.
Nick Cox

Probablemente tengas razón. Sin embargo, incluso si son no una serie, la gráfica sería mostrar las dependencias entre los tiempos. Obviamente, las etiquetas del eje están mal entonces.
Harald Thomson

2
Solo el OP puede aclarar exactamente cuáles son los datos, pero no creo que este gráfico gane de ninguna manera. Si los datos son tiempos separados, entonces el gráfico no tiene sentido a menos que haya un significado en el orden en que se dan los valores.
Nick Cox

FYI texttoma argumentos vectoriales, text(x, y, 1:12)debería funcionar.
MichaelChirico

1

Otra idea, ya que estás usando el tiempo.

Un trazado de pista de carreras, un diagrama de barras con coordenadas polares, produce el mismo efecto que un cronómetro:

pista

Idealmente, las etiquetas de observación se superpondrían en las barras o al menos en el otro extremo. En este momento, el espectador tiene el esfuerzo adicional de realizar un seguimiento de qué observación es cuál (arriba / abajo) al hacer cualquier comparación.


2
Tengo que considerar eso como una técnica gráfica excéntrica, de hecho, sincera, totalmente perversa. El ojo no ve ni siquiera la longitud del arco, sino un área a decodificar como tal, pero el cerebro tiene que intervenir y subrayar que solo el ángulo de rotación es informativo. Es difícil incluso ver exactamente qué valores son menores, iguales o mayores entre sí, lo cual es inmediato en cualquier estilo gráfico aceptable.
Nick Cox

La única ventaja que puedo ver para este diseño, a menos que la calificación sea para un diseño inusual, es que los identificadores # 1 a # 14 son inmediatos en este diseño. He recogido este punto en una edición de mi propia respuesta.
Nick Cox
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.