El hecho de que el resumen de cinco números sea idéntico no significa que la distribución sea idéntica. ¡Esto le indica cuánta información se pierde cuando presentamos los datos gráficamente en un diagrama de caja!
Quizás la forma más fácil de ver el problema es que el resumen de cinco números no le dice nada acerca de la distribución de los valores entre el cuartil mínimo y el inferior, o entre el cuartil inferior y la mediana, y así sucesivamente. Usted sabe que la frecuencia entre el cuartil mínimo y el inferior debe coincidir con la frecuencia entre el cuartil inferior y la mediana (con las excepciones obvias, por ejemplo, si tenemos datos en un cuartil, o peor, si dos cuartiles están vinculados), pero no sé qué valores de la variable se asignan esas frecuencias. Podemos tener una situación como esta:
Estas dos distribuciones tienen el mismo resumen de cinco números, por lo que sus diagramas de caja son idénticos, pero he elegido X tener una distribución uniforme entre cada cuartil mientras que Ytiene una distribución con bajas frecuencias cerca de los cuartiles y altas frecuencias en el medio de dos cuartiles. Efectivamente la distribución deY se ha formado tomando la distribución de Xy alejar la mayor parte de los datos que están cerca de un cuartil; mi R
código realmente realiza esto a la inversa, comenzando con la distribución irregular deY y nivelar las frecuencias reasignando datos de los picos para completar los canales.
EDITAR: como dice @Glen_b, esto se vuelve aún más obvio cuando se miran las distribuciones acumulativas. He agregado líneas de cuadrícula para mostrar la ubicación de los cuartiles, que son los mismos para las dos distribuciones, de modo que sus CDF empíricos se cruzan.
Código R
yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))
x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)
ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n",
main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
lty = "solid", lwd=2, bty="n")
par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")
summary(x)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
summary(y)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00