¿Dos distribuciones con resúmenes idénticos de 5 números siempre tendrán la misma forma?

Sé que si puedo tener dos distribuciones con la misma media y varianza, tendré formas diferentes, porque puedo tener una N (x, s) y una U (x, s)

Pero, ¿qué pasa si su min, Q1, mediana, Q3 y max son idénticos?

¿Pueden las distribuciones verse diferentes entonces, o se requerirá que tomen la misma forma?

Mi única lógica detrás de esto es que si tienen exactamente el mismo resumen de 5 números, deben adoptar exactamente la misma forma de distribución.

distributions descriptive-statistics

— Marcin
fuente

La respuesta a esta pregunta es obvia en algunos sentidos: si pudiéramos caracterizar completamente cualquier distribución simplemente citando cinco números al respecto, ¡todos esos exámenes sobre distribuciones de probabilidad serían mucho más fáciles! Pero plantea el punto interesante de cuánta información falta cuando citamos el resumen de cinco números o presentamos los datos gráficamente en un diagrama de caja.

— Silverfish

Solo ten cuidado con eso

U (x, s)

$U(x,s)$ generalmente no se usa para la distribución uniforme con media

x

$x$ y desviación estándar

s

$s$ , sino más bien para la distribución uniforme en el intervalo que comienza en

x

$x$ y termina en

s

$s$ . También la notación

N (x, s)

$N(x,s)$ rara vez se usa para la distribución normal (aunque he visto algunos libros de texto que sí lo hacen); Es mucho más común que el segundo parámetro represente la varianza en lugar de la desviación estándar.

— Silverfish

Respuestas:

El hecho de que el resumen de cinco números sea idéntico no significa que la distribución sea idéntica. ¡Esto le indica cuánta información se pierde cuando presentamos los datos gráficamente en un diagrama de caja!

Quizás la forma más fácil de ver el problema es que el resumen de cinco números no le dice nada acerca de la distribución de los valores entre el cuartil mínimo y el inferior, o entre el cuartil inferior y la mediana, y así sucesivamente. Usted sabe que la frecuencia entre el cuartil mínimo y el inferior debe coincidir con la frecuencia entre el cuartil inferior y la mediana (con las excepciones obvias, por ejemplo, si tenemos datos en un cuartil, o peor, si dos cuartiles están vinculados), pero no sé qué valores de la variable se asignan esas frecuencias. Podemos tener una situación como esta:

Diferentes distribuciones con el mismo resumen de cinco números y diagrama de caja

Estas dos distribuciones tienen el mismo resumen de cinco números, por lo que sus diagramas de caja son idénticos, pero he elegido $X$ tener una distribución uniforme entre cada cuartil mientras que $Y$ tiene una distribución con bajas frecuencias cerca de los cuartiles y altas frecuencias en el medio de dos cuartiles. Efectivamente la distribución de $Y$ se ha formado tomando la distribución de $X$ y alejar la mayor parte de los datos que están cerca de un cuartil; mi Rcódigo realmente realiza esto a la inversa, comenzando con la distribución irregular de $Y$ y nivelar las frecuencias reasignando datos de los picos para completar los canales.

EDITAR: como dice @Glen_b, esto se vuelve aún más obvio cuando se miran las distribuciones acumulativas. He agregado líneas de cuadrícula para mostrar la ubicación de los cuartiles, que son los mismos para las dos distribuciones, de modo que sus CDF empíricos se cruzan.

CDF empíricos de dos distribuciones con el mismo resumen de cinco números

Código R

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00

— Lepisma
fuente

+1 Su ejemplo es excelente, porque uno podría pensar inicialmente: bueno, ciertamente una distribución no puede describirse completamente por cinco números, ya que es un objeto de dimensión infinita, pero seguramente todas las distribuciones con la misma media / mediana / cuartiles / etc. son al menos muy similares! Bueno, no, no lo son. Por cierto, sus archivos PDF lo muestran de manera mucho más llamativa que los CDF.

— ameba

@amoeba Gracias, visualmente el histograma es mucho más llamativo. El CDF, creo, muestra más claramente lo que está sucediendo, en el sentido de cómo podríamos generalizarlo.

— Silverfish

@amoeba No estoy seguro de entender "bueno, ciertamente una distribución no puede ser completamente descrita por cinco números, ya que es un objeto de dimensión infinita" ¿estabas escribiendo eso como un ejemplo de una idea falaz? Por ejemplo, el PDF normal es un objeto bidimensional (o posiblemente una o dos dimensiones más si desea cobrar por constantes como

π

$\pi$ ) ... bastante más pequeño que infinito! Lo siento si estoy siendo obtuso.

— Alexis

@ Alexis Creo que quise decir "una distribución [arbitraria]" en ese comentario, no una distribución de alguna familia paramétrica particular ...

— ameba

@amoeba Eso es justo. Especialmente porque era un uso retórico. Aún así, deberíamos tener cuidado al tirar el "infinito" ... Creo que si alguien realmente insiste en el infinito como parte de su sistema, probablemente haya arbitraje en algún desequilibrio. :)

— Alexis

Esto se responde más claramente considerando la función de distribución (acumulativa).

Al especificar el mínimo, el máximo y los tres cuartiles se especifican exactamente 5 puntos en el cdf, pero el cdf entre esos puntos puede ser cualquier función monótona no decreciente que aún pase por esos puntos:

ingrese la descripción de la imagen aquí

En el dibujo, los CDF rojos y negros comparten el mismo mínimo, máximo y cuartiles, pero son distribuciones claramente diferentes. Claramente, podría especificarse cualquier número de otros CDF que también pasen por los mismos cinco puntos.

De hecho, todo lo que hemos hecho es restringir nuestra función de distribución a cuatro cuadros:

$\qquad$ ingrese la descripción de la imagen aquí

(siempre que siga satisfaciendo las otras condiciones para un CDF). Eso no es tanta restricción.

Se puede aplicar la misma noción a las cantidades de muestra; sin embargo, dos CDF empíricos diferentes pueden tener el mismo resumen de cinco números.

— Glen_b -Reinstate a Monica
fuente

No, definitivamente no es el caso. Como un simple ejemplo contrario, compare la distribución uniforme continua en $[0, 3]$ con la discreta distribución uniforme en $\{0, 1, 2, 3\}$ .

Un ejemplo relacionado es el conocido cuarteto de Anscombe, donde hay 4 conjuntos de datos con 6 propiedades de muestra idénticas (aunque diferentes de las que menciona) se ven completamente diferentes. Ver: http://en.wikipedia.org/wiki/Anscombe%27s_quartet

— Sven
fuente