La Sección 1.7.2 de Descubriendo Estadísticas Usando R por Andy Fields, et all, mientras enumera las virtudes de la media frente a la mediana, establece:
... la media tiende a ser estable en diferentes muestras.
Esto después de explicar las muchas virtudes de la mediana, por ej.
... La mediana no se ve afectada por puntajes extremos en ninguno de los extremos de la distribución ...
Dado que la mediana no se ve afectada por las puntuaciones extremas, habría pensado que sería más estable en todas las muestras. Así que me sorprendió la afirmación de los autores. Para confirmar, ejecuté una simulación: generé 1M de números aleatorios y tomé muestras de 100 números 1000 veces y calculé la media y la mediana de cada muestra y luego calculé el SD de esas medias y medianas de muestra.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Como puede ver, los medios están más estrechamente distribuidos que las medianas.
En la imagen adjunta, el histograma rojo es para medianas, como puede ver, es menos alto y tiene una cola más gruesa, lo que también confirma la afirmación del autor.
¡Sin embargo, estoy asombrado por esto! ¿Cómo puede la mediana que es más estable tiende a variar más entre las muestras? Parece paradójico! Cualquier idea sería apreciada.
rnorm
con rcauchy
.