Pregunté por qué había una diferencia entre el promedio del máximo de 100 sorteos de una distribución normal aleatoria y el percentil 98 de la distribución normal. La respuesta que recibí de Rob Hyndman fue en su mayoría aceptable, pero técnicamente demasiado densa para aceptarla sin revisión. Me preguntaba si era posible proporcionar una respuesta que explicara en un lenguaje claro intuitivamente comprensible por qué estos dos valores no son iguales.
Finalmente, mi respuesta puede ser insatisfactoriamente circular; pero conceptualmente, la razón por la que max (rnorm (100)) tiende a ser mayor que qnorm (.98) es, en resumen, porque, en promedio, la más alta de las 100 puntuaciones distribuidas al azar normalmente excederá en ocasiones su valor esperado. Sin embargo, esta distorsión no es simétrica, ya que cuando se dibujan puntajes bajos, es poco probable que terminen siendo los más altos de los 100 puntajes. Cada sorteo independiente es una nueva oportunidad de exceder el valor esperado, o de ser ignorado porque el valor obtenido no es el máximo de los 100 valores sorteados. Para una demostración visual, compare el histograma del máximo de 20 valores con el histograma del máximo de 100 valores, la diferencia de sesgo, especialmente en las colas, es marcada.
Llegué a esta respuesta indirectamente mientras trabajaba en un problema / pregunta relacionada que había formulado en los comentarios. Específicamente, si descubrí que los puntajes de las pruebas de alguien se clasificaron en el percentil 95, esperaría que, en promedio, si los coloco en una habitación con otros 99 examinados, su rango promedio sea 95. Esto resulta ser más o menos el caso (código R) ...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
Como una extensión de esa lógica, también esperaba que si tomaba 100 personas en una habitación y seleccionaba a la persona con el puntaje 95 más alto, luego tomaba otras 99 personas y las hacía tomar la misma prueba, que en promedio la persona seleccionada ocupar el puesto 95 en el nuevo grupo. Pero este no es el caso (código R) ...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
Lo que hace que el primer caso sea diferente del segundo caso es que en el primer caso la puntuación del individuo los ubica exactamente en el percentil 95. En el segundo caso, su puntaje puede ser algo más alto o más bajo que el verdadero percentil 95. Como posiblemente no pueden clasificar más alto que 100, los grupos que producen un puntaje de rango 95 que está realmente en el percentil 99 o más alto no pueden compensar (en términos de rango promedio) aquellos casos en los que el puntaje de rango 95 es mucho más bajo que el verdadero 90 percentil Si observa los histogramas de los dos vectores de rango proporcionados en esta respuesta, es fácil ver que existe una restricción de rango en los extremos superiores que es una consecuencia de este proceso que he estado describiendo.