Antecedentes: tengo una muestra que quiero modelar con una distribución de cola pesada. Tengo algunos valores extremos, de modo que la difusión de las observaciones es relativamente grande. Mi idea era modelar esto con una distribución generalizada de Pareto, y así lo he hecho. Ahora, el cuantil de 0.975 de mis datos empíricos (alrededor de 100 puntos de datos) es menor que el cuantil de 0.975 de la distribución generalizada de Pareto que ajusté a mis datos. Ahora, pensé, ¿hay alguna forma de verificar si esta diferencia es algo de qué preocuparse?
Sabemos que la distribución asintótica de los cuantiles se da como:
Así que pensé que sería una buena idea entretener mi curiosidad tratando de trazar las bandas de confianza del 95% alrededor del cuantil 0.975 de una distribución generalizada de Pareto con los mismos parámetros que obtuve al ajustar mis datos.
Como puede ver, estamos trabajando con algunos valores extremos aquí. Y dado que la extensión es tan enorme, la función de densidad tiene valores extremadamente pequeños, lo que hace que las bandas de confianza vayan al orden de utilizando la varianza de la fórmula de normalidad asintótica anterior:
Entonces, esto no tiene ningún sentido. Tengo una distribución con solo resultados positivos, y los intervalos de confianza incluyen valores negativos. Entonces algo está pasando aquí. Si puedo calcular las bandas alrededor del 0,5 cuantil, las bandas no son que es enorme, pero sigue siendo enorme.
Procedo a ver cómo va esto con otra distribución, a saber, la distribución . Simule observaciones de una distribución y verifique si los cuantiles están dentro de las bandas de confianza. Hago esto 10000 veces para ver las proporciones de los cuantiles 0.975 / 0.5 de las observaciones simuladas que están dentro de las bandas de confianza.n = 100 N ( 1 , 1 )
################################################
# Test at the 0.975 quantile
################################################
#normal(1,1)
#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.975)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
#################################################################3
# Test at the 0.5 quantile
#################################################################
#using lower quantile:
#normal(1,1)
#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.7)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
EDIT2 : Retraigo lo que reclamé en el primer EDIT arriba, como se señaló en los comentarios de un caballero servicial. En realidad, parece que estos IC son buenos para la distribución normal.
¿Es esta normalidad asintótica de la estadística de orden solo una muy mala medida para usar, si se quiere verificar si algún cuantil observado es probable dada una cierta distribución de candidatos?
Intuitivamente, me parece que hay una relación entre la varianza de la distribución (que uno cree que creó los datos, o en mi ejemplo R, que sabemos que creó los datos) y el número de observaciones. Si tiene 1000 observaciones y una enorme variación, estas bandas son malas. Si uno tiene 1000 observaciones y una pequeña variación, estas bandas tal vez tengan sentido.
¿Alguien quiere aclarar esto por mí?