Estadística de normalidad asintótica de orden de distribuciones de cola pesada

Antecedentes: tengo una muestra que quiero modelar con una distribución de cola pesada. Tengo algunos valores extremos, de modo que la difusión de las observaciones es relativamente grande. Mi idea era modelar esto con una distribución generalizada de Pareto, y así lo he hecho. Ahora, el cuantil de 0.975 de mis datos empíricos (alrededor de 100 puntos de datos) es menor que el cuantil de 0.975 de la distribución generalizada de Pareto que ajusté a mis datos. Ahora, pensé, ¿hay alguna forma de verificar si esta diferencia es algo de qué preocuparse?

Sabemos que la distribución asintótica de los cuantiles se da como:

Así que pensé que sería una buena idea entretener mi curiosidad tratando de trazar las bandas de confianza del 95% alrededor del cuantil 0.975 de una distribución generalizada de Pareto con los mismos parámetros que obtuve al ajustar mis datos.

Como puede ver, estamos trabajando con algunos valores extremos aquí. Y dado que la extensión es tan enorme, la función de densidad tiene valores extremadamente pequeños, lo que hace que las bandas de confianza vayan al orden de utilizando la varianza de la fórmula de normalidad asintótica anterior: $\pm 10^{12}$

$\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2}$

Entonces, esto no tiene ningún sentido. Tengo una distribución con solo resultados positivos, y los intervalos de confianza incluyen valores negativos. Entonces algo está pasando aquí. Si puedo calcular las bandas alrededor del 0,5 cuantil, las bandas no son que es enorme, pero sigue siendo enorme.

Procedo a ver cómo va esto con otra distribución, a saber, la distribución . Simule observaciones de una distribución y verifique si los cuantiles están dentro de las bandas de confianza. Hago esto 10000 veces para ver las proporciones de los cuantiles 0.975 / 0.5 de las observaciones simuladas que están dentro de las bandas de confianza. $\mathcal{N}(1,1)$ $n=100$ $\mathcal{N}(1,1)$

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

$\sigma=1$ $\sigma=2$

EDIT2 : Retraigo lo que reclamé en el primer EDIT arriba, como se señaló en los comentarios de un caballero servicial. En realidad, parece que estos IC son buenos para la distribución normal.

¿Es esta normalidad asintótica de la estadística de orden solo una muy mala medida para usar, si se quiere verificar si algún cuantil observado es probable dada una cierta distribución de candidatos?

Intuitivamente, me parece que hay una relación entre la varianza de la distribución (que uno cree que creó los datos, o en mi ejemplo R, que sabemos que creó los datos) y el número de observaciones. Si tiene 1000 observaciones y una enorme variación, estas bandas son malas. Si uno tiene 1000 observaciones y una pequeña variación, estas bandas tal vez tengan sentido.

¿Alguien quiere aclarar esto por mí?

— Erosennin
fuente

Su banda se basa en la varianza de la distribución normal asintótica, pero debe basarse en la desviación estándar de la distribución normal asintótica (banda = 1.96 * sqrt ((0.975 * 0.025) / (100 * (f_norm) ^ 2)), y de manera similar para el generalizado Pareto dist'n.) Intente eso en su lugar y vea qué sucede.

— jbowman

@jbowman gracias por señalar eso! Lo arreglaré !

— Erosennin

@jbowman que hace que la banda sea más pequeña y, en el ejemplo con mi código R, que en realidad da algunos golpes menos. También fue otro error, que hizo que el cálculo fuera incorrecto, pero lo arreglé ahora. Me llevaste a eso, ¡así que lo aprecio mucho! Las bandas más pequeñas en el caso del PIB son muy buenas noticias, pero me temo que siguen siendo tan enormes que son imposibles de usar. Todavía no puedo ver nada más que la relación entre el tamaño y la varianza de la muestra es lo que debería ser grande, no solo el tamaño de la muestra.

— Erosennin

\sqrt{(} n)

$\sqrt(n)$ band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))

σ = 2

$\sigma = 2$

Supongo que su derivación proviene de algo así como el de esta página .

Tengo una distribución con solo resultados positivos, y los intervalos de confianza incluyen valores negativos.

Bueno, dada la aproximación normal que tiene sentido. No hay nada que impida que una aproximación normal le dé valores negativos, por lo que es una mala aproximación para un valor acotado cuando el tamaño de la muestra es pequeño y / o la varianza es grande. Si aumenta el tamaño de la muestra, los intervalos se reducirán porque el tamaño de la muestra está en el denominador de la expresión para el ancho del intervalo. La varianza entra en el problema a través de la densidad: para la misma media, una varianza mayor tendrá una densidad diferente, mayor en los márgenes y menor cerca del centro. Una densidad más baja significa un intervalo de confianza más amplio porque la densidad está en el denominador de la expresión.

$nq$ $nq(1-q)$ $j = nq - 1.96 \sqrt{nq(1-q)}$ $k = nq - 1.96 \sqrt{nq(1-q)}$ $k > n$ $j < 1$

En la siguiente reescritura de su código, construí el límite de confianza en los datos empíricos y probé para ver si el cuantil teórico cae dentro de eso. Eso tiene más sentido para mí, porque el cuantil del conjunto de datos observado es la variable aleatoria. La cobertura para n> 1000 es ~ 0.95. Para n = 100 es peor en 0.85, pero eso es de esperar para cuantiles cerca de las colas con tamaños de muestra pequeños.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

En cuanto a determinar qué tamaño de muestra es "suficientemente grande", bueno, más grande es mejor. Si una muestra en particular es "lo suficientemente grande" depende en gran medida del problema en cuestión y de cuán quisquilloso sea con cosas como la cobertura de sus límites de confianza.

— atiretoo - restablecer monica
fuente

¡Gracias por contribuir! Señalé que no veo cómo existe una muestra "grande" absoluta, y uno tiene que tener en cuenta la varianza. Tengo curiosidad por saber cómo se relaciona esto con mi forma de construir los IC, pero también en general. En cuanto a la derivación, puede ver, por ejemplo, aquí: math.mcgill.ca/~dstephens/OldCourses/556-2006/… Los CI que he construido se deducen del ejemplo en ese enlace. Escribe que "construí el límite de confianza en los datos empíricos ..." y esto tiene más sentido para usted. ¿Puede por favor darme un poco más de detalles sobre esto?

— Erosennin

Ah, sí, tenías el enlace de derivación correcto. Perdón, es mi culpa.

— Erosennin

OK, lo edité nuevamente para describir correctamente cómo la varianza de la distribución afecta la aproximación que está usando, y un poco más de discusión sobre lo que significa una muestra "grande". Su IC se centra en el valor teórico, mientras que el mío se centra en el valor empírico. Creo que para comparar un cuantil empírico con uno teórico, los intervalos deberían construirse sobre el cuantil empírico. Además, la aproximación que utilicé hace una aproximación menos "normal" porque no hay apelación al teorema del límite central para comenzar.

— atiretoo - reinstalar a monica el

Aprecio el esfuerzo, tal vez mi pregunta podría ser más clara. Ya me di cuenta de cómo la densidad y el tamaño de la muestra afectan la varianza, ese fue mi punto en primer lugar. Pero, de nuevo, mi mal, podría haber sido más claro. Es lo "asintótico" lo que creo que debería cambiarse por algo que tenga en cuenta la variación. Bueno, también ha centrado sus IC en torno a los valores teóricos. n * q es exactamente su valor teórico. Al construir tus bandas, esencialmente has hecho lo mismo que yo, solo que con un método diferente.

— Erosennin