Mostrar estimación converge a percentil a través de estadísticas de pedido


10

Sea una secuencia de variables aleatorias iid muestreadas de una distribución estable alfa , con parámetros . α = 1.5 ,X1,X2,,X3nα=1.5,β=0,c=1.0,μ=1.0

Ahora considere la secuencia , donde , para . Y j + 1 = X 3 j + 1 X 3 j + 2 X 3 j + 3 - 1 j = 0 , , n - 1Y1,Y2,,YnYj+1=X3j+1X3j+2X3j+31j=0,,n1

Quiero estimar el percentil .0.01

Mi idea es realizar una especie de simulación de Montecarlo:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

Llamando a la media de todos los percentiles de la muestra calculados como y su varianza , para calcular el intervalo de confianza apropiado para , recurro a la forma fuerte del teorema del límite central :- μ n σ 2 n μ0.01μ^nσ^n2μ

Sea una secuencia de variables aleatorias iid con y . Defina la media de muestra como . Entonces, tiene una distribución normal estándar limitante, es decir, E [ X i ] = μ 0 < V [ X i ] = σ 2 < μ n = ( 1 / n ) Σ n i = 1 X i ( μ n - μ ) / X1,X2,E[Xi]=μ0<V[Xi]=σ2<μ^n=(1/n)i=1nXiμ n -μ(μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

y el teorema de Slutksy para concluir que

nμ^nμσ^n2nN(0,1).

Entonces un -confidence intervalo para esμ(1α)×100%μ

z1-α/2(1-α/2)

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
donde es la cantidad de la distribución normal estándar.z1α/2(1α/2)

Preguntas:

1) ¿Es correcto mi enfoque? ¿Cómo puedo justificar la aplicación del CLT? Quiero decir, ¿cómo puedo demostrar que la varianza es finita? (¿Tengo que mirar la varianza de ? Porque no creo que sea finita ...)Yj

2) ¿Cómo puedo demostrar que el promedio de todos los percentiles muestra calculados converge al valor verdadero del percentil ? (Debería usar estadísticas de pedidos, pero no estoy seguro de cómo proceder; se agradecen las referencias).0.01 -0.010.01


3
Todos los métodos aplicados a las medianas de muestra en stats.stackexchange.com/questions/45124 también se aplican a otros percentiles. En efecto, su pregunta es idéntica a esa, pero simplemente reemplaza el percentil 50 con el primer percentil (¿o quizás 0.01?).
whuber

@whuber, tu respuesta a esa pregunta es extremadamente buena. sin embargo, Glen_b declara, al final de su publicación (la respuesta aceptada), que la normalidad aproximada "no es válida para cuantiles extremos, porque el CLT no funciona allí (el promedio de Z no será asintóticamente normal) Necesitas una teoría diferente para los valores extremos ". ¿Qué tan preocupado debería estar sobre esta declaración?
Maya

2
Creo que realmente no quiso decir cuantiles extremos , sino solo los extremos mismos. (De hecho, corrigió ese lapso al final de la misma oración, refiriéndose a ellos como "valores extremos".) La distinción es que un cuantil extremo, como el percentil .01 (que marca la parte inferior 1/10000 del distribución), en el límite, se estabilizará porque cada vez más datos en una muestra caerán por debajo y más y más caerán por encima de ese percentil. Con un extremo (como el máximo o mínimo) que ya no es el caso.
whuber

Este es un problema que debería resolverse en general utilizando la teoría empírica de procesos. Un poco de ayuda sobre su nivel de capacitación sería útil.
AdamO

Respuestas:


2

La varianza de no es finita. Y Esto se debe a que una variable estable alfa con 3/2 (una distribución de Holtzmark ) tiene una expectativa finita pero su varianza es infinita. Si tuviera una varianza finita , entonces al explotar la independencia de y la definición de varianza podríamos calcularXα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

Esta ecuación cúbica en tiene al menos una solución real (y hasta tres soluciones, pero no más), lo que implica que sería finita, pero no lo es. Esta contradicción prueba el reclamo.Var(X)Var(X)


Pasemos a la segunda pregunta.

Cualquier cuantil de muestra converge con el verdadero cuantil a medida que la muestra crece. Los siguientes párrafos prueban este punto general.

Sea la probabilidad asociada (o cualquier otro valor entre y , exclusivo). Escriba para la función de distribución, de modo que sea ​​el cuantil .q=0.0101FZq=F1(q)qth

Todo lo que debemos suponer es que (la función cuantil) es continua. Esto nos asegura que para cualquier hay probabilidades y para las cualesF1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

y que como , el límite del intervalo es .ϵ0[q,q+]{q}

Considere cualquier muestra iid de tamaño . El número de elementos de esta muestra que son menores que tiene una distribución Binomial , porque cada elemento independientemente tiene una posibilidad de ser menor que . El teorema del límite central (¡el habitual!) Implica que para suficientemente grande , el número de elementos menores que viene dado por una distribución Normal con media y varianza (a una aproximación arbitrariamente buena). Deje que el CDF de la distribución normal estándar sea . La posibilidad de que esta cantidad excedaZ q - ( q - , n ) q - Z q - n Z q - n q - n q - ( 1 - q - )nZq(q,n)qZqnZqnqnq(1q)Φnq por lo tanto es arbitrariamente cerca de

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

Debido a que el argumento en en el lado derecho es un múltiplo fijo de , crece arbitrariamente grande a medida que crece. Como es un CDF, su valor se aproxima arbitrariamente a , lo que muestra que el valor límite de esta probabilidad es cero.Φ nΦ1nnΦ1

En palabras: en el límite, es casi seguro que de los elementos de muestra no sean menores que . Un argumento análogo demuestra que es casi seguro que de los elementos de la muestra no son mayores que . En conjunto, esto implica que el cuantil de una muestra suficientemente grande es extremadamente probable que se encuentre entre y .Z q - n q Z q + q Z q - ϵ Z q + ϵnqZqnqZq+qZqϵZq+ϵ

Eso es todo lo que necesitamos para saber que la simulación funcionará. Puede elegir cualquier grado deseado de precisión y nivel de confianza y saber que para un tamaño de muestra suficientemente grande , el estadístico de orden más cercano a en esa muestra tendrá una posibilidad de al menos de estar dentro de del verdadero cuantil .1 - α n n q 1 - α ϵ Z qϵ1αnnq1αϵZq


Una vez establecido que una simulación funcionará, el resto es fácil. Los límites de confianza pueden obtenerse a partir de los límites para la distribución binomial y luego transformarse nuevamente. Se puede encontrar una explicación más detallada (para el cuantil , pero generalizando a todos los cuantiles) en las respuestas en Teorema del límite central para medianas de muestra .q=0.50

Figura: histograma de cuantiles 0.01 de Y con n = 300 para 1000 iteraciones

El cuantil de es negativo. Su distribución de muestreo es muy sesgada. Para reducir la inclinación, Esta figura muestra un histograma de los logaritmos de los negativos de 1.000 muestras simuladas de valores de .Y n = 300 Yq=0.01Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.