Teoría del valor extremo - Show: Normal a Gumbel

El máximo de iid Standardnormals converge a la distribución estándar de Gumbel de acuerdo con la teoría del valor extremo . $X_1,\dots,X_n. \sim$

¿Cómo podemos demostrar eso?

Tenemos

P (max X_{i} \leq x) = P (X_{1} \leq x, \dots, X_{n} \leq x) = P (X_{1} \leq x) \dots P (X_{n} \leq x) = F (x)^{n}

$P(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n$

Necesitamos encontrar / elegir secuencias de constantes tales que: $a_n>0,b_n\in\mathbb{R}$

F {(a_{n} x + b_{n})}^{n} \to^{n \to \infty} G (x) = e^{- \exp (- x)}

$F\left(a_n x+b_n\right)^n\rightarrow^{n\rightarrow\infty} G(x) = e^{-\exp(-x)}$

¿Puedes resolverlo o encontrarlo en la literatura?

Hay algunos ejemplos pg.6 / 71 , pero no para el caso Normal:

Φ {(a_{n} x + b_{n})}^{n} = {(\frac{1}{\sqrt{2 π}} \int_{- \infty}^{a_{n} x + b_{n}} e^{- \frac{y^{2}}{2}} d y)}^{n} \to e^{- \exp (- x)}

$\Phi\left(a_n x+b_n\right)^n=\left(\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{a_n x+b_n} e^{-\frac{y^2}{2}}dy\right)^n\rightarrow e^{-\exp(-x)}$

— emcor
fuente

Respuestas:

Una forma indirecta es la siguiente:
para distribuciones absolutamente continuas, Richard von Mises (en un artículo de 1936 "La distribución de la plus grande de n valeurs" , que parece haber sido reproducido, en inglés, en una edición de 1964 con selección documentos suyos), ha proporcionado la siguiente condición suficiente para que el máximo de una muestra converja al estándar Gumbel, $G(x)$ :

Sea la función de distribución común de iid variables aleatorias, y su densidad común. Entonces sí $F(x)$ $n$ $f(x)$

lim_{x \to F^{- 1} (1)} (\frac{d}{d x} \frac{(1 - F (x))}{f (x)}) = 0 \Rightarrow X_{(n)} \overset{d}{\to} G (x)

$\lim_{x\rightarrow F^{-1}(1)}\left (\frac d{dx}\frac {(1-F(x))}{f(x)}\right) =0 \Rightarrow X_{(n)} \xrightarrow{d} G(x)$

Usando la notación habitual para el estándar normal y calculando la derivada, tenemos

\frac{d}{d x} \frac{(1 - Φ (x))}{ϕ (x)} = \frac{- ϕ (x)^{2} - ϕ^{'} (x) (1 - Φ (x))}{ϕ (x)^{2}} = \frac{- ϕ^{'} (x)}{ϕ (x)} \frac{(1 - Φ (x))}{ϕ (x)} - 1

$\frac d{dx}\frac {(1-\Phi(x))}{\phi(x)} = \frac {-\phi(x)^2-\phi'(x)(1-\Phi(x))}{\phi(x)^2} = \frac {-\phi'(x)}{\phi(x)}\frac {(1-\Phi(x))}{\phi(x)}-1$

Tenga en cuenta que . Además, para la distribución normal, . Entonces tenemos que evaluar el límite $\frac {-\phi'(x)}{\phi(x)} =x$ $F^{-1}(1) = \infty$

lim_{x \to \infty} (x \frac{(1 - Φ (x))}{ϕ (x)} - 1)

$\lim_{x\rightarrow \infty}\left (x\frac {(1-\Phi(x))}{\phi(x)}-1\right)$

Pero es la razón de Mill, y sabemos que la razón de Mill para la normal estándar tiende a medida que crece. Entonces $\frac {(1-\Phi(x))}{\phi(x)}$ $1/x$ $x$

lim_{x \to \infty} (x \frac{(1 - Φ (x))}{ϕ (x)} - 1) = x \frac{1}{x} - 1 = 0

$\lim_{x\rightarrow \infty}\left (x\frac {(1-\Phi(x))}{\phi(x)}-1\right) = x\frac {1}{x}-1= 0$

y se cumple la condición suficiente.

Las series asociadas se dan como

a_{n} = \frac{1}{n ϕ (b_{n})}, b_{n} = Φ^{- 1} (1 - 1 / n)

$a_n = \frac 1{n\phi(b_n)},\;\;\; b_n = \Phi^{-1}(1-1/n)$

APÉNDICE

Esto es del cap. 10.5 del libro HA David & HN Nagaraja (2003), "Estadísticas de pedidos" (edición 3d) .

$\xi_a = F^{-1}(a)$ . Además, la referencia a de Haan es "Haan, LD (1976). Ejemplos extremos: una introducción elemental. Statistica Neerlandica, 30 (4), 161-172 " . Pero tenga cuidado porque parte de la notación tiene contenido diferente en de Haan - por ejemplo, en el libro es la función de densidad de probabilidad, mientras que en de Haan significa la función del libro (es decir, la relación de Mill). Además, de Haan examina la condición suficiente ya diferenciada. $f(t)$ $f(t)$ $w(t)$

ingrese la descripción de la imagen aquí

— Alecos Papadopoulos
fuente

No estoy seguro de haber entendido su solución. Entonces tomaste a como el CDF normal estándar. Seguí adelante y acepto que se cumple la condición suficiente. Pero, ¿cómo es que las series asociadas y repentinas?

F

$F$

a_{n}

$a_n$

b_{n}

$b_n$

— renrenthehamster

@renrenthehamster Creo que estas dos partes están enunciadas independientemente (sin conexión directa).

— emcor

Entonces, ¿cómo se pueden obtener las series asociadas? De todos modos, abrí una consulta sobre este tema (y más en general, para otras distribuciones más allá del estándar normal)

— renrenthehamster

@renrenthehamster He agregado material relevante. No creo que haya una receta estándar para todos los casos, para encontrar estas series.

— Alecos Papadopoulos

La pregunta plantea dos cosas: (1) cómo mostrar que el máximo converge, en el sentido de que converge (en distribución) para secuencias elegidas adecuadamente y , a la distribución estándar de Gumbel y (2) cómo encontrar tales secuencias. $X_{(n)}$ $(X_{(n)}-b_n)/a_n$ $(a_n)$ $(b_n)$

El primero es bien conocido y documentado en los documentos originales sobre el teorema de Fisher-Tippett-Gnedenko (FTG). El segundo parece ser más difícil; ese es el problema abordado aquí.

Tenga en cuenta que para aclarar algunas afirmaciones que aparecen en otras partes de este hilo, que

El máximo no converge a nada: diverge (aunque extremadamente lento).
Parece haber diferentes convenciones sobre la distribución de Gumbel. Adoptaré la convención de que el CDF de una distribución Gumbel invertida es, a escala y ubicación, dado por . Un máximo adecuadamente estandarizado de las variaciones normales de iid converge a una distribución de Gumbel invertida. $1-\exp(-\exp(x))$

Intuición

Cuando los son iid con la función de distribución común , la distribución del máximo es $X_i$ $F$ $X_{(n)}$

F_{n} (x) = Pr (X_{(n)} \leq x) = Pr (X_{1} \leq x) Pr (X_{2} \leq x) \dots Pr (X_{n} \leq x) = F^{n} (x) .

$F_n(x) = \Pr(X_{(n)}\le x) = \Pr(X_1 \le x)\Pr(X_2 \le x) \cdots \Pr(X_n \le x) = F^n(x).$

Cuando el soporte de no tiene límite superior, como con una distribución Normal, la secuencia de funciones marcha para siempre a la derecha sin límite: $F$ $F^n$

Figura 1

Se muestran gráficos parciales de para . $F_n$ $n=1,2,2^2, 2^4, 2^8, 2^{16}$

Para estudiar las formas de estas distribuciones, podemos cambiar cada una hacia la izquierda en una cantidad y reescalarla por para hacerlas comparables. $b_n$ $a_n$

Figura 2

Cada uno de los gráficos anteriores se ha desplazado para colocar su mediana en y para hacer su rango intercuartil de longitud unitaria. $0$

FTG afirma que las secuencias y se pueden elegir para que estas funciones de distribución converjan puntualmente en cada a alguna distribución de valor extremo , hasta la escala y la ubicación. Cuando es una distribución Normal, la distribución de límite extremo particular es un Gumbel invertido, hasta su ubicación y escala. $(a_n)$ $(b_n)$ $x$ $F$

Solución

Es tentador emular el Teorema del límite central al estandarizar para que tenga media unitaria y varianza unitaria. Sin embargo, esto es inapropiado, en parte porque FTG se aplica incluso a distribuciones (continuas) que no tienen primer o segundo momento. En cambio, use un percentil (como la mediana) para determinar la ubicación y una diferencia de percentiles (como el IQR) para determinar la propagación. (Este enfoque general debería tener éxito en encontrar y para cualquier distribución continua). $F_n$ $a_n$ $b_n$

Para la distribución Normal estándar, ¡esto resulta fácil! Deje . Un cuantil de correspondiente a es cualquier valor para el cual . Recordando la definición de , la solución es $0 \lt q \lt 1$ $F_n$ $q$ $x_q$ $F_n(x_q) = q$ $F_n(x) = F^n(x)$

x_{q; n} = F^{- 1} (q^{1 / n}) .

$x_{q;n} = F^{-1}(q^{1/n}).$

Por lo tanto, podemos establecer

b_{n} = x_{1 / 2; n}, a_{n} = x_{3 / 4; n} - x_{1 / 4; n}; G_{n} (x) = F_{n} (a_{n} x + b_{n}) .

$b_n = x_{1/2;n},\ a_n = x_{3/4;n} - x_{1/4;n};\ G_n(x) = F_n(a_n x + b_n).$

Debido a que, por construcción, la mediana de es y su IQR es , la mediana del valor límite de (que es alguna versión de un Gumbel invertido) debe ser y su IQR debe ser . Deje que el parámetro de escala sea y el parámetro de ubicación sea . Como la mediana es y el IQR se encuentra fácilmente como , los parámetros deben ser $G_n$ $0$ $1$ $G_n$ $0$ $1$ $\beta$ $\alpha$ $\alpha + \beta \log\log(2)$ $\beta(\log\log(4) - \log\log(4/3))$

α = \frac{\log \log 2}{\log \log (4 / 3) - \log \log (4)}; β = \frac{1}{\log \log (4) - \log \log (4 / 3)} .

$\alpha = \frac{\log\log 2}{\log\log(4/3) - \log\log(4)};\ \beta = \frac{1}{\log\log(4) - \log\log(4/3)}.$

No es necesario que y sean exactamente estos valores: solo necesitan aproximarlos, siempre que el límite de siga siendo esta distribución inversa de Gumbel. El análisis directo (pero tedioso) para una normal estándar indica que las aproximaciones $a_n$ $b_n$ $G_n$ $F$

a_{n}^{'} = \frac{\log ((4 \log^{2} (2)) / (\log^{2} (\frac{4}{3})))}{2 \sqrt{2 \log (n)}}, b_{n}^{'} = \sqrt{2 \log (n)} - \frac{\log (\log (n)) + \log (4 π \log^{2} (2))}{2 \sqrt{2 \log (n)}}

$a_n^\prime = \frac{\log \left(\left(4 \log^2(2)\right)/\left(\log^2\left(\frac{4}{3}\right)\right)\right)}{2\sqrt{2\log (n)}},\ b_n^\prime = \sqrt{2\log (n)}-\frac{\log (\log (n))+\log \left(4 \pi \log ^2(2)\right)}{2 \sqrt{2\log (n)}}$

funcionará bien (y son lo más simple posible).

figura 3

Las curvas de color azul claro son gráficos parciales de para utilizando las secuencias aproximadas y . La línea roja oscura representa la distribución inversa de Gumbel con los parámetros y . La convergencia es clara (aunque la tasa de convergencia para negativo es notablemente más lenta). $G_n$ $n=2, 2^6, 2^{11}, 2^{16}$ $a_n^\prime$ $b_n^\prime$ $\alpha$ $\beta$ $x$

Referencias

BV Gnedenko, Sobre la distribución limitante del plazo máximo en una serie aleatoria . En Kotz y Johnson, Breakthroughs in Statistics Volumen I: Fundamentos y teoría básica, Springer, 1992. Traducido por Norman Johnson.

— whuber
fuente

@Vossler La fórmula en la publicación de Alecos para converge a como . Se comporta como para grande .

a_{n}

$a_n$

0

$0$

n \to \infty

$n\to\infty$

{(2 \log (n) - \log (2 π))}^{- 1 / 2}

$\left(2 \log(n) - \log(2\pi)\right)^{-1/2}$

n

$n$

— whuber

Sí, es cierto, me di cuenta de esto poco después de publicar mi comentario, así que lo eliminé de inmediato. ¡Gracias!

— Vossler

@Jess Esperaba que esta respuesta se entendiera como una muestra, entre otras cosas, de que no existe tal cosa como "la" fórmula: hay innumerables fórmulas correctas para y

a_{n}

$a_n$

b_{n} .

$b_n.$

— Whuber

@Jess Eso está mejor, porque demostrar un enfoque alternativo fue la motivación para escribir esta respuesta. No entiendo su insinuación de que consideraba "inútil escribir una respuesta", porque eso es explícitamente lo que he hecho aquí.

— whuber

@Jess No puedo continuar esta conversación porque es completamente unilateral: todavía tengo que reconocer todo lo que he escrito en cualquiera de tus caracterizaciones. Renuncio mientras estoy detrás.

— whuber