¿Por qué usar la teoría del valor extremo?

18

Vengo de Ingeniería Civil, en la que utilizamos la Teoría del Valor Extremo , como la distribución GEV para predecir el valor de ciertos eventos, como La mayor velocidad del viento , es decir, el valor al que sería menor el 98.5% de la velocidad del viento.

Mi pregunta es ¿por qué usar una distribución de valores tan extrema ? ¿No sería más fácil si solo utilizáramos la distribución general y obtuviéramos el valor para la probabilidad del 98.5% ?

quantiles extreme-value

— cqcn1991
fuente

24

Descargo de responsabilidad: en los siguientes puntos, esto BRUTO supone que sus datos se distribuyen normalmente. Si realmente está diseñando algo, hable con un profesional de estadísticas sólido y deje que esa persona firme en la línea diciendo cuál será el nivel. Hable con cinco de ellos, o 25 de ellos. Esta respuesta está destinada a un estudiante de ingeniería civil que pregunta "por qué", no a un profesional de ingeniería que pregunta "cómo".

Creo que la pregunta detrás de la pregunta es "¿cuál es la distribución de valor extremo?". Sí, es algo de álgebra - símbolos. ¿Y qué? ¿Derecha?

Pensemos en las inundaciones de 1000 años. Ellos son grandes.

Cuando sucedan, van a matar a mucha gente. Se están cayendo muchos puentes.
¿Sabes qué puente no baja? Hago. Tú no ... todavía.

Pregunta: ¿Qué puente no se cae en una inundación de 1000 años?
Respuesta: El puente diseñado para resistirlo.

Los datos que necesita para hacerlo a su manera:
Entonces, digamos que tiene 200 años de datos diarios de agua. ¿Es la inundación de 1000 años allí? No remotamente Tienes una muestra de una cola de la distribución. No tienes la población. Si supiera todo el historial de inundaciones, tendría la población total de datos. Pensemos en esto. ¿Cuántos años de datos necesita tener, cuántas muestras, para tener al menos un valor cuya probabilidad sea 1 en 1000? En un mundo perfecto, necesitaría al menos 1000 muestras. El mundo real es desordenado, por lo que necesitas más. Comienza a obtener probabilidades de 50/50 en aproximadamente 4000 muestras. Comienza a obtener la garantía de tener más de 1 en alrededor de 20,000 muestras. La muestra no significa "agua un segundo frente al siguiente", sino una medida para cada fuente única de variación, como la variación de un año a otro. Una medida durante un año, junto con otra medida durante otro año constituyen dos muestras. Si no tiene 4.000 años de buenos datos, es probable que no tenga un ejemplo de inundación de 1000 años en los datos. Lo bueno es que no necesita tanta información para obtener un buen resultado.

Aquí le mostramos cómo obtener mejores resultados con menos datos:
si observa los máximos anuales, puede ajustar la "distribución de valores extremos" a los 200 valores de niveles máximos anuales y obtendrá la distribución que contiene la inundación de 1000 años -nivel. Será el álgebra, no el verdadero "cuán grande es". Puede usar la ecuación para determinar qué tan grande será la inundación de 1000 años. Luego, dado ese volumen de agua, puede construir su puente para resistirlo. No dispare por el valor exacto, dispare por más grande, de lo contrario lo está diseñando para fallar en la inundación de 1000 años. Si está en negrita, puede usar el remuestreo para determinar cuánto más allá del valor exacto de 1000 años necesita construirlo para que resista.

Aquí es por qué EV / GEV son las formas analíticas relevantes:
La distribución generalizada de valores extremos se trata de cuánto varía el máximo. La variación en el máximo se comporta realmente diferente a la variación en la media. La distribución normal, a través del teorema del límite central, describe muchas "tendencias centrales".

Procedimiento:

haga lo siguiente 1000 veces:
i. elegir 1000 números de la distribución normal estándar
ii. calcule el máximo de ese grupo de muestras y almacénelo

ahora grafica la distribución del resultado

#libraries
library(ggplot2)

#parameters and pre-declarations
nrolls <- 1000
ntimes <- 10000
store <- vector(length=ntimes)

#main loop
for (i in 1:ntimes){

     #get samples
     y <- rnorm(nrolls,mean=0,sd=1)

     #store max
     store[i] <- max(y)
}

#plot
ggplot(data=data.frame(store), aes(store)) + 
     geom_histogram(aes(y = ..density..),
                    col="red", 
                    fill="green", 
                    alpha = .2) + 
     geom_density(col=2) + 
     labs(title="Histogram for Max") +
     labs(x="Max", y="Count")

Esta NO es la "distribución normal estándar": ingrese la descripción de la imagen aquí

El pico está en 3.2 pero el máximo sube hacia 5.0. Tiene sesgo. No se pone por debajo de aproximadamente 2.5. Si tenía datos reales (la normal estándar) y simplemente escoge la cola, entonces está escogiendo algo al azar de manera uniforme a lo largo de esta curva. Si tienes suerte, entonces estás hacia el centro y no hacia la cola inferior. La ingeniería es casi lo opuesto a la suerte: se trata de lograr constantemente los resultados deseados cada vez. " Los números aleatorios son demasiado importantes para dejarlos al azar " (ver nota al pie), especialmente para un ingeniero. La familia de funciones analíticas que mejor se ajusta a estos datos: la familia de distribuciones de valor extremo.

Ajuste de la muestra:
supongamos que tenemos 200 valores aleatorios del año máximo de la distribución normal estándar, y vamos a pretender que son nuestros 200 años de historia de niveles máximos de agua (lo que sea que eso signifique). Para obtener la distribución, haríamos lo siguiente:

Muestree la variable "almacenar" (para crear un código corto / fácil)
ajustarse a una distribución generalizada de valores extremos
encuentra la media de la distribución
use bootstrapping para encontrar el límite superior de IC del 95% en la variación de la media, para que podamos enfocar nuestra ingeniería para eso.

(el código presupone que lo anterior se ejecutó primero)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Esto da resultados:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021

Estos se pueden conectar a la función de generación para crear 20,000 muestras

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Desarrollar lo siguiente dará 50/50 probabilidades de fallar en cualquier año:

media (y3)
3.23681

Aquí está el código para determinar cuál es el nivel de "inundación" de 1000 años:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Desarrollar lo siguiente debería darle una probabilidad de 50/50 de fallar en la inundación de 1000 años.

p1000
4.510931

Para determinar el IC superior al 95% utilicé el siguiente código:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

El resultado fue:

> mytarget
     95% 
4.812148

Esto significa que, para resistir la gran mayoría de las inundaciones de 1000 años, dado que sus datos son inmaculadamente normales (no es probable), debe construir para ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

o la

> 1/(1-out)
   shape 
1077.829

... 1078 años de inundación.

Líneas inferiores:

tiene una muestra de los datos, no la población total real. Eso significa que sus cuantiles son estimaciones y podrían estar apagados.
Distribuciones como la distribución generalizada de valores extremos están construidas para usar las muestras para determinar las colas reales. Están mucho menos mal estimados que utilizando los valores de muestra, incluso si no tiene suficientes muestras para el enfoque clásico.
Si eres robusto, el techo es alto, pero el resultado es que no fallas.

La mejor de las suertes

PD:

$1 / / (1 - 0,985) \approx 67$ $1/(1-0.985) \approx 67$
Dado el punto anterior, en promedio cada 67 años la gente civil debería tener que reconstruir. Entonces, con el costo total de la ingeniería y la construcción cada 67 años, dada la vida operativa de la estructura civil (no sé qué es eso), en algún momento podría ser menos costoso diseñar para un período más largo entre tormentas. Una infraestructura civil sostenible está diseñada para durar al menos una vida humana sin fallar, ¿verdad?

PD: más divertido: un video de YouTube (no el mío)
https://www.youtube.com/watch?v=EACkiMRT0pc

Nota al pie: Coveyou, Robert R. "La generación de números aleatorios es demasiado importante para dejarla al azar". Probabilidad aplicada y métodos de Monte Carlo y aspectos modernos de la dinámica. Estudios en matemática aplicada 3 (1969): 70-111.

— EngrStudent - Restablece a Monica
fuente

2

Puede que no sea lo suficientemente claro. Mi principal preocupación es por qué usar en extreme value distributionlugar de the overall distributionajustar los datos y obtener los valores de 98.5%.

— cqcn1991

¿Qué quieres decir con la población general?

— kjetil b halvorsen 27/06/2015

1

Se actualizó la respuesta.

— EngrStudent - Restablece a Monica el

2

@EngrStudent es una gran respuesta, sin embargo, sería aún mejor si mostraras cómo funciona EVT aquí mejor que usar la distribución Normal además de proporcionar una ilustración.

— Tim

2

Después de hacer un trabajo de modelado, diría que usar la distribución principal es simplemente peligroso, porque los datos son muy pocos, y la extrapolación es simplemente peligrosa e inestable, para modelar eventos extremos. Y así es como deberíamos usar la teoría EV en su lugar.

— cqcn1991

7

Utiliza la teoría del valor extremo para extrapolar a partir de los datos observados. A menudo, los datos que tiene simplemente no son lo suficientemente grandes como para proporcionarle una estimación razonable de una probabilidad de cola. Tomando el ejemplo de @ EngrStudent de un evento de 1 en 1000 años: eso corresponde a encontrar el cuantil del 99.9% de una distribución. Pero si solo tiene 200 años de datos, solo puede calcular estimaciones de cuantiles empíricos de hasta el 99.5%.

La teoría del valor extremo le permite estimar el cuantil del 99.9%, haciendo varias suposiciones sobre la forma de su distribución en la cola: que es suave, que se descompone con un cierto patrón, y así sucesivamente.

Quizás esté pensando que la diferencia entre 99.5% y 99.9% es menor; es solo 0.4% después de todo. Pero esa es una diferencia en la probabilidad , y cuando estás en la cola, puede traducirse en una gran diferencia en los cuantiles . Aquí hay una ilustración de cómo se ve para una distribución gamma, que no tiene una cola muy larga a medida que pasan estas cosas. La línea azul corresponde al 99.5% cuantil, y la línea roja es el 99.9% cuantil. Si bien la diferencia entre estos es pequeña en el eje vertical, la separación en el eje horizontal es sustancial. La separación solo se hace más grande para distribuciones verdaderamente largas; La gamma es en realidad un caso bastante inocuo.

ingrese la descripción de la imagen aquí

— Hong Ooi
fuente

Tu respuesta es incorrecta. El punto de 99.9% de un dado normal anual no corresponde a un evento de 1 en 1000 años. El máximo de 1000 normales tiene una distribución diferente. Creo que eso se aborda en otras respuestas.

— Mark L. Stone

@ MarkL.Stone En ninguna parte dije nada sobre el máximo de 1000 normales.

— Hong Ooi

1

Ese es exactamente mi punto. El evento 1 en 1000 años debe basarse en el máximo de 1000 anuales normales. Eso es muy diferente al punto de $ 99.9 en un Normal anual. Vea mi comentario a la respuesta de Karel Macek a continuación.

— Mark L. Stone

@ MarkL.Stone El objetivo del gráfico es solo mostrar que cuando estás en la cola, pequeños cambios en las probabilidades corresponden a grandes cambios en los cuantiles. Puede sustituir el cuantil del 99% de un GEV, o un GPD, o cualquier otra distribución. (Y ni siquiera mencioné la distribución normal.)

— Hong Ooi

Además, estimar los máximos a través del GEV es solo una forma de obtener cuantiles de cola. La otra forma es estimar los cuantiles directamente a través del GPD (suponiendo una distribución de cola pesada).

— Hong Ooi

7

Si solo está interesado en una cola, tiene sentido que centre su recopilación de datos y análisis en la cola. Debería ser más eficiente hacerlo. Hice hincapié en la recopilación de datos porque este aspecto a menudo se ignora al presentar un argumento para las distribuciones EVT. De hecho, podría ser inviable recopilar los datos relevantes para estimar lo que llama una distribución general en algunos campos. Explicaré con más detalle a continuación.

Si está viendo una inundación de 1 en 1000 años, como en el ejemplo de @ EngrStudent, entonces para construir el cuerpo de la distribución normal necesita muchos datos para llenarlo con observaciones. Potencialmente necesita cada inundación que haya ocurrido en los últimos cientos de años.

Ahora pare por un segundo y piense en qué es exactamente una inundación. Cuando mi patio trasero se inunda después de una fuerte lluvia, ¿es una inundación? Probablemente no, pero ¿dónde está exactamente la línea que delinea una inundación de un evento que no es una inundación? Esta simple pregunta resalta el problema con la recopilación de datos. ¿Cómo puede asegurarse de que recopilamos todos los datos en el cuerpo siguiendo el mismo estándar durante décadas o incluso siglos? Es prácticamente imposible recopilar los datos sobre el cuerpo de la distribución de inundaciones.

Por lo tanto, no se trata solo de la eficiencia del análisis , sino de la viabilidad de la recopilación de datos : ¿se debe modelar toda la distribución o solo una cola?

Naturalmente, con colas, la recopilación de datos es mucho más fácil. Si definimos el umbral lo suficientemente alto para lo que es una gran inundación , entonces podemos tener una mayor probabilidad de que todos o casi todos estos eventos probablemente se registren de alguna manera. Es difícil pasar por alto una inundación devastadora, y si hay algún tipo de civilización presente, habrá algo de memoria guardada sobre el evento. Por lo tanto, tiene sentido crear herramientas analíticas que se centren específicamente en las colas dado que la recopilación de datos es mucho más robusta en eventos extremos en lugar de en eventos no extremos en muchos campos, como los estudios de confiabilidad.

— Aksakal
fuente

+1 Puntos interesantes y convincentes, especialmente en los comentarios al final.

— whuber

(+1) Relacionado con su último punto (memoria preservada), el efecto Sadler puede ser de interés.

— GeoMatt22

@ GeoMatt22, esta es la primera vez que veo el periódico y el término del efecto Sadler. Gracias por el enlace

— Aksakal

Ese es un punto realmente excelente. Es un sistema, por lo que un enfoque sistémico puede tener un rendimiento excelente. El mejor análisis del mundo puede estar envenenado con datos basura. Un análisis bastante simple, cuando se alimenta con buenos datos, puede tener excelentes resultados. ¡Buenos puntos!

— EngrStudent - Restablece a Monica el

6

Por lo general, la distribución de los datos subyacentes (p. Ej., Velocidades del viento gaussianas) es para un solo punto de muestra. El percentil 98 le dirá que para cualquier punto seleccionado al azar hay un 2% de posibilidades de que el valor sea mayor que el percentil 98.

No soy ingeniero civil, pero me imagino que lo que querría saber no es la probabilidad de que la velocidad del viento en un día determinado supere un cierto número, sino la distribución de la mayor ráfaga posible, por ejemplo, El curso del año. En ese caso, si los máximos diarios de la ráfaga de viento están, por ejemplo, distribuidos exponencialmente, entonces lo que desea es la distribución de la ráfaga de viento máxima durante 365 días ... esto es lo que la distribución de valor extremo estaba destinada a resolver.

1

El uso del cuantil simplifica el cálculo adicional. Los ingenieros civiles pueden sustituir el valor (velocidad del viento, por ejemplo) en sus fórmulas de primer principio y obtienen el comportamiento del sistema para aquellas condiciones extremas que corresponden al 98.5% cuantil.

El uso de toda la distribución podría parecer que proporciona más información, pero complicaría los cálculos. Sin embargo, podría permitir el uso de enfoques avanzados de gestión de riesgos que equilibrarían de manera óptima los costos relacionados con (i) la construcción y (ii) el riesgo de falla.

— Karel Macek
fuente

Bueno ... puede que no sea lo suficientemente claro. Solo quiero saber por qué usar la teoría del valor extremo en lugar de la distribución general (¿toda la distribución?) Que normalmente usamos?

— cqcn1991

1

Si la función de distribución acumulativa para cualquier instanciación, como la velocidad máxima diaria del viento, es F (x), entonces la función de distribución acumulativa para el máximo de n instancias independientes (por ejemplo, n = 365 para un año con la velocidad máxima diaria del viento ) es F ^ n (x). Esto es diferente de F (x).

— Mark L. Stone