Cómo obtener la función cuantil cuando no se conoce una forma analítica de la distribución

El problema proviene de la página 377-379 de este [0] documento.

Dada una distribución continua y una fija , considere: $F$ $z\in\mathbb{R}$

L_{z} (t) = P_{F} (| z - Z | \leq t)

$L_z(t)=P_F(|z-Z|\leq t)$

H (z) = L_{z}^{- 1} (0.5) = \underset{Z \sim F}{med} | z - Z |

$H(z)=L^{-1}_z(0.5)=\underset{Z\sim F}{\mbox{med}}|z-Z|$

donde es el inverso continuo correcto. Entonces, para una fija , esta es la distancia media de todos los a . A continuación, considere la función: $L^{-1}_z(u)=\inf\{t:L_z(t)>u\}$ $z$ $Z\sim F$ $z$

L (t) = P_{F} (H (Z) \leq t)

$L(t)=P_F(H(Z)\leq t)$

Ahora, no tengo una expresión analítica para $H(z)$ (de hecho, estoy bastante seguro de que no es posible una expresión analítica para ella), pero dado un CDF $F$ , puedo usar fácilmente un algoritmo de búsqueda de raíz para obtener $H(z)$ para cualquier dada $z$ .

En esta aplicación, el interés está en:

L^{- 1} (0.5) = \underset{Z \sim F}{med} H (Z)

$L^{-1}(0.5)=\underset{Z\sim F}{\mbox{med}}H(Z)$

Este es el valor de la mediana de la $H(Z)$ , de nuevo, para $Z\sim F$ .

En este momento para obtener , calculo (como se explicó anteriormente, usando un algoritmo de búsqueda de raíz) valores de correspondientes a muchos valores de en una cuadrícula y tomo la mediana ponderada de estos valores de (con pesos ) como mi estimación de . $L^{-1}(0.5)$ $H(z)$ $z$ $H(z)$ $f(z)$ $L^{-1}(0.5)$

Mis preguntas son:

¿Existe un enfoque más preciso para obtener (los autores del artículo no dicen cómo se calcula ) y $L^{-1}(0.5)$ $L^{-1}(0.5)$
¿Cómo se debe elegir la cuadrícula de valores de ? $z$

[0] Ola Hössjer, Peter J. Rousseeuw y Christophe Croux. Asintóticas de un estimador de una dispersión robusta funcional. Statistica Sinica 6 (1996), 375-388.

— usuario603
fuente

Según la notación y la terminología, se supone que debemos entender " " como mapear cualquier en el número (eso es lo que hacen los "funcionales", después de todo). Pero entonces, ¿qué podría " "? Podría ser una distribución (literalmente, la inversa de ) o, más probablemente, un número (si arreglamos y como una función , ¡no funcional!), Pero no veo ninguna manera interpretarlo como una variable aleatoria con la distribución . Eso hace que

L_{z} (t)

$L_z(t)$

F

$F$

L_{z} (t) [F] = P_{F} (| z - Z | \leq t)

$L_z(t)[F]=P_F(|z-Z|\le t)$

L_{z}^{- 1} (q)

$L_z^{-1}(q)$

L_{z} (t)

$L_z(t)$

F

$F$

L_{z}

$L_z$

F

$F$

M_{q} (t)

$M_q(t)$ bastante misterioso

— whuber

Un poquito, pero aún debe haber algunos errores tipográficos. ¿Quizás en la definición de quisiste usar " " (una variable aleatoria con para su distribución) en lugar de " "? Después de todo, no se puede asignar una probabilidad a " ", ya que ambos y son números. Aquí corre un gran riesgo de que un pequeño error tipográfico en cualquier ecuación convierta su pregunta en algo completamente involuntario e irrelevante; lo que es peor, es posible obtener respuestas correctas que se interpretan mal! Ayudaría (mucho) incluir explicaciones en inglés de lo que se pretende que represente cada fórmula.

L (t)

$L(t)$

Z

$Z$

F

$F$

z

$z$

H (z) \leq t

$H(z)\le t$

H (z)

$H(z)$

t

$t$

— whuber

Respuestas:

$\DeclareMathOperator*{\med}{med}$ La mediana es el punto que minimiza la distancia esperada : $L^1$

\underset{Z}{med} f (Z) = \arg min_{m} E_{z} | f (Z) - m |

$\med_Z f(Z) = \arg\min_m E_z|f(Z) - m|$

Por lo tanto, podemos simplificar su expresión:

\underset{z_{1} \sim F}{med} \underset{z_{2} \sim F}{med} | z_{1} - z_{2} | = \arg min_{m_{1}} E_{z_{1} \sim F} | m_{1} - \arg min_{m_{2}} E_{z_{2} \sim F} | m_{2} - | z_{1} - z_{2} | | |

$\begin{equation}\med_{z_1 \sim F} \med_{z_2 \sim F} |z_1 - z_2| \\ = \arg\min_{m_1}E_{z_1 \sim F}\left| m_1 - \arg\min_{m_2} E_{z_2 \sim F}\left| m_2 - \left|z_1 - z_2\right|\right|\right| \end{equation}$

Creo que este es un problema de optimización de dos niveles , del que no sé demasiado, pero quizás existen técnicas estándar que puede aplicar. Por otra parte, podría no ser más rápido que simplemente calcular la mediana de la muestra de medianas para muestras más grandes hasta la convergencia.

— Ben Kuhn
fuente

No creo que esto solucione el problema, porque no estamos tratando con la realización de aquí sino con la propia (si lo desea, me interesan los valores de estos objetos cuando el tamaño de la muestra es ). ¿Pero tal vez no entiendo tu respuesta?

F

$F$

F

$F$

\infty

$\infty$

— user603

Bueno, me di cuenta de que cometí un error con la derivación de todos modos: las optimizaciones están realmente anidadas. Creo que todavía hay técnicas de optimización que puede usar, pero no sé si son mejores que simplemente tomar la segunda mediana en una muestra grande como lo ha estado haciendo.

— Ben Kuhn

bueno, así que ahora nos preguntamos lo mismo;)

— user603

Un enfoque directo basado en datos para estimar la función cuantil consiste en:

iniciando sus observaciones para generar muchos más valores que los de su muestra original (especialmente, valores más allá del rango de la muestra limitada inicial). Una buena estrategia es utilizar un esquema de simulación de arranque suavizado para evitar las principales limitaciones del arranque básico no paramétrico. Esto es equivalente a simular a partir de una estimación de densidad del núcleo.
a partir de esto, puede obtener la función empírica de distribución acumulativa (CDF) de los valores simulados ( ecdffunción en R). La inversa del CDF no es más que la función cuantil ( quantile función en R). Vea aquí para obtener los valores y trazar su función cuantil. Incluso puedes obtener bandas de confianza.

Sin embargo, un requisito previo es que muestre características suficientes observaciones para al menos tener una buena idea de la forma de su PDF subyacente.

— Antoine
fuente

¿Por qué crees que obtienes una mayor precisión con bootstrapping?

— kjetil b halvorsen

El destino de cada muestra finita es que no contiene el espectro completo de observaciones que pueden ocurrir. Por ejemplo, el flujo máximo de la corriente de un río observado durante 100 años obviamente no es el máximo absoluto que puede suceder. Por lo tanto, sus estimaciones de la inundación de 500 años (cuantil de 0.998) o de la inundación de 1000 años (cuantil de 0.999) basadas en su muestra limitada estarán sesgadas (el riesgo será subestimado ). Por el contrario, si genera cientos de miles de nuevas observaciones simulando (a través de bootstrap suavizado o cualquier otra técnica), sus estimaciones serán más precisas

— Antoine

Eso es un malentendido! Todos los valores en la muestra bootstrapped provienen de la misma muestra limitada y finita, y no contienen más información que la muestra misma. Bootstrapping (como otras técnicas analíticas) solo puede ayudarnos a comprender mejor qué información hay en la muestra, no puede aumentar esa información.

— kjetil b halvorsen

¡No! Estoy hablando de la rutina de arranque suavizada . Genera observaciones nunca vistas, que exceden el rango de la muestra original. Haga clic en el enlace en mi respuesta anterior.

— Antoine

@ Antoine: OK, pero eso no cambia nada en mi comentario. Esos "obs" suavizados se generan a partir de su modelo del fenómeno, no del femonenón en sí mismo, por lo que no son "datos".

— kjetil b halvorsen

Entonces, creo que la mejor manera de obtener

{med}_{Z \sim F} H (Z)

$\text{med}_{Z\sim F} H(Z)$

Es para:

calcular las entradas de la $n$ vector $\{H(z_i)\}_{i=1}^n$ de valores de $H(z_i)$ correspondiente a una cuadrícula de $n$ valores de $\{z_i\}_{i=1}^n$ colocado uniformemente en $(F_Z^{-1}(\epsilon),F_Z^{-1}(1-\epsilon))$
Calcule la mediana ponderada de $\{H(z_i)\}_{i=1}^n$ con pesas $F_Z^\prime(z_i)$ .

— usuario603
fuente