Número esperado de veces que la media empírica superará un valor

Dada una secuencia de variables aleatorias iid, digamos, para , estoy tratando de limitar el número esperado de veces la media empírica excederá un valor, , a medida que continuamos tomando muestras, es decir: $X_i \in [0,1]$ $i = 1,2,...,n$ $\frac{1}{n}\sum_{i=1}^n X_i$ $c \geq 0$

T \overset{d e f}{=} \sum_{j = 1}^{n} P ({\frac{1}{j} \sum_{i = 1}^{j} X_{i} \geq c})

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \mathbb{P} \left(\left\{ \frac{1}{j}\sum_{i=1}^j X_i \geq c\right\}\right)$

Si suponemos que para algunos , podemos usar la desigualdad de Hoeffding para llegar a $c = a + \mathbb{E}[X]$ $a > 0$

\begin{aligned} T & \leq \sum_{j = 1}^{n} e^{- 2 j a^{2}} \\ = \frac{1 - e^{- 2 a^{2} n}}{e^{2 a^{2}} - 1} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n e^{-2ja^2} \\ & = \frac{1 - e^{-2 a^2 n}}{e^{2 a^2}-1} \end{align}$

Lo que se ve bien (tal vez) pero en realidad es un límite bastante flojo, ¿hay alguna forma mejor de limitar este valor? Espero que haya una manera, ya que los diferentes eventos (para cada ) claramente no son independientes, no conozco ninguna forma de explotar esta dependencia. Además, sería bueno eliminar la restricción de que es mayor que la media. $j$ $c$

editar : La restricción de que sea mayor que la media se puede eliminar si utilizamos la Desigualdad de Markov de la siguiente manera: $c$

\begin{aligned} T & \leq \sum_{j = 1}^{n} \frac{\frac{1}{j} E [X]}{c} \\ = \frac{E [X] H_{n}}{c} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n \frac{\frac{1}{j}\mathbb{E}[X]}{c} \\ & = \frac{\mathbb{E}[X]H_n}{c} \end{align}$ Que es más general, pero mucho peor que el límite anterior, aunque está claro que debe divergir cada vez que .

T

$\mathcal{T}$

c \leq E [X]

$c \leq \mathbb{E}[X]$

mathematical-statistics expected-value bounds

— Fairidox
fuente

Su definición de no coincide con su descripción. Si se eliminaran las " ", sería el número esperado de superaciones de , pero tal como está escrito, es una combinación lineal de las veces . No es manifiestamente una expectativa porque las probabilidades no son mutuamente excluyentes. Por ejemplo, cuando , .

T

$\mathcal{T}$

j \times

$j\times$

c

$c$

c \leq 0

$c\le 0$

T = n (n + 1) / 2

$\mathcal{T} = n(n+1)/2$

— whuber

@whuber oh, cierto, buen punto gracias, lo arreglé arriba.

— fairidox

Noté que cambiaste tu límite superior. Ahora parece ser negativo ;-).

— whuber

¿No debería ser cuadrada la " " en la exponencial? - Ok, se simplifica con el dominio [0,1]

j

$j$

— Alecos Papadopoulos

Este es un enfoque hecho a mano, y realmente agradecería algún comentario al respecto (y los que critican suelen ser los más útiles). Si entiendo correctamente, el OP calcula medias de muestra , donde cada muestra contiene la observación anterior de la muestra +1 de un nuevo rv la distribución de la media de cada muestra. Entonces podemos escribir $\bar x_j$ $F_j$

T \overset{d e f}{=} \sum_{j = 1}^{n} (1 - F_{j} (c)) = n - \sum_{j = 1}^{n} F_{j} (c)

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \left(1-F_j(c)\right) = n- \sum_{j=1}^n F_j(c)$

Considere un tamaño de muestra después de lo cual la distribución de la media de la muestra es casi normal, denotar que . Entonces podemos escribir $m$ $\hat G$

T = n - \sum_{j = 1}^{m} F_{j} (c) - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c) < n - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c)

$\mathcal{T} = n- \sum_{j=1}^m F_j(c)-\sum_{j=m+1}^n \hat G_j(c) < n-\sum_{j=m+1}^n \hat G_j(c)$

Resolviendo obtenemos donde es la normal estándar cdf, es la desviación estándar del proceso iid, y es su media. Insertando en el límite y reorganizando obtenemos $\hat G_j(c)$

{\hat{G}}_{j} (c) = 1 - Φ (\frac{\sqrt{j}}{σ} (μ - c))

$\hat G_j(c) = 1- \Phi\left(\frac{\sqrt j}{\sigma}(\mu-c)\right)$

Φ

$\Phi$

σ

$\sigma$

μ

$\mu$

T < m + \sum_{j = m + 1}^{n} Φ (\frac{\sqrt{j}}{σ} (- a))

$\mathcal{T} < m+\sum_{j=m+1}^n \Phi\left(\frac{\sqrt j}{\sigma}(-a)\right)$

Tenga en cuenta que este límite depende también de la varianza del proceso. ¿Es este un límite mejor que el presentado en la pregunta? Esto dependerá crucialmente de cuán "rápidamente" la distribución de la media de la muestra se vuelva "casi normal". Para dar un ejemplo numérico, suponga que . Suponga también que las variables aleatorias son uniformes en . Entonces y . Considere una desviación del 10% de la media, es decir, establezca . entonces: ya para el límite que propongo (que es significativo para ) se vuelve más estricto. Para el límite de Hoeffding es $m= 30$ $[0,1]$ $\sigma = \sqrt \frac{1}{12}$ $\mu = \frac 12$ $a=0.05$ $n=34$ $n>30$ $n=100$ $78.5$ mientras que el límite que propongo es . El límite de Hoeffding converge a mientras que el límite que propongo a Si aumenta discrepancia entre los dos límites se reduce pero permanece visible: para una desviación del 20%, , el límite de Hoeffding converge a mientras que el El límite que propongo converge a (es decir, la suma de los cdf normales contribuye muy poco al límite general). De manera algo más general, notamos que para el límite Hoeffding converge a $36.2$ $\approx 199.5$ $\approx 38.5$ $a$ $a=0.1$ $49.5$ $30.5$
$n\rightarrow \infty$

H_{b} \to \frac{1}{e^{2 a^{2}} - 1}

$H_b\rightarrow \frac{1}{e^{2 a^2}-1}$ mientras mi enlace a

A_{b} \to m

$A_b \rightarrow m$

Dado que para valores pequeños de (que es más bien el caso de interés) convierte en un gran número, todavía existe el caso de que pueda superarlo en la estanqueidad, incluso si la muestra es tal que la distribución de la media de la muestra converge lentamente a La distribución normal. $a$ $H_b$ $A_b$

— Alecos Papadopoulos
fuente

" (es decir, no más del umbral de tamaño de muestra supuesto que se necesita para obtener la aproximación normal en la distribución de la media de la muestra) " ¿de qué estás hablando aquí?

— Glen_b -Reinstale a Monica el

Nada importante. Mientras escribo algunas líneas arriba, una regla general para que la distribución de la media de la muestra sea "mucho" como normal, es que necesitamos al menos un tamaño de muestra de 30. Entonces, para el tamaño de muestra 100 y una desviación del 20% caso, mi límite es es decir, - en otras palabras, parte del límite contribuye muy poco.

\approx 30.5

$\approx 30.5$

m + 0.5

$m + 0.5$

\sum_{j = m + 1}^{n} Φ (\frac{\sqrt{j}}{σ} (- a))

$\sum_{j=m+1}^n \Phi\left(\frac{\sqrt j}{\sigma}(-a)\right)$

— Alecos Papadopoulos

A menos que pueda establecer las circunstancias en las que se encuentra , evite llamar a esa cosa una regla general en cualquier sentido general. La cifra de 30 es completamente arbitraria (por lo general, demasiado débil o demasiado fuerte), y ese 30 también aparece en su caso, creo que es una simple coincidencia.

— Glen_b -Reinstate Monica

@Glen_b "30" ni siquiera fue una coincidencia, simplemente lo usé para proporcionar un ejemplo numérico. No tengo ninguna objeción al problema, no me gustan las "reglas generales" (especialmente cuando son dudosas). He hecho algunos cambios en mi respuesta. Gracias por el aporte.

— Alecos Papadopoulos

@Glen_b ¡Gracias por la memoria posiblemente no estacionaria (es decir, larga)!

— Alecos Papadopoulos