Límite superior exponencial

Supongamos que tenemos variables aleatorias IID con distribución . Vamos a observar una muestra de las 's de la siguiente manera: dejemos que sean variables aleatorias independientes , supongamos que todas las e ' s son independientes y definen el tamaño de la muestra . Los indican cuáles de los están en la muestra, y queremos estudiar la fracción de éxitos en la muestra definida por $X_1,\dots,X_n$ $\mathrm{Ber}(\theta)$ $X_i$ $Y_1,\dots,Y_n$ $\mathrm{Ber}(1/2)$ $X_i$ $Y_i$ $N=\sum_{i=1}^n Y_i$ $Y_i$ $X_i$

Z = {\begin{cases} \frac{1}{N} \sum_{i = 1}^{n} X_{i} Y_{i} & if N > 0, \\ 0 & if N = 0 . \end{cases}

$Z = \begin{cases} \frac{1}{N}\sum_{i=1}^n X_i Y_i & \text{if}\quad N > 0\, , \\ 0 & \text{if} \quad N = 0 \, . \end{cases}$ Para , queremos encontrar un límite superior para que decae exponencialmente con . La desigualdad de Hoeffding no se aplica inmediatamente debido a las dependencias entre las variables.

ϵ > 0

$\epsilon>0$

P r (Z \geq θ + ϵ)

$\mathrm{Pr}\!\left(Z \geq \theta + \epsilon\right)$

n

$n$

probability-inequalities

— zen
fuente

Deje . (i) ¿No es independiente de ? (ii) ¿no es ? ... Como resultado, no está claro para mí que no sea 'una suma de variables aleatorias independientes'

Z_{i} = \frac{_{1}}{^{N}} X_{i} Y_{i}

$Z_i = \frac{_1}{^N} X_iY_i$

Z_{i}

$Z_i$

Z_{j \neq i}

$Z_{j\neq i}$

Z = \sum Z_{i}

$Z=\sum Z_i$

Z

$Z$

— Glen_b -Reinstate Monica

Ah, buen punto. Estaba pensando en , en lugar de . Pero, ¿no puedes escribir y dejar que ? Es decir, sumar todos los casos, ya sea que sea 1 o 0. ... no, eso no funciona. El numerador es el mismo pero el denominador es diferente.

n

$n$

N

$N$

Z_{i} = \frac{1}{n} X_{i} Y_{i}

$Z_i = \frac{1}{n}X_iY_i$

Z = \sum_{i = 1}^{n} Z_{i}

$Z=\sum_{i=1}^n Z_i$

Y

$Y$

— Glen_b -Reinstate a Monica el

Eso da menos de la fracción de éxitos en la muestra, que es la cantidad de interés en el problema, porque , ya que .

(1 / n) \sum_{i = 1}^{n} X_{i} Y_{i} \leq (1 / N) \sum_{i = 1}^{n} X_{i} Y_{i}

$(1/n)\sum_{i=1}^n X_i Y_i\leq (1/N)\sum_{i=1}^n X_i Y_i$

N \leq n

$N\leq n$

— Zen

Sí, por eso terminé con "no, eso no funciona". Hay desigualdades que se aplican al caso no independiente, como algunas de las desigualdades de Bernstein (ver el cuarto ítem), y hay una serie de desigualdades que se aplican a los martingales (aunque no sé si se aplicarán aquí).

— Glen_b -Reinstate Monica

Echaré un vistazo y también intentaré encontrar una conexión con los resultados de martingales. El límite para es tan fácil ( ) que es tentador conectar esto con usando algún tipo de condicionamiento.

U = (1 / n) \sum_{i = 1}^{n} X_{i} Y_{i}

$U=(1/n)\sum_{i=1}^nX_i Y _i$

P r (U \geq θ / 2 + ϵ) \leq \exp (- 2 n ϵ^{2})

$\mathrm{Pr}(U\geq \theta/2+\epsilon)\leq \exp(-2n\epsilon^2)$

Z

$Z$

— Zen

Respuestas:

Podemos establecer una conexión con la desigualdad de Hoeffding de una manera bastante directa .

Tenga en cuenta que tenemos

{Z > θ + ϵ} = {\sum_{i} X_{i} Y_{i} > (θ + ϵ) \sum_{i} Y_{i}} = {\sum_{i} (X_{i} - θ - ϵ) Y_{i} > 0} .

$\{ Z > \theta + \epsilon\} = \big\{\sum_i X_i Y_i > (\theta + \epsilon)\sum_i Y_i \big\} = \big\{ \sum_i (X_i - \theta - \epsilon) Y_i > 0 \} \>.$

Establezca para que sea iid, y mediante una aplicación directa de la desigualdad de Hoeffding (ya que y así tomar valores en un intervalo de tamaño uno). $Z_i = (X_i - \theta - \epsilon)Y_i + \epsilon/2$ $Z_i$ $\mathbb E Z_i = 0$

P (Z > θ + ϵ) = P (\sum_{i} Z_{i} > n ϵ / 2) \leq e^{- n ϵ^{2} / 2},

$\mathbb P( Z > \theta + \epsilon ) = \mathbb P\big(\sum_i Z_i > n \epsilon/2\big) \leq e^{-n \epsilon^2/2}\>,$

Z_{i} \in [- θ - ϵ / 2, 1 - θ - ϵ / 2]

$Z_i \in [-\theta-\epsilon/2,1-\theta-\epsilon/2]$

Existe una literatura relacionada rica y fascinante que se ha acumulado en los últimos años, en particular, sobre temas relacionados con la teoría de matrices aleatorias con diversas aplicaciones prácticas. Si está interesado en este tipo de cosas, le recomiendo:

R. Vershynin, Introducción al análisis no asintótico de matrices aleatorias , Capítulo 5 de Detección, teoría y aplicaciones comprimidas. Editado por Y. Eldar y G. Kutyniok. Cambridge University Press, 2012.

Creo que la exposición es clara y proporciona una forma muy agradable de aclimatarse rápidamente a la literatura.

— cardenal
fuente

Dado que incluye en su definición, tengo la impresión de que (el límite no cambia).

Z_{i}

$Z_i$

ϵ / 2

$\epsilon/2$

Z_{i} \in [- θ - ϵ / 2, 1 - θ - ϵ / 2]

$Z_i \in [-\theta-\epsilon/2,1-\theta-\epsilon/2]$

— Alecos Papadopoulos

Estimado @Zen: Tenga en cuenta que una contabilidad cuidadosa del caso le permitirá reemplazar la desigualdad estricta por todas partes sin cambiar el límite final.

N = 0

$N=0$

>

$>$

\geq

$\geq$

— cardenal

Estimado @cardinal: He reformulado la pregunta porque en realidad es un estimador ( ) ligeramente sesgado de , ya que .

Z

$Z$

θ

$\theta$

E [Z] = E [I_{{N = 0}} Z] + E [I_{{N > 0}} Z] = (1 - 1 / 2^{n}) θ

$\mathrm{E}[Z]=\mathrm{E}[I_{\{N=0\}}Z]+\mathrm{E}[I_{\{N>0\}}Z] = (1-1/2^n)\,\theta$

— Zen

Detalles para atender el caso . $N=0$

\begin{aligned} {Z \geq θ + ϵ} & = ({Z \geq θ + ϵ} \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = ({0 \geq θ + ϵ} \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = (\emptyset \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = {\sum_{i = 1}^{n} X_{i} Y_{i} \geq (θ + ϵ) \sum_{i = 1}^{n} Y_{i}} \cap {N > 0} \\ \subset {\sum_{i = 1}^{n} X_{i} Y_{i} \geq (θ + ϵ) \sum_{i = 1}^{n} Y_{i}} \\ = {\sum_{i = 1}^{n} (X_{i} - θ - ϵ) Y_{i} \geq 0} \\ = {\sum_{i = 1}^{n} ((X_{i} - θ - ϵ) Y_{i} + ϵ / 2) \geq n ϵ / 2} . \end{aligned}

$\begin{align} \{Z\geq\theta+\epsilon\} &= \left(\{Z\geq\theta+\epsilon\} \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left(\{0\geq\theta+\epsilon\} \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left(\emptyset \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left\{\sum_{i=1}^n X_iY_i\geq(\theta+\epsilon)\sum_{i=1}^n Y_i\right\} \cap \{N>0\} \\ &\subset \left\{\sum_{i=1}^n X_iY_i\geq(\theta+\epsilon)\sum_{i=1}^n Y_i\right\} \\ &= \left\{\sum_{i=1}^n (X_i-\theta-\epsilon)Y_i\geq 0\right\} \\ &= \left\{\sum_{i=1}^n \left((X_i-\theta-\epsilon)Y_i+\epsilon/2\right)\geq n\epsilon/2\right\} \, . \end{align}$

Por alecos.

\begin{aligned} E [\sum_{i = 1}^{n} W_{i}] & = E [I_{{\sum_{i = 1}^{n} Y_{i} = 0}} \sum_{i = 1}^{n} W_{i}] + E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}} \sum_{i = 1}^{n} W_{i}] \\ = E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}} \frac{\sum_{i = 1}^{n} Y_{i}}{\sum_{i = 1}^{n} Y_{i}}] = E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}}] = 1 - 1 / 2^{n} . \end{aligned}

$\begin{align} \mathrm{E}\!\left[\sum_{i=1} ^n W_i\right]&=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i=0\}}\sum_{i=1} ^n W_i\right] + \mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\sum_{i=1} ^n W_i\right] \\ &=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\frac{\sum_{i=1} ^n Y_i}{\sum_{i=1}^n Y_i}\right]=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\right]=1-1/2^n \, . \end{align}$

— zen
fuente

Esta respuesta sigue mutando. La versión actual no se relaciona con la discusión que tuve con @cardinal en los comentarios (aunque fue a través de esta discusión que agradecidamente me di cuenta de que el enfoque de condicionamiento no parecía conducir a ninguna parte).

Para este intento, usaré otra parte del artículo original de Hoeffding de 1963 , a saber, la sección 5 "Sumas de variables aleatorias dependientes".

Establezca

W_{i} \equiv \frac{Y_{i}}{\sum_{i = 1}^{n} Y_{i}}, \sum_{i = 1}^{n} Y_{i} \neq 0, \sum_{i = 1}^{n} W_{i} = 1, n \geq 2

$W_i \equiv \frac {Y_i}{\sum_{i=1}^nY_i}, \qquad \sum_{i=1}^nY_i \neq 0, \qquad \sum_{i=1}^nW_i=1, \qquad n\geq 2$

mientras establecemos if . $W_i =0$ $\sum_{i=1}^nY_i = 0$

Entonces tenemos la variable

Z_{n} = \sum_{i = 1}^{n} W_{i} X_{i}, E (Z_{n}) \equiv μ_{n}

$Z_n= \sum_{i=1}^nW_iX_i, \qquad E(Z_n) \equiv \mu_n$

Estamos interesados en la probabilidad

P r (Z_{n} \geq μ_{n} + ϵ), ϵ < 1 - μ_{n}

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon), \qquad \epsilon < 1-\mu_n$

Al igual que muchas otras desigualdades, Hoeffding comienza su razonamiento al señalar que y eso

P r (Z_{n} \geq μ_{n} + ϵ) = E [1_{{Z_{n} - μ_{n} - ϵ \geq 0}}]

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) = E\left[\mathbf 1_{\{Z_n-\mu_n -\epsilon \geq 0\}}\right]$

1_{{Z_{n} - μ_{n} - ϵ \geq 0}} \leq \exp {h (Z_{n} - μ_{n} - ϵ)}, h > 0

$\mathbf 1_{\{Z_n-\mu_n -\epsilon\geq 0\}} \leq \exp\Big\{h(Z_n-\mu_n -\epsilon)\Big\}, \qquad h>0$

Para el caso de las variables dependientes, como Hoeffding usamos el hecho de que e invocamos la desigualdad de Jensen para la función exponencial (convexa), para escribir $\sum_{i=1}^nW_i=1$

e^{h Z_{n}} = \exp {h (\sum_{i = 1}^{n} W_{i} X_{i})} \leq \sum_{i = 1}^{n} W_{i} e^{h X_{i}}

$e^{hZ_n} = \exp\left\{h\left(\sum_{i=1}^nW_iX_i\right)\right\} \leq \sum_{i=1}^nW_ie^{hX_i}$

y vinculando resultados para llegar a

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} E [\sum_{i = 1}^{n} W_{i} e^{h X_{i}}]

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}E\left[\sum_{i=1}^nW_ie^{hX_i}\right]$

Centrándonos en nuestro caso, dado que y son independientes, los valores esperados se pueden separar, $W_i$ $X_i$

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} \sum_{i = 1}^{n} E (W_{i}) E (e^{h X_{i}})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}\sum_{i=1}^nE(W_i)E\left(e^{hX_i}\right)$

En nuestro caso, los son iid Bernoullis con el parámetro , y es su función generadora de momentos comunes en , . Entonces $X_i$ $\theta$ $E[e^{hX_i}]$ $h$ $E[e^{hX_i}] = 1-\theta +\theta e^h$

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} (1 - θ + θ e^{h}) \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}(1-\theta +\theta e^h)\sum_{i=1}^nE(W_i)$

Minimizando el RHS con respecto a , obtenemos $h$

e^{h^{*}} = \frac{(1 - θ) (μ_{n} + ϵ)}{θ (1 - μ_{n} - ϵ)}

$e^{h^*} = \frac {(1-\theta)(\mu_n+\epsilon)}{\theta(1-\mu_n-\epsilon)}$

Conectándolo a la desigualdad y manipulando obtenemos

P r (Z_{n} \geq μ_{n} + ϵ) \leq {(\frac{θ}{μ_{n} + ϵ})}^{μ_{n} + ϵ} \cdot {(\frac{1 - θ}{1 - μ_{n} - ϵ})}^{1 - μ_{n} - ϵ} \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq \left(\frac {\theta}{\mu_n+\epsilon}\right)^{\mu_n+\epsilon}\cdot \left(\frac {1-\theta}{1-\mu_n-\epsilon}\right)^{1-\mu_n-\epsilon}\sum_{i=1}^nE(W_i)$

mientras

P r (Z_{n} \geq θ + ϵ) \leq {(\frac{θ}{θ + ϵ})}^{θ + ϵ} \cdot {(\frac{1 - θ}{1 - θ - ϵ})}^{1 - θ - ϵ} \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \theta +\epsilon) \leq \left(\frac {\theta}{\theta+\epsilon}\right)^{\theta+\epsilon}\cdot \left(\frac {1-\theta}{1-\theta-\epsilon}\right)^{1-\theta-\epsilon}\sum_{i=1}^nE(W_i)$

Hoeffding muestra que

{(\frac{θ}{θ + ϵ})}^{θ + ϵ} \cdot {(\frac{1 - θ}{1 - θ - ϵ})}^{1 - θ - ϵ} \leq e^{- 2 ϵ^{2}}

$\left(\frac {\theta}{\theta+\epsilon}\right)^{\theta+\epsilon}\cdot \left(\frac {1-\theta}{1-\theta-\epsilon}\right)^{1-\theta-\epsilon} \leq e^{-2\epsilon^2}$

Cortesía del OP (gracias, me estaba agotando un poco ...)

\sum_{i = 1}^{n} E (W_{i}) = 1 - 1 / 2^{n}

$\sum_{i=1}^n E(W_i) =1-1/2^n$

Entonces, finalmente, el "enfoque de variables dependientes" nos da

P r (Z_{n} \geq θ + ϵ) \leq (1 - \frac{1}{2^{n}}) e^{- 2 ϵ^{2}} \equiv B_{D}

$\mathrm{Pr}(Z_n\geq \theta +\epsilon) \leq (1-\frac 1{2^n})e^{-2\epsilon^2} \equiv B_D$

Comparemos esto con el límite de Cardinal, que se basa en una transformación de "independencia", . Para que nuestro límite sea más estricto, necesitamos $B_I$

B_{D} = (1 - \frac{1}{2^{n}}) e^{- 2 ϵ^{2}} \leq e^{- n ϵ^{2} / 2} = B_{I}

$B_D=(1-\frac 1{2^n})e^{-2\epsilon^2} \leq e^{-n\epsilon^2/2}=B_I$

\Rightarrow \frac{2^{n} - 1}{2^{n}} \leq \exp {(\frac{4 - n}{2}) ϵ^{2}}

$\Rightarrow \frac {2^n-1}{2^n} \leq \exp\left\{\left(\frac {4-n}{2}\right)\epsilon^2\right\}$

Entonces, para tenemos . Para , vuelve más que pero para muy pequeño , mientras que incluso esta pequeña "ventana" converge rápidamente a cero. Por ejemplo, para , si , entonces es más estricto. En resumen, el límite de Cardinal es más útil. $n\leq 4$ $B_D \leq B_I$ $n \geq 5$ $B_I$ $B_D$ $\epsilon$ $n=12$ $\epsilon \geq 0.008$ $B_I$

COMENTARIO
Para evitar impresiones engañosas con respecto al artículo original de Hoeffding, debo mencionar que Hoeffding examina el caso de una combinación convexa determinista de variables aleatorias dependientes. Específicamente, sus son números, no variables aleatorias, mientras que cada es una suma de variables aleatorias independientes, mientras que la dependencia puede existir entre las . Luego considera varias "estadísticas U" que se pueden representar de esta manera. $W_i$ $X_i$ $X_i$

— Alecos Papadopoulos
fuente

Alecos: (eche un vistazo a la derivación al final de mi respuesta). Su límite no decae exponencialmente con como lo hace el cardenal.

E [W_{1}] = (1 - 1 / 2^{n}) / n

$\mathrm{E}[W_1]=(1-1/2^n)/n$

n

$n$

— Zen

@Zen De hecho (de hecho, aumenta con el tamaño de la muestra, aunque de forma limitada), es por eso que el límite de Cardinal es más útil para la mayoría de los tamaños de muestra.

— Alecos Papadopoulos