Revertir a Chernoff atado


31

¿Existe un límite inverso de Chernoff que limita que la probabilidad de la cola sea al menos tanto?

es decir, si son variables aleatorias binomiales independientes y . Entonces, ¿podemos probar para alguna función .X1,X2,,Xnμ=E[i=1nXi]Pr[i=1nXi(1+δ)μ]f(μ,δ,n)f


1
Su ejemplo es pedir demasiado: con , un límite estándar de Chernoff muestra que y \ Pr [| T \ cap S_2 | \ sqrt {1.1} \ leq n ^ {1/3}] son a lo sumo \ exp (-cn ^ { 1/3}) para algunos c . p=n2/3Pr[|TS1|1.1n1/3]Pr[|TS2|1.1n1/3]exp(cn1/3)c
Colin McQuillan

Tienes razón, me confundí sobre qué término en chernoff encuadernado tiene el cuadrado. He cambiado la pregunta para reflejar un límite más débil. No creo que me ayude en mi aplicación actual, pero podría ser interesante por otros motivos.
Ashwinkumar BV

Respuestas:


28

Aquí hay una prueba explícita de que un límite estándar de Chernoff está ajustado a factores constantes en el exponente para un rango particular de los parámetros. (En particular, siempre que las variables sean 0 o 1, y 1 con probabilidad 1/2 o menos, y , y el límite superior de Chernoff sea menor que una constante).ϵ(0,1/2)

Si encuentra un error, hágamelo saber.

Lema 1. (rigidez del límite de Chernoff) Sea el promedio de variables aleatorias independientes 0/1 (rv). Para cualquier y , suponiendo ,Xkϵ(0,1/2]p(0,1/2]ϵ2pk3

(i) Si cada rv es 1 con probabilidad como máximo , entoncesp

Pr[X(1ϵ)p]  exp(9ϵ2pk).

(ii) Si cada rv es 1 con probabilidad al menos p , entonces

Pr[X(1+ϵ)p]  exp(9ϵ2pk).

Prueba. Utilizamos la siguiente observación:

Reclamación 1. Si , entonces ( k1k1(k)  1e2π(k)(kk)k

Prueba de reclamación 1. Por aproximación de Stirling, wherelambda[1/(12i+1),1/12i].i!=2πi(i/e)ieλλ[1/(12i+1),1/12i].

Por lo tanto, , que es , es al menos QED k!(k)k!!(k)!1

2πk(ke)k2π(e)  2π(k)(ke)kexp(112k+1112112(k))
  12π(k)(kk)ke1.

Prueba de Lema 1 Parte (i). Sin pérdida de generalidad, suponga que cada variable aleatoria 0/1 en la suma es 1 con probabilidad exactamente . Nota es igual a la suma , y .p Pr [ X ( 1 - ϵ ) p ] ( 1 - ϵ ) p k i = 0 Pr [ X = i / k ]X pPr[X(1ϵ)p]i=0(1ϵ)pkPr[X=i/k]Pr[X=i/k]=(ki)pi(1p)ki

Fix . Los términos en la suma están aumentando, por lo que los términos con índice tienen cada uno un valor de al menos , por lo que su suma tiene un valor total de al menos . Para completar la prueba, mostramos que i Pr [ X = / k ] ( ϵ p k - 2 ) Pr [ X = / k ] ( ϵ p k - 2 ) Pr [ X = / k ] exp ( - 9 ϵ=(12ϵ)pk+1iPr[X=/k](ϵpk2)Pr[X=/k]

(ϵpk2)Pr[X=/k]  exp(9ϵ2pk).

Los supuestos y dan , por lo que el lado izquierdo de arriba es al menos . Usando la Reclamación 1, para enlazar , esto es a su vez al menos donde y ε 1 / 2 ε p k 6 2ϵ2pk3ϵ1/2ϵpk6(k23ϵpk(k)p(1p)k A(k)A = 2AB B= ( kA=23eϵpk/2πB=(k)(kk)kp(1p)k.

Para finalizar, mostramos y .B exp ( - 8 ϵ 2 p k )Aexp(ϵ2pk)Bexp(8ϵ2pk)

Reclamación 2. Aexp(ϵ2pk)

Prueba de la Reclamación 2. Los supuestos y implican (i) .ε 1 / 2 p k 12ϵ2pk3ϵ1/2pk12

Por definición, . Por (i), . Por lo tanto, (ii) .p k 12 pk+1pk121.1pk

Sustituyendo el lado derecho de (ii) por en obtiene (iii) .A A 2AA23eϵpk/2.2π

La suposición, , implica , que con (iii) da (iv) .ϵ ϵ2pk3 A 2ϵpk3A23e3/2.2π0.1

De se deduce que (v) .exp ( - ϵ 2 p k ) exp ( - 3 ) 0.04ϵ2pk3exp(ϵ2pk)exp(3)0.04

(iv) y (v) juntos dan la reclamación. QED

Reclamación 3. .Bexp(8ϵ2pk)

Prueba de reclamación 3. Arregle modo que . La elección de implica , por lo que la reclamación se mantendrá siempre que . Tomando cada lado de esta última desigualdad al poder y simplificando, es equivalente a Sustituyendo y simplificando, es equivalente a = ( 1 - δ ) p k δ 2 ϵ B exp ( - 2 δ 2 p k ) - 1 /δ=(1δ)pk
δ2ϵBexp(2δ2pk)1/=(1-δ)pk(1-δ)(1+δp

pk(k(1p)k)k/1  exp(2δ2pk).
=(1δ)pkln(1+z)z-δ
(1δ)(1+δp1p)1(1δ)p1  exp(2δ21δ).
Tomando el logaritmo de ambos lados y usando dos veces, se mantendrá mientras El lado izquierdo de arriba se simplifica a , que es menor que porque . QEDln(1+z)zδ2/
δ+δp1p(1(1δ)p1)  2δ21δ.
2 δ 2 / ( 1 - δ ) p 1 / 2δ2/(1p)(1δ)2δ2/(1δ)p1/2

Las reivindicaciones 2 y 3 implican . Esto implica parte (i) del lema.ABexp(ϵ2pk)exp(8ϵ2pk)

Prueba de Lema 1 Parte (ii). Sin pérdida de generalidad, suponga que cada variable aleatoria es con probabilidad exactamente .p1p

Nota . Fix . = ( 1 + 2 ε ) p k - 1Pr[X(1+ϵ)p]=i=(1ϵ)pknPr[X=i/k]^=(1+2ϵ)pk1

Los últimos términos en la suma total al menos , que es al menos . (La prueba de eso es la misma que para (i), excepto con reemplazado por y reemplazado por tal que .) QEDϵpk(ϵpk2)Pr[X=^/k]exp(9ϵ2pk)^δδ^^=(1+δ^)pk


Varios [errores de procesamiento matemático] s: ¿hay alguna posibilidad de solucionarlos?
Aryeh

Esas expresiones matemáticas solían mostrarse bien. Por alguna razón, el comando \ choose no funciona en mathjax. Tampoco es \ binom. Por ejemplo, $ a \ choose b $ da . Presumiblemente este es un error en la configuración de mathjax. Esperemos que se arregle pronto. Mientras tanto, vea Lemma 5.2 en el apéndice de arxiv.org/pdf/cs/0205046v2.pdf o cs.ucr.edu/~neal/Klein15Number . (ab)
Neal Young

22

El teorema de Berry-Esseen puede dar límites más bajos de probabilidad de cola, siempre que sean más altos que .n1/2

Otra herramienta que puede usar es la desigualdad de Paley-Zygmund . Implica que para cualquier número entero , y cualquier variable aleatoria valor real ,kX

Pr[|X|>=12(E[Xk])1/k]E[Xk]24E[X2k]

Junto con el teorema multinomial, para una suma de variables aleatorias de rademacher Paley-Zygmund puede obtener límites inferiores bastante fuertes. También funciona con variables aleatorias de independencia limitada. Por ejemplo, puede obtener fácilmente que la suma de variables aleatorias independientes independientes en es con probabilidad constante.Xnn±1Ω(n)


14

Si está de acuerdo con las sumas limitantes de los ensayos de Bernoulli (y no, por ejemplo, las variables aleatorias limitadas), lo siguiente es bastante estricto.

Desigualdad de lodo *. Deje que sea ​​iid se basa en un rv de Bernoulli con , y deje que se proporcione el entero . Si (a) y , o (b) , entonces donde es el cdf de una norma normal.{Xi}i=1nE(X1)=pknp1/4npknpkn(1p)

Pr[iXik]1Φ(knpnp(1p)),
Φ

(Tratando el argumento de como transformando el estándar normal, esto concuerda exactamente con lo que el CLT le dice; de ​​hecho, nos dice que los binomios que satisfagan las condiciones del teorema dominarán sus gaussianos correspondientes en las colas superiores).Φ

Desde aquí, puede usar límites en para obtener algo mejor. Por ejemplo, en el primer libro de Feller, en la sección sobre gaussianos, se muestra para cada que donde es la densidad de una normal estándar. Hay límites similares en el artículo de Wikipedia para "Q-function" también.Φz>0

z1+z2φ(z)<1Φ(z)<1zφ(z),
φ

Aparte de eso, y lo que otras personas han dicho, también puede intentar usar el Binomial directamente, tal vez con un poco de Stirling.

(*) Algunas declaraciones más recientes de la desigualdad de Slud omiten algunas de estas condiciones; He reproducido el del papel de Slud.


7

El teorema de Moivre-Laplace muestra que variables como, después de ser adecuadamente normalizado y bajo ciertas condiciones, convergerá en distribución a una distribución normal. Eso es suficiente si quieres límites inferiores constantes.|TS1|

Para límites inferiores como , necesita una herramienta ligeramente más fina. Aquí hay una referencia que conozco (pero solo por accidente, nunca tuve la oportunidad de usar esa desigualdad). Algunos límites inferiores explícitos en las probabilidades de cola de las distribuciones binomiales se dan como Teorema 1.5, el libro Gráficos aleatorios de Béla Bollobás, Cambridge, segunda edición, donde se dan más referencias a Una introducción a la probabilidad y sus aplicaciones por Feller y Fundamentos de probabilidad por Rényi.nc


4

El teorema generalizado de Littlewood-Offord no es exactamente lo que quiere, pero da lo que yo considero un "Chernoff inverso" limitado al mostrar que la suma de variables aleatorias es poco probable que se encuentre dentro de un rango pequeño alrededor de un valor en particular (incluyendo la expectativa). Quizás sea útil.

Formalmente, el teorema es el siguiente.

Teorema generalizado de Littlewood-Offord : Sea y números reales tales que para y deje que sean variables aleatorias independientes que tengan valores cero y uno. Para , suponga que para todo . Entonces, para cualquier , Donde es una constante que depende solo de .a1,,ans>0|ai|s1inX1,,Xn0<p12pPr[Xi=0]1p1inrR

Pr[ri=1naiXi<r+s]cpn
cpp

3
Puede ser útil para otros saber que este tipo de resultado también se conoce como "desigualdad de pelota pequeña" y que Nguyen y Vu tienen una excelente encuesta people.math.osu.edu/nguyen.1261/cikk/LO-survey.pdf . Mi perspectiva aquí difiere ligeramente de la tuya. Pienso en un límite de "Chernoff inverso" como una estimación más baja de la masa de probabilidad de la bola pequeña alrededor de 0. Pienso en una desigualdad de bola pequeña como cualitativamente diciendo que la probabilidad de bola pequeña es maximizada por la bola en 0. En este Los límites de sentido inverso de Chernoff son generalmente más fáciles de probar que las desigualdades de bolas pequeñas.
Sasho Nikolov

3

El exponente en el límite estándar de Chernoff como se establece en Wikipedia es ajustado para variables aleatorias con valor 0/1. Deje que y que sean una secuencia de variables aleatorias independientes tales que para cada , y . Luego, por cada , 0<p<1X1,X2,iPr[Xi=1]=pPr[Xi=0]=1pε>0

2D(p+εp)nn+1Pr[i=1nXi(p+ε)n]2D(p+εp)n.

Aquí, , que es la divergencia Kullback-Leibler entre el azar de Bernoulli variables con parámetros e .D(xy)=xlog2(x/y)+(1x)log2((1x)/(1y))xy

Como se mencionó, el límite superior en la desigualdad anterior se demuestra en Wikipedia ( https://en.wikipedia.org/wiki/Chernoff_bound ) bajo el nombre "Teorema de Chernoff-Hoeffding, forma aditiva". El límite inferior se puede probar utilizando, por ejemplo, el "método de tipos". Ver Lema II.2 en [1]. Además, esto está cubierto en el libro de texto clásico sobre teoría de la información de Cover y Thomas.

[1] Imre Csiszár: El método de los tipos. IEEE Transactions on Information Theory (1998). http://dx.doi.org/10.1109/18.720546


También vale la pena señalar que , y para el caso común de es . Esto muestra que cuando el límite típico de es fuerte. (Y cuando para ). D(p+δpp)=p22pδ2+O(δ3)p=1/2δ=O(n-1/3)e-Cδ2δ=O(n-1/4)p=1/212δ2+O(δ4)δ=O(n1/3)eCδ2δ=O(n1/4)p=1/2
Thomas Ahle
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.