Trataré de reparar mi error anterior mostrando algo opuesto: que las muestras son suficientes (el límite inferior de es casi apretado)! Mira lo que piensas ...1/ϵ2Θ~(1ϵ2)1/ϵ2
La intuición clave comienza con dos observaciones. Primero, para que las distribuciones tengan una distancia de , debe haber puntos con alta probabilidad ( ). Por ejemplo, si tuviéramos puntos de probabilidad , tendríamos . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3 ‖ D 1 - D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
Segundo, considere distribuciones uniformes con una distancia de . Si tuviéramos puntos de probabilidad , entonces cada uno de ellos sería diferente en y serían suficientes muestras. Por otro lado, si tuviéramos puntos , cada uno necesitaría diferir por y nuevamente muestras (un número constante por punto) es suficiente. Así que podríamos esperar que, entre los puntos de alta probabilidad mencionados anteriormente, siempre haya algún punto que difiera "lo suficiente" como para que dibuje lo distinga. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Algoritmo. Dado y un parámetro de confianza , dejemos que . Dibuje muestras de cada distribución. Deje ser el número de muestras más alto y más bajo respectivo para el punto . Si hay algún punto para el cual y , declare el distribuciones diferentes. De lo contrario, declare lo mismo.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii∈[n]ai≥XXϵ2ai,biii∈[n] ai-bi≥√ai≥X8ai−bi≥ai−−√X√4
Los límites de corrección y confianza ( ) dependen del siguiente lema que dice que toda la desviación en la distancia proviene de puntos cuyas probabilidades difieren en . L 2 Ω ( ϵ 2 )1−e−Ω(M)L2Ω(ϵ2)
Reclamación. Supongamos que . Let. Deje . Entonces
δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|∑i∈ S k δ 2 i ≥ϵ2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Prueba . Tenemos
Atemos la segunda suma; deseamos maximizar sujeto a . Dado que la función es estrictamente convexa y aumenta, podemos aumentar el objetivo tomando cualquier y aumentando en mientras disminuimos en . Por lo tanto, el objetivo se maximizará con tantos términos como sea posible en sus valores máximos, y el resto en∑ i ∉ S k δ 2 i ∑ i ∉ S k δi≤2x↦x2δi≥δjδiγδjγ0 ϵ 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0. El valor máximo de cada término es , y hay como máximo términos de este valor (ya que suman máximo ). Entonces
2kϵ2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Reclamo . Deje . Si , existe al menos un punto con y .pi=max{D1(i),D2(i)}i ∈ [ n ] p i > ϵ 2∥D1−D2∥2≥ϵi∈[n] δi≥ϵ √pi>ϵ24δi≥ϵpi√2
Prueba . Primero, todos los puntos en tienen por definición (y no puede estar vacío para en el reclamo anterior).p i ≥ δ i > ϵ 2Skpi≥δi>ϵ2kSkk>2
Segundo, porque , tenemos
o, reorganizando,
entonces la desigualdad
mantiene durante al menos un punto en . Ahora elige . ∑ipi≤2
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
δ2i≥piϵ2(12−1k)
Skk=4□
Reclamación (falsos positivos) . Si , nuestro algoritmo los declara diferentes con probabilidad como máximo .D1=D2e−Ω(M)
Esbozo . Considere dos casos: y . En el primer caso, el número de muestras de no excederá de ninguna de las distribuciones: el número medio de muestras es y un límite de cola dice que con probabilidad , las muestras de no exceden su media por un aditivo ; Si tenemos cuidado de mantener el valor en el límite de la cola, podemos unir el límite sobre ellos sin importar cuántos puntos haya (intuitivamente, el límite disminuye exponencialmente en el número de puntos posibles).pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
En el caso , podemos usar un límite de Chernoff: dice que, cuando tomamos muestras y se dibuja un punto con probabilidad , la probabilidad de diferir de su media por es como máximo . Aquí, deje que , por lo que la probabilidad está limitada por .pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Entonces, con probabilidad , (para ambas distribuciones) el número de muestras de está dentro de de su media . Por lo tanto, nuestra prueba no captará estos puntos (están muy cerca el uno del otro), y podemos unir los . 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
Reclamación (falsos negativos) . Si , nuestro algoritmo los declara idénticos con probabilidad a lo sumo .∥D1−D2∥2≥ϵϵ2e−Ω(M)
Esbozo . Hay algún punto con y . El mismo límite de Chernoff que en el reclamo anterior dice que con probabilidad , el número de muestras de difiere de su media como máximo . Eso es para (WLOG) distribución que tiene ; pero hay una probabilidad aún menor de la cantidad de muestras de de la distribuciónipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 difiere de su media por esta cantidad aditiva (ya que la media y la varianza son más bajas).
Entonces, con alta probabilidad, el número de muestras de de cada distribución está dentro de de su media; pero sus probabilidades difieren en , por lo que sus medias difieren en
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Entonces, con alta probabilidad, para el punto , el número de muestras difiere en al menos . i#samples(1)−−−−−−−−−−−√X√4□
Para completar los bocetos, tendríamos que mostrar más rigurosamente que, para suficientemente grande, el número de muestras de es lo suficientemente cercano a su media que, cuando el algoritmo usa lugar de , no cambia nada (lo que debería ser sencillo al dejar margen de maniobra en las constantes).Mi#samples−−−−−−−−√mean−−−−−√