¿Límite inferior para probar la cercanía en la norma


11

Me preguntaba si había algún límite inferior (en términos de complejidad de la muestra) conocido por el siguiente problema:

Dado el acceso al oráculo de muestra a dos distribuciones desconocidas D1 , D2 en {1,,n} , prueba (whp) si

  • D1=D2
  • d2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu y col. [BFR + 00] mostró que las muestras eran suficientes, pero no he encontrado ninguna mención de un límite inferior.O(1ϵ4)

Creo que uno siempre podría mostrar un límite inferior reduciendo la tarea de distinguir una moneda justa vs. \ epsilon- imparcial a este problema (simulando una distribución soportada en solo dos puntos, y respondiendo las consultas del probador de acuerdo con los lanzamientos de monedas iid), pero eso todavía deja un vacío cuadrático ...ϵΩ(1ϵ2)ϵ

(Otro punto que me interesaría es un límite inferior para estimar (hasta un aditivo ϵ ) esta distancia L2 ; nuevamente, no he encontrado ninguna referencia a dicho resultado en la literatura)

Gracias por tu ayuda,


Este problema prometedor parece muy similar al llamado diferencia estadística por Sahai y Vadhan, que es un problema completo para la clase SZK (conocimiento estadístico cero); sin embargo, usan distancia. cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Editar: también creo que están asumiendo que tienes un circuito que computa las distribuciones, no el acceso al oráculo)L1
Usul

Hola, como se ha mencionado en otro comentario, la diferencia entre y norma es realmente crucial aquí - más lejos, en su de papel, establecieron una explícita (y no arbitraria) umbral (en una de las observaciones, explican que este umbral necesita satisfacer alguna restricción particular); y quiere distinguir vs. (que de alguna manera está más cerca de la prueba tolerante / estimación de distancia que "prueba habitual", donde desea probar vs. (pero para cualquier fijo )). L 1 τ = 1 / 3 D 1τ d 21 - τ d 2 = 0 d 2varepsilon varepsilonL2L1τ=1/3d1τd21τd2=0d2ϵϵ
Clement C.

Respuestas:


6

Parece que las muestras , como usul mostró a continuación, son suficientes para las pruebas, de modo que la complejidad de la muestra es exactamente ; en realidad, resulta que este número de muestras nos alcanza incluso lo suficiente para aprender hasta un aditivo wrt la norma .Θ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


Sea la función de densidad empírica obtenida dibujando iid muestras y configurando Entonces donde . El mD^mD ( k )s1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xkk[n] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk's (para ) no son independientes, pero podemos escribir para que , y aplicando la desigualdad de Markov k[n]
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2ε2m3ϵ2 P{D - D2varepsilon}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Me refería a la respuesta de usul comenzando con "Intentaré reparar mi error anterior mostrando algo opuesto" , que en realidad está por encima de este. No esperaba esto :)) En cuanto al aprendizaje límite superior, se puede demostrar que el algoritmo más ingenuo (es decir, el que dibuja muestras y genera la densidad empírica que define) produce una distribución que es, con probabilidad constante, cerca de en la distancia . D ε D L 2m=O(1/ϵ2)D^ϵDL2
Clement C.

@DW Acabo de editar mi respuesta.
Clement C.

3

Trataré de reparar mi error anterior mostrando algo opuesto: que las muestras son suficientes (el límite inferior de es casi apretado)! Mira lo que piensas ...1/ϵ2Θ~(1ϵ2)1/ϵ2

La intuición clave comienza con dos observaciones. Primero, para que las distribuciones tengan una distancia de , debe haber puntos con alta probabilidad ( ). Por ejemplo, si tuviéramos puntos de probabilidad , tendríamos . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

Segundo, considere distribuciones uniformes con una distancia de . Si tuviéramos puntos de probabilidad , entonces cada uno de ellos sería diferente en y serían suficientes muestras. Por otro lado, si tuviéramos puntos , cada uno necesitaría diferir por y nuevamente muestras (un número constante por punto) es suficiente. Así que podríamos esperar que, entre los puntos de alta probabilidad mencionados anteriormente, siempre haya algún punto que difiera "lo suficiente" como para que dibuje lo distinga. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Algoritmo. Dado y un parámetro de confianza , dejemos que . Dibuje muestras de cada distribución. Deje ser el número de muestras más alto y más bajo respectivo para el punto . Si hay algún punto para el cual y , declare el distribuciones diferentes. De lo contrario, declare lo mismo.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii[n]aiXXϵ2ai,biii[n] ai-biaiX8aibiaiX4

Los límites de corrección y confianza ( ) dependen del siguiente lema que dice que toda la desviación en la distancia proviene de puntos cuyas probabilidades difieren en . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

Reclamación. Supongamos que . Let. Deje . Entonces δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|i S k δ 2 iϵ2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Prueba . Tenemos Atemos la segunda suma; deseamos maximizar sujeto a . Dado que la función es estrictamente convexa y aumenta, podemos aumentar el objetivo tomando cualquier y aumentando en mientras disminuimos en . Por lo tanto, el objetivo se maximizará con tantos términos como sea posible en sus valores máximos, y el resto en i S k δ 2 i i S k δi2xx2δiδjδiγδjγ0 ϵ 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0. El valor máximo de cada término es , y hay como máximo términos de este valor (ya que suman máximo ). Entonces 2kϵ2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Reclamo . Deje . Si , existe al menos un punto con y .pi=max{D1(i),D2(i)}i [ n ] p i > ϵ 2D1D22ϵi[n] δiϵpi>ϵ24δiϵpi2

Prueba . Primero, todos los puntos en tienen por definición (y no puede estar vacío para en el reclamo anterior).p iδ i > ϵ 2Skpiδi>ϵ2kSkk>2

Segundo, porque , tenemos o, reorganizando, entonces la desigualdad mantiene durante al menos un punto en . Ahora elige . ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

Reclamación (falsos positivos) . Si , nuestro algoritmo los declara diferentes con probabilidad como máximo .D1=D2eΩ(M)

Esbozo . Considere dos casos: y . En el primer caso, el número de muestras de no excederá de ninguna de las distribuciones: el número medio de muestras es y un límite de cola dice que con probabilidad , las muestras de no exceden su media por un aditivo ; Si tenemos cuidado de mantener el valor en el límite de la cola, podemos unir el límite sobre ellos sin importar cuántos puntos haya (intuitivamente, el límite disminuye exponencialmente en el número de puntos posibles).pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

En el caso , podemos usar un límite de Chernoff: dice que, cuando tomamos muestras y se dibuja un punto con probabilidad , la probabilidad de diferir de su media por es como máximo . Aquí, deje que , por lo que la probabilidad está limitada por .piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

Entonces, con probabilidad , (para ambas distribuciones) el número de muestras de está dentro de de su media . Por lo tanto, nuestra prueba no captará estos puntos (están muy cerca el uno del otro), y podemos unir los . 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

Reclamación (falsos negativos) . Si , nuestro algoritmo los declara idénticos con probabilidad a lo sumo .D1D22ϵϵ2eΩ(M)

Esbozo . Hay algún punto con y . El mismo límite de Chernoff que en el reclamo anterior dice que con probabilidad , el número de muestras de difiere de su media como máximo . Eso es para (WLOG) distribución que tiene ; pero hay una probabilidad aún menor de la cantidad de muestras de de la distribuciónipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 difiere de su media por esta cantidad aditiva (ya que la media y la varianza son más bajas).

Entonces, con alta probabilidad, el número de muestras de de cada distribución está dentro de de su media; pero sus probabilidades difieren en , por lo que sus medias difieren en ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Entonces, con alta probabilidad, para el punto , el número de muestras difiere en al menos . i#samples(1)X4

Para completar los bocetos, tendríamos que mostrar más rigurosamente que, para suficientemente grande, el número de muestras de es lo suficientemente cercano a su media que, cuando el algoritmo usa lugar de , no cambia nada (lo que debería ser sencillo al dejar margen de maniobra en las constantes).Mi#samplesmean


Hola, gracias por esto: tengo algunas preguntas sobre el algoritmo y el análisis (con respecto a un par de puntos que no estoy seguro de obtener): suponiendo que solo quiero al final una probabilidad constante de de éxito, eso significa que constante, si entiendo correctamente (a menos que no obtuve lo que era )? Entonces, en este caso, volviendo a : de acuerdo con el algoritmo, se convierte en , ¿es correcto? 2/3MMXΘ(log1ϵ)
Clement C.

@ClementC. Lo siento, no estaba muy claro! La afirmación es que si muestras , entonces la probabilidad de estar equivocado es , entonces para una probabilidad constante de estar equivocado, sus muestras . 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

OK, eso es lo que reuní. Revisaré la prueba con esto en mente. ¡Gracias nuevamente por el tiempo que dedicó a esto!
Clement C.

1

Puede comenzar tratando de resolver esto para el caso . Estoy bastante seguro de que las muestras serán necesarias y suficientes, en ese caso.n=2Θ(1/ϵ2)

Es posible que le puede resultar útil observar la conversión entre el distancia y la distancia (distancia total variación).L2L1

  • Se sabe que, con una muestra, si se conocen las distribuciones, la distancia de variación total caracteriza perfectamente la ventaja con la que se puede distinguir de . Por lo tanto, si la distancia de variación total es grande y se conocen las distribuciones, se puede construir una prueba que sea correcta con alta probabilidad; Si la distancia de variación total es pequeña, no se puede. No sé qué se puede decir sobre el caso donde la distancia de variación total es grande pero las distribuciones son desconocidas.D1D2

  • A continuación lo podría hacer en las distribuciones de productos, y . Usando la distancia de variación total (distancia ), no parece haber ningún bueno que se relacione con . Sin embargo, cuando distancia , creo que hay buenas estimaciones de en función de . (Desafortunadamente, parece que no puedo desenterrar una referencia específica a esos estimados / límites, así que espero no estar recordando mal). También hay límites conocidos que le permiten estimar la distancia en función de la distancia .D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • Por lo tanto, un enfoque que podría intentar sería vincular , y luego obtener un límite en .||D1nD2n||2||D1nD2n||1

No sé si esto llevará a algún lugar bueno o no; Es solo una idea. Probablemente los autores del artículo que cita ya hayan intentado o considerado algo como esto.

Posiblemente referencias útiles:


¡Hola, gracias por su respuesta! Sin embargo, estoy interesado en un límite inferior asintótico, cuando . En particular, la relación entre y normas implica una el factor - lo que significa que son de hecho equivalentes para constante, pero asintóticamente muy diferente; usar la L_1 como proxy no es una opción, por lo que puedo decir (en cuanto a la prueba de cercanía en la distancia de , se sabe que la complejidad exacta es [BFR + 10 , Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
Clemente C.

0

EDITAR: esto es incorrecto! Vea la discusión en los comentarios. Señalaré la falla a continuación.

Creo que podemos decir que se requieren .1ϵ4

Establezca . Deje que sea ​​la distribución uniforme (probabilidad de cada punto ) y deje que difiera del uniforme por una cantidad aditiva en cada punto. Compruebe que la distancia es .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Así que tenemos que distinguir una moneda impar de caras de una moneda impar de caras . Creo que esto debería ser al menos tan difícil como decirle a un moneda al aire -sided de un -sided la moneda -biased, lo que requeriría muestras. Editar: esto es incorrecto! La moneda es aditiva imparcial, pero está sesgada multiplicativamente por un factor constante. Como señala DW, eso significa que un número constante de muestras por punto distingue a de .nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Tenga en cuenta que es lo más lejos que podemos empujar esta línea de argumento. Concretamente, supongamos que intentamos aumentar a, digamos, . En la distribución uniforme, cada punto tiene probabilidad . Pero en , necesitaríamos que cada punto varíe del uniforme por . Eso no es posible desde .1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Más abstractamente, supongamos que queremos que cada punto varíe del uniforme por . Entonces, lo máximo que podemos establecer sería . Para obtener una distancia de , debemos asegurarnos de que la raíz cuadrada de la suma de las distancias es , entonces , entonces entonces , y obtenemos .ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Además, creo que el mismo argumento dice que, si estamos interesados ​​en la distancia con , requerimos , por lo que elegiríamos , por lo que el número de muestras sería . Creo que esto tiene sentido como un límite que es independiente de . Se acerca al infinito como . Si intentara distinguir dos distribuciones a distancia de sin límite en , yo haría ilimitadamente grande y distribuiría la diferencia arbitrariamente delgada, por lo que nunca podría distinguirlos (Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnes decir, no es suficiente un número fijo de muestras para todas las ). También se acerca a como ; esto tiene sentido como un límite porque, para la norma , podemos establecer y dejar que cada punto difiera en ; necesitamos muestrear algunos puntos veces para asegurarnos de que difiere del uniforme, que tomará muestras .n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. ¿Realmente quiere decir que difiere del uniforme en en cada punto? Sospecho que es un error tipográfico y querías decir . D2±1/ϵ2±ϵ2
DW

1
2. No compro que distinguir de requiera muestras. Me parece que las muestras son suficientes. Explicación (intuición): supongamos que reunimos muestras y contamos cuántas veces ocurre cada valor posible. Si vinieron de , cada uno debería ocurrir 100 veces (con std dev 10). Si vinieron de , cada uno debería ocurrir 200 veces (std dev 14) para la mitad de ellos, / 0 veces (std dev 0) para la otra mitad. Eso es bastante fácil de distinguir entre los dos, si sabes que estás tratando con o . D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) tienes razón! Fijo. (2) Como usted lo expresa, estoy de acuerdo, pero creo que con diferentes opciones de constantes es más difícil. Me imagino algo como esto: , entonces pone la probabilidad en cada punto. Entonces difiere en en cada punto (verifique que la distancia sea ), por lo que pone la probabilidad o en cada punto. n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
Creo que las muestras siguen siendo suficientes. Reúna muestras y cuente cuántas veces ocurre cada valor posible. Para , cada uno debe ocurrir 1,000,000 de veces (std dev ). Para , cada uno debe aparecer 900,000 veces (std dev ) o 1,100,000 veces (std dev ). Es bastante fácil distinguir entre los dos, si sabemos que estamos tratando con o , porque la diferencia entre 1,000,000 y 1,100,000 es 100 desviaciones estándar, es decir, enorme. m = 10 6 n D 1 1000 D 21000 1000 D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW Lo pensé más, tienes razón. Si sus medias difieren en un factor multiplicativo constante, entonces un número constante de muestras por punto debería distinguirlas. Es el factor multiplicativo no aditivo lo que importa. Este enfoque solo da un límite inferior de . 1/ϵ2
usul
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.