Separar palabras con DFA aleatorios


15

Uno de los problemas abiertos interesantes sobre los DFA enumerados en ¿Hay algún problema abierto sobre los DFA? es el tamaño de un DFA requerido para separar dos cadenas de longitud n . Tengo curiosidad por saber si hay resultados sobre la capacidad de un DFA aleatorio para separar dos cadenas dadas (no aleatorias).

Claramente, un DFA aleatorio con suficientes estados separa las cadenas con alta probabilidad. Específicamente, si u,vΣn , es poco probable que un DFA aleatorio con estados vuelva a visitar el mismo estado una vez que alcanza el primer lugar donde y difieren, y por lo tanto separa y .O(n)uvuv

¿Podemos hacerlo mejor? Idealmente, ¿cuál es la st más pequeña que un DFA aleatorio con estados separa cadenas de longitud con probabilidad positiva (o tal vez probabilidad )? Una breve búsqueda no arrojó muchos resultados sobre las propiedades de los DFA aleatorios; todo lo que pude encontrar fue http://arxiv.org/abs/1311.6830 .f(n)f(n)n1/2


La probabilidad positiva no es una condición particularmente útil aquí, dado que es solo una reformulación del problema abierto. La alta probabilidad aún podría ser interesante.
Geoffrey Irving

1
¿Qué significa "separa"? ¿Acepta uno y rechaza el otro? Si es así, ¿es obvio que los estados suficientes? O(n)
usul

Sí, separa los medios acepta exactamente uno. Y tiene razón: el argumento de separación más trivial en realidad requiere estados (lo que escribí anteriormente está mal), aunque me sorprendería que muchos menos no fueran suficientes. O(n2)
Geoffrey Irving

1
¿No esperarías que los límites dependan de cuánto difieren las palabras? Parece que las palabras que difieren en una sola letra serían más difíciles de discriminar al azar, porque es necesario discriminar en esa transición, y las palabras muy diferentes serían más fáciles. [Para generalizar, puede olvidarse del prefijo común más largo (alcanza un estado aleatorio a partir de eso); luego, las diferentes cartas lo envían al mismo estado o a diferentes estados; luego, si los estados son diferentes, debe observar la probabilidad de resincronización y mantenerse sincronizado (comienza de nuevo dependiendo de las palabras) ...]
a3nm

Sí, como el problema abierto, estoy interesado en las palabras más difíciles de discriminar. Las palabras que difieren solo en unos pocos lugares ya pueden estar separadas por estados , por lo que es poco probable que sean el caso difícil. O(logn)
Geoffrey Irving

Respuestas:


2

[Editar: esta respuesta no funciona, ver comentarios.]

Esta es solo una idea informal y no sé si ayuda, pero es demasiado larga para darla como comentario. Además, no estoy familiarizado con los DFA aleatorios, así que tal vez tengo una intuición errónea de cómo debe razonar sobre las probabilidades en ellos, pero espero que esto no sea del todo inútil.

Supongo que sus límites deberían depender de cuánto difieran y v ; si no lo hacen, me parece claro que el peor de los casos son las cadenas que difieren solo por su primer carácter (las cadenas que difieren en un conjunto X de posiciones tienen más posibilidades de diferenciarse que las cadenas que difieren en un conjunto Y X de posiciones , Diría, y marcar la diferencia lo antes posible te da la oportunidad de resincronizar).tuvXYX

También analizaré la probabilidad de que las palabras se distingan, es decir, que lleguen a diferentes estados. Supongo que luego deberá adaptarse para ser aceptado o rechazado en función de cómo sus DFA aleatorios asignan estados finales. Si cada estado tiene una probabilidad de 1/2 de ser final, cuando las cadenas terminan en el mismo estado no se distinguen, y cuando terminan en diferentes estados tienen una probabilidad de 1/2 de ser distinguidas.

Ahora consideraré la palabra obtenida de u y v de la siguiente manera: w i = 1 si u i = v i , y w i = 0 de lo contrario. Creo que está claro que w es la única cosa interesante a tener en cuenta acerca de u y v .wtuvwyo=1tuyo=vyowi=0wuv

Ahora, defina la probabilidad de que estemos en el mismo estado después de leer los prefijos de longitud i de u y v , y q ( i ) = 1 - p ( i ) la probabilidad de que no lo estemos.p(i)iuvq(i)=1p(i)

Creo que tenemos cuando w i + 1 es 1 . Intuitivamente, estamos en el mismo estado después de leer i + 1 letras, ya sea cuando estábamos en el mismo estado después de leer i , o cuando estábamos en dos estados diferentes (aleatorios), dibujamos dos transiciones a estados aleatorios, y sucedieron ser el mismo Del mismo modo, tenemos p ( i + 1 ) = 1p(i+1)=p(i)+q(i)/nwi+11i+1i cuando w i + 1 es 0 : estás dibujando dos estados aleatorios, sin importar desde dónde empezaste.p(i+1)=1/nwi+10

A partir de esto, creo que podría calcular la probabilidad de estar en el mismo estado después de leer y v .uv


Desafortunadamente, está lejos de ser obvio que es la única propiedad interesante de u y v . La forma más fácil de ver esto es que hay trivialmente una probabilidad distinta de cero de distinguir cualquier no trivial w de 0 n ; de hecho, solo dos estados son suficientes independientemente de n . Sin embargo, como se discutió en arxiv.org/pdf/1103.4513.pdf , hay palabras u , v de longitud n st no o ( log n ), el estado DFA puede distinguirlas. Esto contradice sus fórmulas para p ( i )wuvw0nnu,vno(logn)p(i).
Geoffrey Irving

1
Para aclarar, sus fórmulas serían correctas si las transiciones de DFA fueran una función aleatoria del índice de cadena; Como son independientes del índice, las probabilidades están correlacionadas de una manera bastante complicada.
Geoffrey Irving

Me temo que no entiendo su contraejemplo. Hay un prba, con dos estados, de distinguir 0 n y w 0 n , OK; y tal vez hay palabras de longitud n que no se pueden distinguir con estados o ( log n ) . Pero, ¿cómo contradice mi afirmación de que w es lo único importante o mis fórmulas para p ( i )>00nw0nno(logn)wp(i)? En cuanto a las correlaciones, veo que puede haber una captura del tipo que mencionas, pero aún no entiendo por qué falla exactamente. Si pasa dos veces por el mismo estado, hay una correlación, pero ¿hay alguna razón para pensar que influiría en cierta dirección en promedio?
a3nm

Si , u y v se distinguen con probabilidad positiva. Sin embargo, para un número suficientemente grande de n y de estados pequeños sabemos que p ( n ) = 1 para algunos u y v . Dado que sus fórmulas implican que si p ( i ) < 1, entonces p ( i + 1 ) = p ( i ) + ( 1 - pp(n)<1uvnp(n)=1uvp(i)<1 , su fórmula no captura el hecho de que ciertos u y v son imposibles de distinguir. p(i+1)=p(i)+(1p(i))/n=p(i)(11/n)+1/n<1uv
Geoffrey Irving

Ah ... claro, lo entiendo. Si ningún DFA pequeño puede distinguir dos palabras, tampoco un DFA aleatorio puede distinguirlas. Entonces, de hecho, hay un problema con mi enfoque, la probabilidad debería caer a cero eventualmente, debido a esas correlaciones, parece. Perdón por proporcionar una respuesta incorrecta. q(i)
a3nm
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.