¿Hay mejoras en el algoritmo de Dana Angluin para aprender conjuntos regulares?

En su artículo seminal de 1987, Dana Angluin presenta un algoritmo de tiempo polinómico para aprender un DFA a partir de consultas de membresía y consultas teóricas (contraejemplos a un DFA propuesto).

Ella muestra que si está tratando de aprender un DFA mínimo con estados, y su contraejemplo más grande es de longitud , entonces necesita hacer consultas de membresía y, como máximo, consultas teóricas. $n$ $m$ $O(mn^2)$ $n - 1$

¿Ha habido mejoras significativas en la cantidad de consultas necesarias para aprender un conjunto regular?

Referencias y preguntas relacionadas

Dana Angluin (1987) "Aprendiendo conjuntos regulares de consultas y contraejemplos", Infortmation and Computation 75: 87-106
Límites inferiores para aprender en la consulta de membresía y el modelo de contraejemplo

algorithms learning-theory machine-learning

— Artem Kaznatcheev
fuente

Con suerte, @DominikFreydenberger aparece en algún momento en el futuro. Él sabrá.

— Raphael

Sospecho que @LevReyzin también sabría la respuesta ... y fue por eso que originalmente consideré preguntar por teoría, pero creo que debería ayudar a hacer crecer este nuevo sitio.

— Artem Kaznatcheev

No es una respuesta a la pregunta, pero aún puede ser útil: [ citeulike.org/user/erelsegal-halevi/article/9275508 Un núcleo universal para aprender idiomas regulares]

— Erel Segal-Halevi

gracias por el enlace @Erel, pero no entiendo cómo se relaciona. El núcleo universal de Kontorovich no es eficientemente computable, y el modelo de aprendizaje no tiene contraejemplos.

— Artem Kaznatcheev

Respuestas:

En su respuesta sobre cstheory.SE, Lev Reyzin me dirigió a la tesis de Robert Schapire que mejora el enlace a las consultas de membresía en la sección 5.4.5. El número de consultas de contraejemplo permanece sin cambios. El algoritmo que utiliza Schapire difiere en lo que hace después de una consulta de contraejemplo. $O(n^2 + n\log m)$

Bosquejo de la mejora.

En el nivel más alto, Schapire obliga del algoritmo de Angluin a tener la condición adicional de que para un cerrado y cada si entonces . Esto garantiza que $(S,E,T)$ $(S,E,T)$ $s_1, s_2 \in S$ $s_1 \neq s_2$ $row(s_1) \neq row(s_2)$ y también hace que laconsistenciacaracterística del algoritmo de Angluin trivial de satisfacer. Para garantizar esto, tiene que manejar los resultados de un contraejemplo de manera diferente. $|S| \leq n$

Dado un contraejemplo , Angluin simplemente añadido y todas sus prefijos a . Schapire hace algo más sutil en lugar de añadir un solo elemento de a . Esta nueva hará que no se cierre en el sentido de Angluin y la actualización para cerrar con introducir al menos una nueva cadena a mientras se mantienen distintas las filas. La condición en es: $z$ $z$ $S$ $e$ $E$ $e$ $(S,E,T)$ $S$ $e$

\exists s, s^{'} \in S, a \in Σ s.t r o w (s) = r o w (s^{'} a) and o (δ (q_{0}, s e)) \neq o (δ (q_{0}, s^{'} a e))

$\exists s, s' \in S, a \in \Sigma \quad \text{s.t} \quad row(s) = row(s'a) \; \text{and} \; o(\delta(q_0,se)) \neq o(\delta(q_0,s'ae))$

Donde es la función de salida, es el estado inicial y la regla de actualización del verdadero DFA 'desconocido'. En otras palabras, debe servir como testigo para distinguir el futuro de de . $o$ $q_0$ $\delta$ $e$ $s$ $s'a$

Para calcular esta desde , hacemos una búsqueda binaria para descubrir una subcadena tal que y tal que el comportamiento de nuestra máquina conjeturada difiere en función de un carácter de entrada. Con más detalle, dejamos que ser la cadena que corresponde al estado alcanzado en nuestra máquina conjeturado siguiendo . Utilizamos la búsqueda binaria (aquí es donde el $e$ $z$ $r_i$ $z = p_ir_i$ $0 \leq |p_i| = i < |z|$ $s_i$ $p_i$ $\log m$ $k$ $o(\delta(q_0,s_kr_k)) \neq o(\delta(q_0,s_{k+1}r_{k+1})$ $r_{k+1}$ $e$ $E$

— Artem Kaznatcheev
fuente

No sé si mi respuesta sigue siendo relevante. Recientemente se ha descrito la implementación de un nuevo algoritmo llamado Paquete de observación o, en algunas circunstancias, Discrimination Tree por Falk Howar. Este algoritmo es como L * pero usa Rivest-Shapire u otro método (vea Steffen e Isberner) para manejar la descomposición del contraejemplo; y utiliza una estructura de datos, un árbol de discriminación (un árbol binario) para hacer eficientemente un "tamiz", es decir, la inserción de una transición A (donde A es cada símbolo del alfabeto) de un nuevo estado encontrado hasta que no haya cierre . Este algoritmo existe en dos versiones: OneGlobally y OneLocally según si el sufijo fundado en la descomposición se agrega a cada componente o no (la relación detrás del algoritmo es que todos los prefijos en un componente son equivalentes a un prefijo corto y representan el mismo estado en el objetivo de acuerdo con los sufijos encontrados en este momento. Más tarde, con un nuevo contraejemplo, se encuentra un nuevo sufijo que discrimina al menos 2 prefijos de un mismo componente. Esto causa una división de ese componente en dos componentes). Con OneLocally hay muchas menos consultas de membresía, pero el número de consultas de equivalencia puede aumentar drásticamente con DFA de gran objetivo. Por el contrario, OneGlobally tiene una cantidad de consultas de membresía siempre menor que L * (pero mayor que OneLocally) y una cantidad similar de consultas de equivalencias que L * Más tarde, con un nuevo contraejemplo, se encuentra un nuevo sufijo que discrimina al menos 2 prefijos de un mismo componente. Esto causa una división de ese componente en dos componentes). Con OneLocally hay muchas menos consultas de membresía, pero el número de consultas de equivalencia puede aumentar drásticamente con DFA de gran objetivo. Por el contrario, OneGlobally tiene una cantidad de consultas de membresía siempre menor que L * (pero mayor que OneLocally) y una cantidad similar de consultas de equivalencias que L * Más tarde, con un nuevo contraejemplo, se encuentra un nuevo sufijo que discrimina al menos 2 prefijos de un mismo componente. Esto causa una división de ese componente en dos componentes). Con OneLocally hay muchas menos consultas de membresía, pero el número de consultas de equivalencia puede aumentar drásticamente con DFA de gran objetivo. Por el contrario, OneGlobally tiene una cantidad de consultas de membresía siempre menor que L * (pero mayor que OneLocally) y una cantidad similar de consultas de equivalencias que L *

Sé que también existe otro algoritmo: el algoritmo TTT que es mejor que el Observation Pack también, pero no tengo un buen conocimiento del mismo. El algoritmo TTT debería ser el estado del arte

— Umbert
fuente

Gracias por esta respuesta! ¿Tiene una referencia en papel para el algoritmo Howar y para TTT?

— Artem Kaznatcheev el

Esto para el enlace del Paquete de observación Howar y esto para el enlace del algoritmo TTT TTT Puede encontrar la implementación en LearLib (el Paquete de observación se llama allí Árbol de discriminación)

— Umbert