Encontrar la factorización máxima de los idiomas regulares

Deje que el lenguaje sea regular. $\mathcal{L} \subseteq \Sigma^*$

Una factorización de es un par máximo de conjuntos de palabras con $\mathcal{L}$ $(X,Y)$

$X \cdot Y \subseteq \mathcal{L}$
, $X \neq \emptyset \neq Y$

donde | . $X \cdot Y = \{xy$ $x \in X, y \in Y\}$

es máximo si para cada par con ya sea o . $(X,Y)$ $(X',Y') \neq (X,Y)$ $X'\cdot Y' \subseteq \mathcal{L}$ $X \not \subseteq X'$ $Y \not \subseteq Y'$

¿Existe un procedimiento simple para descubrir qué pares son máximos?

Ejemplo:

Deje . Se calcula el conjunto : $\mathcal{L} = \Sigma^∗ab \Sigma^∗$ $F = \{u, v, w\}$

$u =(\Sigma^∗, \Sigma^∗ab\Sigma^∗)$
$v = (\Sigma^∗a\Sigma^∗, \Sigma^∗b\Sigma^∗)$
$w = (\Sigma^∗ab\Sigma^∗, \Sigma^∗)$

donde . $\Sigma = \{a,b\}$

Otro ejemplo:

y Factorización establece con $\Sigma = \{a, b\}$ $\mathcal{L} = \Sigma^*a\Sigma$ $F = \{q, r, s, t\}$

$q = (\Sigma^*, \mathcal{L})$
$r = (\Sigma^*a, \Sigma + \mathcal{L})$
$s = (\Sigma^*aa, \epsilon + \Sigma + \mathcal{L})$
$t = (\mathcal{L}, \epsilon + \mathcal{L})$

algorithms regular-languages optimization

— Laura
fuente

Recomiendo leer el siguiente artículo (especialmente la subsección 4.1) de Jacques Sakarovitch: perso.telecom-paristech.fr/~jsaka/PUB/Files/TUA.pdf

— Cornelius Brand

Me pregunto si es posible que desee ser más específico sobre el problema, es decir, la última oración de su pregunta. ¿Nos dan

y queremos probar si

es máximo? ¿Nuestra tarea es enumerar todos

que son máximos? Si es lo último, ¿está claro que esta lista es finita o de tamaño polinómico? Probablemente no tenga sentido pedir un algoritmo para enumerar todas las posibilidades si hay exponencialmente muchas de ellas. Además, ¿desea especificar cómo se representa el lenguaje

cuando se nos presenta y cómo se representa? (p. ej., DFA, NFA, regexp)

X, Y

$X,Y$

(X, Y)

$(X,Y)$

(X, Y)

$(X,Y)$

L

${\cal L}$

X, Y

$X,Y$

— DW

No entiendo tus ejemplos. ¿Se supone que

son todos pares máximos?

no parece ser válido ...

u, v, w

$u,v,w$

v

$v$

— Raphael

El ejemplo está tomado del artículo mencionado anteriormente. Se supone que

son pares máximos. Asimismo, no entiendo como

se calcula ya que no parece ser necesariamente en

. Publicaré otro ejemplo.

u, v, w

$u,v,w$

v

$v$

L

$\mathcal{L}$

— Laura

@Raphael, me parece que

es válido. Dejar

es una factorización, ya que

(considere cualquier cadena que contenga una

, luego cualquier secuencia de

'sy / o

's, luego eventualmente a

: esta cadena debe tener algún punto donde aparezca la primera

, por lo que es un punto donde contiene

v

$v$

X = Σ^{*} a Σ^{*}

$X=\Sigma^* a \Sigma^*$

Y = Σ^{*} b Σ^{*}

$Y=\Sigma^* b \Sigma^*$

(X, Y)

$(X,Y)$

X \cdot Y = L

$X \cdot Y = {\cal L}$

a

$a$

a

$a$

b

$b$

b

$b$

b

$b$

a b

$ab$ ) Yo no tengo una prueba de que es máxima, pero no puedo encontrar ninguna conjuntos más grandes

, que son una factorización de

X^{'}, Y^{'}

$X',Y'$

L

${\cal L}$

— DW

Como se sugiere en los comentarios a la pregunta, intentaré dar una respuesta (lamentablemente parcial) a la pregunta, al menos en la medida en que haya entendido el problema por mí mismo (esto implica que es posible que encuentre errores, y si encuentra una manera de explicar de manera más breve o clara uno de los siguientes puntos, siéntase libre de editar la respuesta en consecuencia):

Primero, uno debe notar que en realidad no tenemos que calcular el autómata universal de un idioma si queremos calcular las factorizaciones de un idioma.

Del artículo mencionado en mi comentario ¹, hay una correspondencia 1-1 entre los factores izquierdo y derecho de un idioma regular, es decir, dado un factor izquierdo del idioma, el factor derecho correspondiente se determina de manera única y viceversa. Más precisamente, tenemos lo siguiente:

Deje que ser una factorización de . Entonces es decir, cualquier factor izquierdo es una intersección de los cocientes derechos, y cualquier factor derecho es una intersección de los cocientes izquierdos. A la inversa, cualquier intersección de los cocientes izquierdos de es un factor derecha de , y cualquier intersección de cocientes adecuados de es un factor izquierda de . $(X,Y)$ $L$

Y = ⋂_{x \in X} x^{- 1} L, X = ⋂_{y \in Y} L y^{- 1},

$Y = \bigcap_{x \in X}x^{-1}L, X = \bigcap_{y \in Y}Ly^{-1},$

L

$L$

L

$L$

L

$L$

L

$L$

Tenga en cuenta que para un lenguaje normal, solo hay un conjunto finito de cocientes izquierdo y derecho y, por lo tanto, el problema se reduce a calcular los cocientes izquierdo y derecho de un idioma, y luego calcular su cierre estable , es decir, un mínimo superconjunto de los cocientes que se cierra bajo intersección. Estos son, precisamente, a continuación, los factores de la derecha y la izquierda factores, y luego por lo general es fácil ver por qué pares son subconjuntos de . $\cap$ $L$

Ejemplo

Para ilustrar los puntos anteriores, considere el primer ejemplo en la pregunta (de la cual también creo que es incorrecto en el documento):

Deje . Ahora, los cocientes izquierdos de son los conjuntos para , es decir, esas palabras en que puede ser prefijado con , es decir, . ¿Cuándo es para distintas ? Este es el caso si y solo si $L = \Sigma^\ast ab \Sigma^\ast$ $L$ $x^{-1}L$ $x\in \Sigma^\ast$ $u$ $\Sigma^\ast$ $x$ $xu \in L$ $y^{-1}L=x^{-1}L$ $x,y$ $x$ y puede ser aumentada a las palabras en con exactamente los mismos sufijos. Esto significa que, para ponerlo en términos más familiares, son equivalentes a Nerode, y los sufijos necesarios para agregar palabras a una clase de Nerode son precisamente los cocientes izquierdos respectivos. $y$ $L$

Para , vemos que nuestras clases de equivalencia de Nerode son $L$

, el conjunto de palabras que no contiene como factor y que termina con , $N_1$ $ab$ $a$
, el conjunto de palabras que termina con y no contiene como factor, y $N_2$ $b$ $ab$
, el conjunto de palabras que contiene como factor, es decir, $N_3$ $ab$ $N_3 = L$

Se pueden aumentar con los siguientes conjuntos (es decir, estos son los cocientes izquierdos de las palabras en las clases respectivas):

para en consta de todas las palabras en (cualquier palabra se puede aumentar con una palabra que contenga como factor y, por lo tanto, se convierte en una palabra en ) y , es decir $S_1 = x^{-1}L$ $x$ $N_1$ $L$ $ab$ $L$ $b\Sigma^\ast$ $S_1 = L \cup b\Sigma^\ast$
para en es el lenguaje en sí, es decir, y $S_2 = x^{-1}L$ $x$ $N_2$ $S_2 = L$
para en es obviamente . Es decir, hemos encontrado tres factores de la derecha de . Como , sucierre estable es trivial , y esos son precisamente los factores correctos. $S_3 = x^{-1}L$ $x$ $N_3$ $\Sigma^\ast$ $L$ $S_2\subset S_1\subset S_3$ $\cap$ ${S_1,S_2,S_3}$

$\mathcal{F}_L$ $(P_1,S_1),(P_2,S_2),(P_3,S_3)$ .

Ahora, para los factores izquierdos $P_i$ , we use the equations of the beginning of this answer:

P_{i} = ⋂_{x \in S_{i}} L x^{- 1}

$P_i = \bigcap_{x\in S_i} Lx^{-1}$ .

$P_1$ $L \cup \Sigma^\ast a$ $P_2$ $\Sigma^\ast$ $P_3$ , we obtain $L$ . You can see this by inspection (the most popular excuse for being too lazy to state a formal proof) or by explicitly computing the right quotients (which is fairly analogous, although not completely, to computing the left quotients). Our factorizations are thus given by $\mathcal{F}_L = {u,v,w}$ where

$u = (P_1,S_1) = (\Sigma^\ast ab \Sigma^\ast \cup \Sigma^\ast a, \Sigma^\ast ab \Sigma^\ast \cup b\Sigma^\ast)$
$v = (P_2, S_2) = (\Sigma^\ast, \Sigma^\ast ab \Sigma^\ast)$ and
$w = (P_3, S_3) = (\Sigma^\ast ab \Sigma^\ast, \Sigma^\ast)$

Summary

To summarize (as you were asking for a simple procedure):

For computing the factorizations of a language $L$ , first compute the left quotients of $L$ .
You can do so, in the language of the paper, by constructing a minimal DFA $A$ for $L$ and then for each state $q$ in $A$ (corresponding, as a Nerode-equivalence class, to a left quotient) compute the future of $q$ in $A$ , thus obtaining one left quotient of the language for each state.
The collection of left quotients obtained in this way yields, in general, a subset $S_R$ of the right factors.
Compute then the $\cap$ -stable closure of $S_R$ , which can be done in practice by forming the intersection of any subset of $S_R$ and adding any subset obtained in this way to $S_R$ .
The set $S_R$ together with all the intersections from the previous step is then the set of right factors of $L$ .
In order to obtain the left factors, we can compute the right quotients of $L$ .
These are sets of the form $Ly^{-1}$ , for $y\in \Sigma^\ast$ . Now, these are again only finitely many, and for $x\neq y$ , we have $Ly^{-1} = Lx^{-1}$ if and only if for all $u\in \Sigma^\ast$ , $ux \in L \Leftrightarrow uy \in L$ , that is they can be prefixed to words in the language with precisely the same set of strings.
To compute $Lx^{-1}$ , consider those states $q$ in $A$ such that $x$ is contained in the future of $q$ . The union of the pasts of those states constitute one right quotient. Find all these quotients.
You know you are done when you have found as many left factors as you have right factors.
Find those pairs of left and right factors $X,Y$ such that $X\cdot Y \subseteq L$ . This is $\mathcal{F}_L$ .

The Universal Automaton by Lombardy and Sakarovitch (in Texts in Logic and Games, Vol 2: Logic and Automata: History and Perspectives, 2007)

— Cornelius Brand
fuente

¡Agradable! Tengamos en cuenta que

A \subseteq B

$A \subseteq B$ is decidable for regular languages and that these factors

X

$X$ ,

Y

$Y$ end up being regular due to closure properties. Hence we can not only effectively compute the last bullet in the summary, but we can also filter out the maximal pairs.

— Raphael