¿Cómo mostrar que L = L (G)?

Especificar idiomas formales al dar gramáticas formales es una tarea frecuente: necesitamos gramáticas no solo para describir idiomas, sino también para analizarlos, o incluso hacer ciencia adecuada . En todos los casos, es importante que la gramática en cuestión sea correcta , es decir, que genere exactamente las palabras deseadas.

A menudo podemos discutir en un alto nivel por qué la gramática es una representación adecuada del idioma deseado, omitiendo una prueba formal. Pero, ¿qué pasa si tenemos dudas o necesitamos una prueba formal por alguna razón? ¿Qué técnicas podemos aplicar?

^{Se supone que esto se convertirá en una pregunta de referencia . Por lo tanto, tenga cuidado de dar respuestas generales, presentadas didácticamente, que se ilustran con al menos un ejemplo pero que, sin embargo, cubren muchas situaciones. ¡Gracias!}

— Rafael
fuente

Las gramáticas son objetos inherentemente recursivos, por lo que la respuesta parece obvia: por inducción. Dicho esto, los detalles a menudo son difíciles de entender. En la secuela describiré una técnica que permite reducir muchas pruebas de corrección gramatical a pasos mecánicos, siempre que se realice un preprocesamiento creativo. $\newcommand{\lang}[1]{\mathcal{L}(#1)} \newcommand{\sent}[1]{\vartheta(#1)} \newcommand{\derive}{\mathbin{\Rightarrow}} \newcommand{\derivestar}{\mathbin{\Rightarrow^*}} \newcommand{\nats}{\mathbb{N}}$

La idea básica es no restringirse a las palabras de gramática y lenguaje; Es difícil comprender la estructura de la gramática de esta manera. En cambio, discutiremos sobre el conjunto de oraciones que la gramática puede crear. Además, dividiremos un objetivo de prueba desalentador en muchos objetivos pequeños que son más manejables.

Deje que una gramática formal con los no terminales de , los terminales , las reglas y a partir símbolo . Denotamos por el conjunto de oraciones que se pueden derivar de dado , es decir, . El lenguaje generado por es . Supongamos que queremos mostrar que para algunos . $G=(N,T,\delta,S)$ $N$ $T$ $\delta$ $S \in N$ $\sent{G}$ $S$ $\delta$ $\alpha \in \sent{G} \iff S \derivestar \alpha$ $G$ $\lang{G} = \sent{G} \cap T^*$ $L = \lang{G}$ $L \subseteq T^*$

El ansatz

Así es como lo hacemos. Definimos para que $M_1, \dots, M_k \subseteq (N \cup T)^*$

$\displaystyle \sent{G} = \bigcup_{i=1}^k M_i$ y
$\displaystyle T^* \cap \bigcup_{i=1}^k M_i = L$ .

Mientras que 2. generalmente es claro por definición de , 1. requiere un trabajo serio. Los dos elementos juntos implican claramente como se desee. $M_i$ $\lang{G} = L$

Para facilitar la notación, denotemos . $M = \bigcup_{i=1}^k M_i$

El camino rocoso

Hay dos pasos principales para realizar tal prueba.

¿Cómo encontrar (bueno) ? $M_i$
Una estrategia es investigar las fases por las que funciona la gramática. No toda gramática es susceptible a esta idea; En general, este es un paso creativo. Ayuda si podemos definir la gramática nosotros mismos; Con cierta experiencia, podremos definir gramáticas más manejables con este enfoque.
¿Cómo probar 1.?
Como con cualquier conjunto de igualdad, hay dos direcciones.
- $\sent{G} \subseteq M$ : (estructural) de inducción sobre las producciones de . $G$
- $M \subseteq \sent{G}$ : Por lo general, una inducción por , a partir de la que contiene . $M_i$ $S$

Esto es tan específico como se pone; los detalles dependen de la gramática y el idioma en cuestión.

Ejemplo

Considera el idioma

$\qquad \displaystyle L = \{ a^n b^n c^m \mid n,m \in \nats \}$

y la gramática con dada por $G = (\{S,A\}, \{a,b,c\}, \delta, S)$ $\delta$

$\qquad \begin{align} S &\to Sc \mid A \\ A &\to aAb \mid \varepsilon \end{align}$

para lo cual queremos mostrar que . ¿Cuáles son las fases por las que funciona esta gramática? Bueno, primero genera luego . Esto informa inmediatamente nuestra elección de , a saber $L = \lang{G}$ $c^m$ $a^n b^n$ $M_i$

$\qquad \begin{align} M_0 &= \{Sc^m \mid m \in \nats \} \;, \\ M_1 &= \{ a^n A b^n c^m \mid m,n \in \nats \} \;, \\ M_2 &= \{ a^n b^n c^m \mid m,n \in \nats \} \;. \\ \end{align}$

Como y , el elemento 2. ya se ha . Hacia 1., dividimos la prueba en dos partes como se anunció. $M_2 = L$ $M_0 \cap T^* = M_1 \cap T^* = \emptyset$

$\mathbf{\sent{G} \subseteq M}$

Realizamos inducción estructural a lo largo de las reglas de . $G$

IA: Dado que anclamos con éxito. $S = Sc^0 \in M_0$

IH: Supongamos por un conjunto de frases que también sabemos . $X \subseteq \sent{G}$ $X \subseteq M$

IS: Deje arbitrario. Tenemos que demostrar que cualquiera de sus formas tiene y lo que se aplica la regla siguiente, que no deje . Hacemos esto por distinción de caso completo. Por hipótesis de inducción, sabemos que (exactamente) se aplica uno de los siguientes casos: $\alpha \in X \subseteq \sent{G} \cap M$ $\alpha$ $M$

w = S c m m ∈ N M , es decir para algunos . Se pueden aplicar dos reglas, las cuales derivan una oración en :
- $Sc^m \derive Sc^{m+1} \in M_0$ y
- $Sc^m \derive Ac^m = a^0Ab^0c^m \in M_1$ .
w = a n A b n c m m , n ∈ N , es decir, para algunos :
- $w \derive a^{n+1}Ab^{n+1}c^m \in M_1$ y
- $w \derive a^nb^nc^m \in M_2$ .
$w \in M_3$ : dado que , no son posibles más derivaciones. $w \in T^*$

Como hemos cubierto con éxito todos los casos, la inducción se ha completado.

$\mathbf{\sent{G} \supseteq M}$

Realizamos una prueba (simple) por . Observe cómo encadenamos las pruebas para que "posterior" pueda anclar utilizando el "anterior" . $M_i$ $M_i$ $M_i$

$M_1$ : Realizamos una inducción sobre , anclando en y usando en el paso. $m$ $Sc^0 = S$ $S \to Sc$
$M_2$ : fijamos en un valor arbitrario e inducimos sobre . en , usando esa por la prueba anterior. El paso avanza a través de . $m$ $n$ $Ac^m$ $S \derivestar Sc^m \derive Ac^m$ $A \to aAb$
$M_3$ : Para arbitrario usamos la prueba anterior para . $m,n \in \nats$ $S \derivestar a^nAb^nc^m \derive a^nb^nc^m$

Esto concluye la segunda dirección de la prueba de 1., y hemos terminado.

Podemos ver que explotamos mucho que la gramática es lineal . Para gramáticas no lineales, necesitamos con más de un parámetro variable (en la (s) prueba (s)), que puede volverse feo. Si tenemos control sobre la gramática, esto nos enseña a mantenerlo simple. Considere como ejemplo disuasorio esta gramática que es equivalente a : $M_i$ $G$

$\qquad \begin{align} S &\to aAbC \mid \varepsilon \\ A &\to aAb \mid \varepsilon \\ C &\to cC \mid \varepsilon \end{align}$

Ejercicio

Dar una gramática para

$\qquad L = \{ b^k a^l (bc)^m a^n b^o \mid k,l,m,n,o \in \nats, k \neq o, 2l = n, m \geq 2 \}$

y probar su corrección.

Si tienes problemas, una gramática:

Considere con producciones $G = (\{S,B_r,B_l,A,C\}, \{a,b,c\}, \delta, S)$

$\quad \begin{align} S &\to bSb \mid B_l \mid B_r \\ B_l &\to bB_l \mid bA \\ B_r &\to B_r b \mid Ab \\ A &\to aAaa \mid C \\ C &\to bcC \mid bcbc \end{align}$

y : $M_i$

$\quad\begin{align} M_0 &= \{ b^i S b^i \mid i \in \nats \} \\ M_1 &= \{ b^i B_l b^o \mid o \in \nats, i \geq o \} \\ M_2 &= \{ b^k B_r b^i \mid k \in \nats, i \geq k \} \\ M_3 &= \{ b^k a^i A a^{2i} b^o \mid k,o,i \in \nats, k \neq o \} \\ M_4 &= \{ b^k a^l (bc)^i C a^{2l} b^o \mid k,o,l,i \in \nats, k \neq o \} \\ M_5 &= L \end{align}$

¿Qué pasa con las gramáticas no lineales?

La característica que caracteriza la clase de lenguajes sin contexto es el lenguaje Dyck : esencialmente, cada lenguaje sin contexto puede expresarse como la intersección de un lenguaje Dyck y un lenguaje regular. Desafortunadamente, el lenguaje Dyck no es lineal, es decir, no podemos dar una gramática que sea inherentemente adecuada para este enfoque.

$M_i$

$\displaystyle \sent{G} \supseteq L$
$\displaystyle |\lang{G} \cap T^n| = |L \cap T^n|$ $n \in \nats$

$G$ $n \in \nats$

Para las gramáticas ambiguas y sin contexto, me temo que volvemos a ansatz one y pensamos en mayúsculas.

Cuando usamos ese método particular para contar, obtenemos como bonificación que la gramática es inequívoca. A su vez, esto también significa que la técnica tiene que fallar para las gramáticas ambiguas, ya que nunca podemos probar 2.

— Rafael
fuente