¿Existe una extensión de expresiones regulares que capture los lenguajes libres de contexto?

25

En muchos artículos que involucran gramáticas libres de contexto (CFG), los ejemplos de tales gramáticas presentados allí a menudo admiten caracterizaciones fáciles del lenguaje que generan. Por ejemplo:

$S \to a a S b$
$S \to$

genera $\{ a^{2i} b^i | i \geq 0\}$ ,

$S \to a S b$
$S \to a a S b$
$S \to$

genera $\{ a^i b^j \mid i \geq j \geq 0 \}$ , y

$S \to a S a$
$S \to b S b$
$S \to$

genera $\{ w w^R \mid w \in (a|b)^* \}$ , o equivalente $\{ ((a|b)^*)_1 ((a|b)^*)_2 \mid p_1 = p_2^R \}$ (donde $p_1$ refiere a la parte capturada por $(...)_1$ ).

Todos los ejemplos anteriores se pueden generar agregando índices ( $a^i$ ), restricciones simples en estos índices ( $i > j$ ) y coincidencia de patrones con expresiones regulares. Esto me hace preguntarme si todos los lenguajes libres de contexto pueden ser generados por alguna extensión de las expresiones regulares.

¿Existe una extensión de expresiones regulares que pueda generar todos o algunos subconjuntos significativos de los lenguajes libres de contexto?

fl.formal-languages context-free context-free-languages

— Alex ten Brink
fuente

3

Observe que agregar índices y restricciones es demasiado poderoso: podrá definir

, que no es una CFL.

a^{n} b^{n} c^{n}

$a^nb^nc^n$

— Shaull

34

Sí hay. Defina una expresión sin contexto como un término generado por la siguiente gramática:

\begin{array}{lcll} g & ::= & ϵ & Empty string \\ | & c & Character c in alphabet Σ \\ | & g \cdot g & Concatenation \\ | & ⊥ & Failing pattern \\ | & g \lor g & Disjunction \\ | & μ α . g & Recursive grammar expression \\ | & α & Variable expression \end{array}

$\begin{array}{lcll} g & ::= & \epsilon & \mbox{Empty string}\\ & | & c & \mbox{Character $c$ in alphabet $\Sigma$} \\ & | & g \cdot g & \mbox{Concatenation} \\ & | & \bot & \mbox{Failing pattern} \\ & | & g \vee g & \mbox{Disjunction}\\ & | & \mu \alpha.\; g & \mbox{Recursive grammar expression} \\ & | & \alpha & \mbox{Variable expression} \end{array}$

Estos son todos los constructores para lenguajes regulares, excepto la estrella de Kleene, que se reemplaza por un operador general de punto fijo , y un mecanismo de referencia variable. (La estrella de Kleene no es necesaria, ya que se puede definir como $\mu \alpha.\;g$ .) $g\ast \triangleq \mu \alpha.\;\epsilon \vee g\cdot\alpha$

La interpretación de una expresión libre de contexto requiere tener en cuenta la interpretación de las variables libres. Por lo tanto, defina un entorno como un mapa de variables a idiomas (es decir, subconjuntos de ), y deje que sea la función que se comporta como en todas las entradas excepto , y que devuelve el idioma para . $\rho$ $\Sigma^*$ $[\rho|\alpha:L]$ $\rho$ $\alpha$ $L$ $\alpha$

Ahora, defina la interpretación de una expresión sin contexto de la siguiente manera:

\begin{array}{lcl} [[ϵ]] ρ & = & {ϵ} \\ [[c]] ρ & = & {c} \\ [[g_{1} \cdot g_{2}]] ρ & = & {w_{1} \cdot w_{2} ∣ | w_{1} \in [[g_{1}]] ρ \land w_{2} \in [[g_{2}]] ρ} \\ [[⊥]] ρ & = & \emptyset \\ [[g_{1} \lor g_{2}]] ρ & = & [[g_{1}]] ρ \cup [[g_{2}]] ρ \\ [[α]] ρ & = & ρ (α) \\ [[μ α . g]] ρ & = & ⋃_{n \in N} L_{n} \\ where \\ L_{0} & = & \emptyset \\ L_{n + 1} & = & L_{n} \cup [[g]] [ρ | α : L_{n}] \end{array}

$\newcommand{\interp}[2]{[\![{#1}]\!]\;{#2}} \newcommand{\setof}[1]{\left\{#1\right\}} \newcommand{\comprehend}[2]{\setof{{#1}\;\mid|\;{#2}}} \begin{array}{lcl} \interp{\epsilon}{\rho} & = & \setof{\epsilon} \\ \interp{c}{\rho} & = & \setof{c} \\ \interp{g_1\cdot g_2}{\rho} & = & \comprehend{w_1 \cdot w_2}{w_1 \in \interp{g_1}{\rho} \land w_2 \in \interp{g_2}{\rho}} \\ \interp{\bot}{\rho} & = & \emptyset \\ \interp{g_1 \vee g_2}{\rho} & = & \interp{g_1}{\rho} \cup \interp{g_2}{\rho} \\ \interp{\alpha}{\rho} & = & \rho(\alpha) \\ \interp{\mu \alpha.\; g}{\rho} & = & \bigcup_{n \in \mathbb{N}} L_n \\ \mbox{where} & & \\ L_0 & = & \emptyset \\ L_{n+1} & = & L_n \cup \interp{g}{[\rho|\alpha:L_n]} \end{array}$

Usando el teorema de Knaster-Tarski, es fácil ver que la interpretación de es la menos fija de la expresión. $\mu \alpha.g$

Es sencillo (aunque no del todo trivial) mostrar que puede dar una expresión sin contexto derivando el mismo lenguaje que cualquier gramática libre de contexto, y viceversa. La no trivialidad surge del hecho de que las expresiones sin contexto tienen puntos fijos anidados, y las gramáticas sin contexto le dan un solo punto fijo sobre una tupla. Esto requiere el uso del lema de Bekic, que dice precisamente que un punto fijo anidado se puede convertir en un único punto fijo sobre un producto (y viceversa). Pero esa es la única sutileza.

EDITAR: No, no conozco una referencia estándar para esto: lo resolví por mi propio interés. Sin embargo, es una construcción bastante obvia que estoy seguro de que se ha inventado antes. Algunos buscadores casuales en Google revelan el reciente documento de Context-Free Languages, Coalgebraically de Joost Winter, Marcello Bonsangue y Jan Rutten , donde dan una variante de esta definición (que requiere que todos los puntos fijos estén protegidos) que también llaman expresiones libres de contexto.

— Neel Krishnaswami
fuente

Esto es bastante asombroso. ¿Hay un nombre estándar o referencia para esto?

— Alex ten Brink

55

Arto Salomaa cubre esto en su libro "Idiomas formales" en 1973. Él los llama "expresiones regulares".

— Tim Schaeffer

3

Hubo una pregunta estrechamente relacionada (y varias respuestas) en MathOverflow sobre los lenguajes cuyas funciones generadoras son holonómicas .

Curiosamente, la definición de Neel de la semántica de anterior corresponde exactamente a la prueba (constructiva) de la existencia de soluciones de especies para ecuaciones de especies recursivas a través del teorema de especies implícito. Desafortunadamente, su esquema de prueba también debe contener un error sutil, ya que hay casos en que las cosas se vuelven 'infinitas'. En otras palabras, hay una condición en el jacobiano de la transformación definida por la gramática como no singular que se necesita. Esta es probablemente la razón por la cual Bonsangue-Rutten requiere que los puntos fijos estén protegidos, como una forma de asegurar esta condición en el jacobiano. $\mu$

— Jacques Carette
fuente

AFAICT, Winter et al solo requieren cautela para garantizar que pueda tomar la derivada de Brzozowski de tomando la derivada de .

μ α . g

$\mu\alpha.\;g$

[μ α . g / α] g

$[\mu\alpha.\;g/\alpha]g$

— Neel Krishnaswami

1

Recientemente hemos publicado los esquemas de un marco que hará exactamente eso. Mira en comp.compilers , donde envié una notificación junto con algunos enlaces.

Los nuevos desarrollos se basan en el Teorema de Chomsky-Schuetzenberger y pueden considerarse como la finalización de este resultado. Chomsky, él mismo, ha sido informado de los acontecimientos e indica un deseo de "ponerse al día".

Junto con este desarrollo, también establecemos la equivalencia de dos formulaciones separadas para expresiones libres de contexto, una que es una extensión / finalización de la forma de cálculo mu de "punto menos fijo" (originalmente por Gruska, Yntema y McWhirter) - que recibió una especie de formulación final en 2014, y la otra publicada en 2008.

— NinjaDarth
fuente

44

Incluya toda la información relevante en la respuesta misma. "Buscar debajo de comp.compilers" es una respuesta poco útil ya, y será completamente inútil en un par de meses.

— Emil Jeřábek apoya a Monica el

Eso está totalmente mal. Comp.compilers (a diferencia de este sitio y otros blogs, por cierto) se archiva permanentemente. Allí encontrará todos los detalles que necesita. Hay muchos enlaces que se pueden encontrar allí, también en el artículo publicado más recientemente. Además, a diferencia de los sitios de blogs, está abierto al exterior y es útil para un público mucho más amplio. No debería tener dificultades para encontrar algo en USENET, que es donde se deben abordar y debatir consultas como esta. Si tiene dificultades, aquí está el enlace. groups.google.com/forum/#!topic/comp.compilers/YCa5jHUR1iQ

— NinjaDarth el

2

El problema no es que no esté archivado, sino que los archivos son vastos. Cuando mire los archivos ahora puedo encontrar tu publicación en algún lugar cerca de la parte superior, pero cuando alguien vea esta respuesta dentro de unos meses o años, no tendrán idea de dónde comenzar a cavar. Es arrogante y grosero hacer que los lectores hagan una búsqueda larga y poco confiable cuando puede señalarlos a una ubicación más específica. Ahora lo hice por ti. Tomó como 30 segundos. Podrías haberlo hecho tú mismo.

— Emil Jeřábek apoya a Monica el