Me intriga el concepto de un Modelo de Markov de máxima entropía (MEMM), y estoy pensando en usarlo para un etiquetador de Parte de discurso (POS). Por el momento, estoy usando un clasificador convencional de máxima entropía (ME) para etiquetar cada palabra individual. Esto utiliza una serie de características, incluidas las dos etiquetas anteriores.
Los MEMM utilizan el algoritmo de Viterbi para encontrar la ruta óptima a través de la Cadena de Markov (es decir, para encontrar un conjunto completo óptimo de etiquetas para la oración en lugar de los óptimos individuales para cada palabra). Al leer sobre esto, parece tener una maravillosa elegancia y simplicidad. Sin embargo, cada etapa solo se basa en los "resultados" de la etapa anterior (es decir, según una Cadena de Markov).
Sin embargo, mi modelo ME utiliza las dos etapas anteriores (es decir, las etiquetas de las dos palabras anteriores). Parece que tengo dos enfoques posibles:
Al igual que con una implementación convencional de Viterbi, use un conjunto de rutas almacenadas de acuerdo con una etapa (la anterior). Mi clasificador ME usaría esto y una etapa 'congelada' antes de esto (congelada en la ruta en consideración) para producir la función de transferencia.
O escribo el algoritmo para realizar un seguimiento de dos etapas. Esto es más complicado y ya no sería un verdadero modelo de Markov porque cada función de transferencia (es decir, del modelo ME) dependería de las dos etapas anteriores y no de una sola.
Me parece que el segundo será más preciso, aunque será más complicado.
Todavía tengo que encontrar ejemplos de esto durante mi búsqueda en la literatura. ¿Ha sido probado? ¿El enfoque de dos etapas mejoró la precisión general?