Diferencia intuitiva entre modelos ocultos de Markov y campos aleatorios condicionales

33

Entiendo que los HMM (modelos ocultos de Markov) son modelos generativos, y CRF son modelos discriminativos. También entiendo cómo se diseñan y utilizan los CRF (campos aleatorios condicionales). Lo que no entiendo es en qué se diferencian de los HMM. Leí que en el caso de HMM, solo podemos modelar nuestro siguiente estado en el nodo anterior, el nodo actual y la probabilidad de transición, pero en el caso de los CRF podemos hacer esto y podemos conectar un número arbitrario de nodos para formar dependencias o contextos? ¿Estoy en lo correcto aquí?

— usuario1343318
fuente

1

Es posible que a los lectores de este comentario no les guste esta respuesta, pero si realmente necesita saber la respuesta, la mejor manera de entender es leer los documentos usted mismo y formar su propia opinión. Esto toma mucho tiempo, pero es la única manera de saber realmente lo que está pasando y que sea capaz de decir si otras personas están diciendo la verdad

— Frank

23

De la introducción de McCallum a los CRF :

ingrese la descripción de la imagen aquí

— Renaud
fuente

44

¿Le importaría agregar su propia intuición / percepción / comprensión a esto, incluso si solo señala los aspectos más destacados (desde su perspectiva)?

— javadba

10

"Los campos aleatorios condicionales pueden entenderse como una extensión secuencial del modelo de máxima entropía". Esta oración es de un informe técnico. relacionado con "Modelos probabilísticos clásicos y campos aleatorios condicionales".

Es probablemente la mejor lectura para temas como HMM, CRF y Maximum Entropy.

PD: La Figura 1 en el enlace ofrece una muy buena comparación entre ellos.

Saludos,

— miguelmalvarez
fuente

5

Como nota al margen: le pido amablemente que mantenga esta lista (incompleta) para que los usuarios interesados tengan un recurso fácilmente accesible. El statu quo aún requiere que las personas investiguen muchos documentos y / o informes técnicos largos para encontrar respuestas relacionadas con CRF y HMM.

Además de las otras respuestas, que ya son buenas, quiero señalar las características distintivas que encuentro más notables:

Los HMM son modelos generativos que intentan modelar la distribución conjunta P (y, x). Por lo tanto, dichos modelos intentan modelar la distribución de los datos P (x) que a su vez podrían imponer características altamente dependientes . Estas dependencias a veces son indeseables (por ejemplo, en el etiquetado POS de NLP) y muy a menudo intratables para modelar / calcular.
Los CRF son modelos discriminativos que modelan P (y | x). Como tales, no requieren modelar explícitamente P (x) y, por lo tanto, dependiendo de la tarea, podrían producir un mayor rendimiento, en parte porque necesitan menos parámetros para aprender, por ejemplo, en entornos en los que no se desea generar muestras . Los modelos discriminativos son a menudo más adecuados cuando las características complejas y superpuestas se utilizan (ya que modelar su distribución es a menudo difícil).
Si tiene características superpuestas / complejas (como en el etiquetado POS), es posible que desee considerar los CRF, ya que pueden modelarlos con sus funciones de función (tenga en cuenta que generalmente tendrá que diseñar estas funciones).
En general, los CRF son más potentes que los HMM debido a su aplicación de funciones. Por ejemplo, puede modelar funciones como 1 ( $y_t$ = NN, $x_t$ = Smith $cap(x_{t-1})$ = verdadero) mientras que en HMM (de primer orden) se utiliza el supuesto de Markov, imponiendo una dependencia solo al elemento anterior. Por lo tanto, veo CRF como una generalización de HMM .
También tenga en cuenta la diferencia entre CRF lineales y generales . Los CRF lineales, como los HMM, solo imponen dependencias en el elemento anterior, mientras que con los CRF generales puede imponer dependencias a elementos arbitrarios (por ejemplo, se accede al primer elemento al final de una secuencia).
En la práctica, verá CRF lineales con más frecuencia que los CRF generales, ya que generalmente permiten una inferencia más fácil. En general, la inferencia de CRF es a menudo intratable, dejándolo con la única opción manejable de inferencia aproximada).
La inferencia en CRF lineales se realiza con el algoritmo de Viterbi como en los HMM.
Tanto los HMM como los CRF lineales se entrenan típicamente con técnicas de máxima verosimilitud , como el descenso de gradiente, métodos de cuasi-Newton o para HMM con técnicas de maximización de expectativas (algoritmo de Baum-Welch). Si los problemas de optimización son convexos, todos estos métodos producen el conjunto de parámetros óptimo.
Según [1], el problema de optimización para aprender los parámetros lineales de CRF es convexo si todos los nodos tienen distribuciones familiares exponenciales y se observan durante el entrenamiento.

[1] Sutton, Charles; McCallum, Andrew (2010), "Introducción a los campos aleatorios condicionales"

— Fábio
fuente