Como nota al margen: le pido amablemente que mantenga esta lista (incompleta) para que los usuarios interesados tengan un recurso fácilmente accesible. El statu quo aún requiere que las personas investiguen muchos documentos y / o informes técnicos largos para encontrar respuestas relacionadas con CRF y HMM.
Además de las otras respuestas, que ya son buenas, quiero señalar las características distintivas que encuentro más notables:
- Los HMM son modelos generativos que intentan modelar la distribución conjunta P (y, x). Por lo tanto, dichos modelos intentan modelar la distribución de los datos P (x) que a su vez podrían imponer características altamente dependientes . Estas dependencias a veces son indeseables (por ejemplo, en el etiquetado POS de NLP) y muy a menudo intratables para modelar / calcular.
- Los CRF son modelos discriminativos que modelan P (y | x). Como tales, no requieren modelar explícitamente P (x) y, por lo tanto, dependiendo de la tarea, podrían producir un mayor rendimiento, en parte porque necesitan menos parámetros para aprender, por ejemplo, en entornos en los que no se desea generar muestras . Los modelos discriminativos son a menudo más adecuados cuando las características complejas y superpuestas se utilizan (ya que modelar su distribución es a menudo difícil).
- Si tiene características superpuestas / complejas (como en el etiquetado POS), es posible que desee considerar los CRF, ya que pueden modelarlos con sus funciones de función (tenga en cuenta que generalmente tendrá que diseñar estas funciones).
- En general, los CRF son más potentes que los HMM debido a su aplicación de funciones. Por ejemplo, puede modelar funciones como 1 (yt= NN, Xt= Smith c a p ( xt - 1)= verdadero) mientras que en HMM (de primer orden) se utiliza el supuesto de Markov, imponiendo una dependencia solo al elemento anterior. Por lo tanto, veo CRF como una generalización de HMM .
- También tenga en cuenta la diferencia entre CRF lineales y generales . Los CRF lineales, como los HMM, solo imponen dependencias en el elemento anterior, mientras que con los CRF generales puede imponer dependencias a elementos arbitrarios (por ejemplo, se accede al primer elemento al final de una secuencia).
- En la práctica, verá CRF lineales con más frecuencia que los CRF generales, ya que generalmente permiten una inferencia más fácil. En general, la inferencia de CRF es a menudo intratable, dejándolo con la única opción manejable de inferencia aproximada).
- La inferencia en CRF lineales se realiza con el algoritmo de Viterbi como en los HMM.
- Tanto los HMM como los CRF lineales se entrenan típicamente con técnicas de máxima verosimilitud , como el descenso de gradiente, métodos de cuasi-Newton o para HMM con técnicas de maximización de expectativas (algoritmo de Baum-Welch). Si los problemas de optimización son convexos, todos estos métodos producen el conjunto de parámetros óptimo.
- Según [1], el problema de optimización para aprender los parámetros lineales de CRF es convexo si todos los nodos tienen distribuciones familiares exponenciales y se observan durante el entrenamiento.
[1] Sutton, Charles; McCallum, Andrew (2010), "Introducción a los campos aleatorios condicionales"