Implementación: El paquete topicmodels proporciona una interfaz para el código GSL C y C ++ para modelos de tema de Blei et al. y Phan y col. Para el primero, usa Variational EM, para el último Gibbs Sampling. Ver http://www.jstatsoft.org/v40/i13/paper . El paquete funciona bien con las utilidades del paquete tm.
El paquete lda utiliza una muestra de Gibbs contraída para varios modelos similares a los de la biblioteca GSL. Sin embargo, ha sido implementado por los propios autores del paquete, no por Blei et al. Por lo tanto, esta implementación difiere en general de la técnica de estimación propuesta en los documentos originales que presentan estas variantes del modelo, donde generalmente se aplica el algoritmo VEM. Por otro lado, el paquete ofrece más funcionalidad que el otro paquete. El paquete también proporciona funcionalidad de minería de texto.
Extensibilidad: con respecto a la extensibilidad, el código del modelo de tema, por su propia naturaleza, puede ampliarse para interactuar con otro código de modelo de tema escrito en C y C ++. El paquete lda parece depender más de la implementación específica proporcionada por los autores, pero la muestra de Gibbs podría permitir especificar su propio modelo de tema. Para problemas de extensibilidad nota bene, el primero está licenciado bajo GPL-2 y el último LGPL, por lo que puede depender de para qué necesita extenderlo (GPL-2 es más estricto con respecto al aspecto de código abierto, es decir, no puede usarlo en software propietario).
Rendimiento: no puedo ayudarlo aquí, solo he usado modelos de tema hasta ahora.
Conclusión:
Personalmente lo uso topicmodels
, ya que está bien documentado (consulte el documento JSS anterior) y confío en los autores (Grün también implementó flexmix y Hornik es miembro principal de R).