Quería señalar, ya que este es uno de los principales éxitos de Google para este tema, que la asignación de Dirichlet latente (LDA), los procesos de Dirichlet jerárquico (HDP) y la asignación jerárquica de Dirichlet latente (hLDA) son modelos distintos.
LDA modela documentos como mezclas dirichlet de un número fijo de temas, elegidos como parámetro del modelo por el usuario, que a su vez son mezclas dirichlet de palabras. Esto genera una agrupación probabilística plana y suave de términos en temas y documentos en temas.
HDP modela temas como mezclas de palabras, al igual que LDA, pero en lugar de que los documentos sean mezclas de un número fijo de temas, el número de temas es generado por un proceso de dirichlet, lo que resulta en que el número de temas sea también una variable aleatoria. La parte "jerárquica" del nombre se refiere a otro nivel que se agrega al modelo generativo (el proceso de dirichlet que produce el número de temas), no los temas en sí, los temas siguen siendo agrupaciones planas.
hLDA, por otro lado, es una adaptación de LDA que modela temas como mezclas de un nuevo nivel distinto de temas, extraído de distribuciones de dirichlety no procesos. Todavía trata el número de temas como un hiperparámetro, es decir, independiente de los datos. La diferencia es que la agrupación ahora es jerárquica: aprende una agrupación del primer conjunto de temas en sí mismos, dando una relación más general y abstracta entre los temas (y, por lo tanto, las palabras y los documentos). Piense en ello como agrupar los intercambios de pila en matemáticas, ciencias, programación, historia, etc., en lugar de agrupar la ciencia de datos y la validación cruzada en un tema abstracto de estadísticas y programación que comparte algunos conceptos con, por ejemplo, ingeniería de software, pero la ingeniería de software El intercambio se agrupa en un nivel más concreto con el intercambio de ciencias de la computación, y la similitud entre todos los intercambios mencionados no aparece tanto hasta la capa superior de los grupos.