No usaría modelos de mezclas gaussianas , ya que requieren que las distribuciones constituyentes sean normales. Tienes cuentas, por lo que GMM es inapropiado por definición.
La asignación de Dirichlet latente (divulgación completa: no sé realmente el modelado de temas) requiere que sus datos sean multinomiales , pero puede tener recuentos en ese caso; serían recuentos de ocurrencias de diferentes categorías de una variable. Otra posibilidad es que sus recuentos sean recuentos de diferentes variables, como al tener varias variables de Poisson . Esta es una pregunta ontológica sobre cómo está pensando en sus datos.
Considere un ejemplo simple donde voy al supermercado porque quiero algo de fruta. Compraré una cierta cantidad de manzanas, naranjas, duraznos y plátanos. Cada uno de ellos podría considerarse una variable de Poisson separada. Cuando llego a casa los pongo en un frutero. Más tarde, cuando tengo ganas de comer bocadillos, podría meter la mano en el tazón sin mirar y agarrar dos piezas de fruta (por ejemplo, una manzana y un durazno). Eso puede considerarse un sorteo de una distribución multinomial. En ambos casos, tengo recuentos de categorías, pero pensamos en ellos de manera diferente. En el primer caso, las frutas que compraré se conocen antes de llegar al supermercado, pero el número comprado en cada categoría puede variar. En el segundo caso, no sé qué frutas recogeré, pero sé que estoy tomando dos de los tipos posibles.
Si sus datos son como el ejemplo del frutero, LDA puede ser apropiado para usted. Por otro lado, si son como el ejemplo de una tienda de comestibles, puede probar el modelado de mezcla finita de Poisson . Es decir, puede usar el modelado de mezclas con distribuciones que no sean gaussiana / normal. Los GMM son los más comunes con diferencia; otras distribuciones (como Poisson) son más exóticas. No sé qué tan ampliamente implementados están en el software. Si usa R, Google condujo al descubrimiento de ? PoisMixClus en el paquete HTSCluster y el paquete rebmix (tenga en cuenta que nunca he usado tampoco, o he realizado el modelado de mezclas de Poisson). También es posible encontrar implementaciones para otro software.
Agregando algunos detalles: diría que LDA es al menos una técnica bayesiana como GMM.
- Sospecho que la diferencia más importante entre LDA y GMM es el tipo de datos que suponen que tiene.
- No puede compararlos, porque son para diferentes tipos de datos. (Tampoco me gustaría comparar LDA y Poisson MM, ya que conceptualizan los recuentos de manera diferente).
No dicotomizaría sus datos en cero / no cero.