Inspirado por esta pregunta , me pregunto si se ha realizado algún trabajo sobre modelos de temas para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de una experimentación limitada, parece que los modelos de tema estándar (LDA, etc.) funcionan bastante mal en este tipo de datos.
¿Alguien por ahí sabe de algún trabajo que se haya realizado en esta área? Este artículo habla sobre la aplicación de LDA a Twitter, pero estoy realmente interesado en saber si hay otros algoritmos que funcionen mejor en el contexto de documentos cortos.