Modelos de tema para documentos cortos


14

Inspirado por esta pregunta , me pregunto si se ha realizado algún trabajo sobre modelos de temas para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de una experimentación limitada, parece que los modelos de tema estándar (LDA, etc.) funcionan bastante mal en este tipo de datos.

¿Alguien por ahí sabe de algún trabajo que se haya realizado en esta área? Este artículo habla sobre la aplicación de LDA a Twitter, pero estoy realmente interesado en saber si hay otros algoritmos que funcionen mejor en el contexto de documentos cortos.


2
Twitter es un conjunto de datos particularmente difícil para el modelado de temas no solo por el pequeño tamaño de los 'documentos', sino también por el tipo de texto. Las personas tienden a usar varios mensajes cortos de mensajes de texto, lo que dificulta aún más la identificación de coincidencias.
Nick

Vea la lista de buenos documentos y los códigos fuente correspondientes para el modelado de temas en Tweets en: quora.com/…
NQD

Respuestas:


7

Esta es una respuesta tardía, pero puede ser útil para otras personas que buscan investigaciones y herramientas relacionadas para este problema:

  1. Weiwei Guo de Columbia implementó el código para el modelado de temas de texto corto. Describió la implementación en el documento "Modelando oraciones en el espacio latente" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) y el código está disponible aquí: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Aunque esto no es modelado de temas, si tiene una tarea de clasificación que involucra fragmentos cortos de texto, puede usar LibShortText. De la descripción de su sitio web

"LibShortText es una herramienta de código abierto para la clasificación y el análisis de textos cortos. Puede manejar la clasificación de, por ejemplo, títulos, preguntas, oraciones y mensajes cortos ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

Si bien no estoy muy familiarizado con su trabajo, sé que Jacob Eisenstein ha trabajado en análisis de texto y modelos gráficos en datos de Twitter. En particular, este documento describe una aplicación de modelado de temas en datos de Twitter y microblogs.

Editar: en realidad, después de leer el periódico un poco más, dicen:

Sin embargo, el mensaje promedio en Twitter es de solo dieciséis tokens de palabras, lo cual es demasiado escaso para el modelado tradicional de temas; en su lugar, reunimos todos los mensajes de un usuario determinado en un solo documento.

Entonces, tal vez ese mismo documento puede no ser de mucha ayuda, aún quizás otras publicaciones de Eisenstein puedan guiarlo en la dirección correcta.


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.