Usar palabras de tema generadas por LDA para representar un documento

Quiero hacer la clasificación de documentos representando cada documento como un conjunto de características. Sé que hay muchas maneras: BOW, TFIDF, ...

Quiero utilizar la asignación de Dirichlet latente (LDA) para extraer las palabras clave del tema de CADA UNO documento. El documento está representado por estas palabras temáticas. Pero no sé si es razonable porque, en mi opinión, LDA generalmente se usa para extraer las palabras de tema compartidas por A BUNCH OF documentos.

¿Se puede usar LDA para detectar el tema de UN SOLO documento?

— Munichong
fuente

¿Se puede usar LDA para detectar el tema de UN SOLO documento?

Sí, en su representación particular de 'tema', y dado un corpus de capacitación de documentos (generalmente relacionados).

LDA representa temas como distribuciones sobre palabras, y documentos como distribuciones sobre temas. Es decir, uno de los propósitos de LDA es llegar a la representación probabilística de cada documento como un conjunto de temas. Por ejemplo, la implementación de LDA en gensimpuede devolver esta representación para cualquier documento dado.

Pero esto depende de los otros documentos del corpus: cualquier documento tendrá una representación diferente si se analiza como parte de un corpus diferente.

Eso no suele considerarse una deficiencia: la mayoría de las aplicaciones de LDA se centran en documentos relacionados. El documento que presenta LDA lo aplica a dos corpus, uno de los artículos de Associated Press y uno de los resúmenes de artículos científicos. La publicación de blog agradablemente accesible de Edwin Chen aplica LDA a un tramo de correos electrónicos de la época de Sarah Palin como gobernadora de Alaska.

Si su aplicación exige separar los documentos en clases conocidas y mutuamente excluyentes, los temas derivados de LDA se pueden usar como características para la clasificación. De hecho, el documento inicial hace exactamente eso con el corpus AP, con buenos resultados.

Relacionadamente, la demostración de Chen no clasifica los documentos en clases exclusivas, pero sus documentos concentran principalmente su probabilidad en temas individuales de LDA. Como David Blei explica en esta video conferencia , se pueden elegir los antecedentes de Dirichlet para favorecer la escasez. Más simplemente, "un documento es penalizado por usar muchos temas", como lo expresan sus diapositivas. Esto parece lo más cercano que LDA puede llegar a un solo tema no supervisado, pero ciertamente no garantiza que cada documento sea representado como tal.

— Sean Easter
fuente

Gracias por tu respuesta. ¿Puedo ingresar un solo documento, en lugar de un conjunto de documentos, en LDA y usar las palabras de salida como tema del documento?

— Munichong

Por "ingresar un solo documento", ¿quiere decir "usar un conjunto de capacitación que consta de un solo documento"? ¿O "extraer temas de un único documento fuera de muestra usando un modelo entrenado"?

— Sean Easter

Me refiero a "usar un conjunto de capacitación que consta de un solo documento" y especificar el número de temas objetivo a 1, es decir, extraer un tema (un conjunto de palabras) del único documento de capacitación.

— Munichong

Nunca lo he intentado, así que no puedo confirmar positivamente cómo cualquier implementación trataría esa entrada. Pero usar un solo documento y un solo tema desafiaría ciertos supuestos generativos del modelo. Básicamente, estaría asumiendo que cada palabra del documento se extrajo de una única distribución multinomial; la parte posterior para su parámetro sería poco más que un recuento normalizado de palabras en el documento. Todo esto para decir que lucho para ver cómo esto podría producir resultados significativos. Sería como calcular tf-idf en un corpus de uno: la estadística se basa en las características del corpus más amplio.

— Sean Easter