¿Se puede usar LDA para detectar el tema de UN SOLO documento?
Sí, en su representación particular de 'tema', y dado un corpus de capacitación de documentos (generalmente relacionados).
LDA representa temas como distribuciones sobre palabras, y documentos como distribuciones sobre temas. Es decir, uno de los propósitos de LDA es llegar a la representación probabilística de cada documento como un conjunto de temas. Por ejemplo, la implementación de LDA en gensim
puede devolver esta representación para cualquier documento dado.
Pero esto depende de los otros documentos del corpus: cualquier documento tendrá una representación diferente si se analiza como parte de un corpus diferente.
Eso no suele considerarse una deficiencia: la mayoría de las aplicaciones de LDA se centran en documentos relacionados. El documento que presenta LDA lo aplica a dos corpus, uno de los artículos de Associated Press y uno de los resúmenes de artículos científicos. La publicación de blog agradablemente accesible de Edwin Chen aplica LDA a un tramo de correos electrónicos de la época de Sarah Palin como gobernadora de Alaska.
Si su aplicación exige separar los documentos en clases conocidas y mutuamente excluyentes, los temas derivados de LDA se pueden usar como características para la clasificación. De hecho, el documento inicial hace exactamente eso con el corpus AP, con buenos resultados.
Relacionadamente, la demostración de Chen no clasifica los documentos en clases exclusivas, pero sus documentos concentran principalmente su probabilidad en temas individuales de LDA. Como David Blei explica en esta video conferencia , se pueden elegir los antecedentes de Dirichlet para favorecer la escasez. Más simplemente, "un documento es penalizado por usar muchos temas", como lo expresan sus diapositivas. Esto parece lo más cercano que LDA puede llegar a un solo tema no supervisado, pero ciertamente no garantiza que cada documento sea representado como tal.