Recientemente, ha crecido una gran cantidad de literatura que discute cómo extraer información del texto escrito. Por lo tanto, solo describiré cuatro hitos / modelos populares y sus ventajas / desventajas y resaltaré (algunas de) las principales diferencias (o al menos lo que creo que son las principales / más importantes diferencias).
Usted menciona el enfoque "más fácil", que sería agrupar los documentos comparándolos con una consulta de términos predefinida (como en PMI). Sin embargo, estos métodos de correspondencia léxica pueden ser inexactos debido a la polisemia (significados múltiples) y la sinonimia (palabras múltiples que tienen significados similares) de términos únicos.
Como remedio, la indexación semántica latente ( LSI ) intenta superar esto mapeando términos y documentos en un espacio semántico latente a través de una descomposición de valores singulares. Los resultados de LSI son indicadores de significado más sólidos que los términos individuales. Sin embargo, un inconveniente de LSI es que carece de una base probabilística sólida.
Esto se resolvió en parte mediante la invención del LSI probabilístico ( pLSI ). En los modelos pLSI, cada palabra en un documento se extrae de un modelo de mezcla especificado a través de variables aleatorias multinomiales (que también permite coincidencias de orden superior como se menciona en @sviatoslav hong). Este fue un importante paso adelante en el modelado de texto probabilístico, pero fue incompleto en el sentido de que no ofrece una estructura probabilística a nivel de documentos.
La asignación de Dirichlet latente ( LDA ) alivia esto y fue el primer modelo totalmente probabilístico para la agrupación de texto. Blei y col. (2003) muestran que pLSI es un modelo LDA estimado máximo a posteriori bajo un Dirichlet uniforme previo.
Tenga en cuenta que los modelos mencionados anteriormente (LSI, pLSI, LDA) tienen en común que se basan en el supuesto de "bolsa de palabras", es decir, que dentro de un documento, las palabras son intercambiables, es decir, el orden de las palabras en un documento puede ser descuidado Esta suposición de intercambiabilidad ofrece una justificación adicional para LDA sobre los otros enfoques: suponiendo que no solo las palabras dentro de los documentos son intercambiables, sino también los documentos, es decir, el orden de los documentos dentro de un corpus puede descuidarse, el teorema de De Finettiestablece que cualquier conjunto de variables aleatorias intercambiables tiene una representación como una distribución de mezcla. Por lo tanto, si se supone la capacidad de intercambio de documentos y palabras dentro de los documentos, se necesita un modelo mixto para ambos. Exactamente esto es lo que LDA generalmente logra, pero PMI o LSI no (e incluso pLSI no es tan hermoso como LDA).