Modelos de temas y métodos de coincidencia de palabras

Los modelos de temas populares como LDA generalmente agrupan palabras que tienden a coexistir juntas en el mismo tema (grupo).

¿Cuál es la principal diferencia entre tales modelos de temas y otros enfoques de agrupación basados en la coincidencia simple como PMI? (PMI significa información mutua puntual, y se utiliza para identificar las palabras que ocurren conjuntamente con una palabra dada).

— kanzen_master
fuente

Recientemente, ha crecido una gran cantidad de literatura que discute cómo extraer información del texto escrito. Por lo tanto, solo describiré cuatro hitos / modelos populares y sus ventajas / desventajas y resaltaré (algunas de) las principales diferencias (o al menos lo que creo que son las principales / más importantes diferencias).

Usted menciona el enfoque "más fácil", que sería agrupar los documentos comparándolos con una consulta de términos predefinida (como en PMI). Sin embargo, estos métodos de correspondencia léxica pueden ser inexactos debido a la polisemia (significados múltiples) y la sinonimia (palabras múltiples que tienen significados similares) de términos únicos.

Como remedio, la indexación semántica latente ( LSI ) intenta superar esto mapeando términos y documentos en un espacio semántico latente a través de una descomposición de valores singulares. Los resultados de LSI son indicadores de significado más sólidos que los términos individuales. Sin embargo, un inconveniente de LSI es que carece de una base probabilística sólida.

Esto se resolvió en parte mediante la invención del LSI probabilístico ( pLSI ). En los modelos pLSI, cada palabra en un documento se extrae de un modelo de mezcla especificado a través de variables aleatorias multinomiales (que también permite coincidencias de orden superior como se menciona en @sviatoslav hong). Este fue un importante paso adelante en el modelado de texto probabilístico, pero fue incompleto en el sentido de que no ofrece una estructura probabilística a nivel de documentos.

La asignación de Dirichlet latente ( LDA ) alivia esto y fue el primer modelo totalmente probabilístico para la agrupación de texto. Blei y col. (2003) muestran que pLSI es un modelo LDA estimado máximo a posteriori bajo un Dirichlet uniforme previo.

Tenga en cuenta que los modelos mencionados anteriormente (LSI, pLSI, LDA) tienen en común que se basan en el supuesto de "bolsa de palabras", es decir, que dentro de un documento, las palabras son intercambiables, es decir, el orden de las palabras en un documento puede ser descuidado Esta suposición de intercambiabilidad ofrece una justificación adicional para LDA sobre los otros enfoques: suponiendo que no solo las palabras dentro de los documentos son intercambiables, sino también los documentos, es decir, el orden de los documentos dentro de un corpus puede descuidarse, el teorema de De Finettiestablece que cualquier conjunto de variables aleatorias intercambiables tiene una representación como una distribución de mezcla. Por lo tanto, si se supone la capacidad de intercambio de documentos y palabras dentro de los documentos, se necesita un modelo mixto para ambos. Exactamente esto es lo que LDA generalmente logra, pero PMI o LSI no (e incluso pLSI no es tan hermoso como LDA).

— Momo
fuente

1/2 Gracias! Muy claro. Permítanme verificar si entendí bien: en LSI, los documentos están formados por una mezcla de palabras (sin noción de temas) y las palabras y documentos se asignan a un espacio semántico de menor dimensión usando SVD. Dado que las palabras con un significado semántico similar se asignan más de cerca, puede tratar la sinonimia pero tiene problemas con la polisemia. pLSI resuelve el problema de la polisemia introduciendo el concepto de temas. En pLSI, las palabras se extraen de una distribución multinomial de palabras (temas), la misma palabra puede pertenecer a varios temas y un documento tiene múltiples temas, aunque esto no está modelado explícitamente.

— kanzen_master

Creo que generalmente lo haces bien. Algunas correcciones más pequeñas: se considera que LSI funciona bien con polisemia y sinomía. pLSI es básicamente una formulación para lograr lo que LSI se esfuerza con las herramientas de análisis de clase latente / modelos de mezcla y probabilidad en lugar de solo álgebra lineal. LDA en comparación con pLSI es un modelo totalmente generativo al especificar una distribución de tema por documento.

— Momo

Con respecto a sus puntos sobre el sobreajuste y la predicción, no estoy lo suficientemente informado para una declaración calificada. Pero, a pesar de todo, no veo por qué LDA debería ser menos propenso al sobreajuste que pLSI (ya que LDA básicamente solo agrega un modelo anterior a pLSI). Ambos no tienen corrección incorporada por sobreajuste o similar. La "predicción" de nuevos documentos podría ser más fácil o factible con un modelo totalmente generativo como LDA, vea stats.stackexchange.com/questions/9315/… Pero vería LDA como un modelo descriptivo sin supervisión.

— Momo

¡Gracias de nuevo! Solo 2 preguntas finales: (1) Con respecto a la polisemia, en este pdf, final de la página 3, Hoffman afirma que una de las diferencias de PLSI en comparación con LSI es la polisemia, ya que la misma palabra puede pertenecer a diferentes distribuciones de palabras (temas); Por eso pensé que LSI no funcionaba con la polisemia. (2) Con respecto al sobreajuste, este blog afirma que un aumento lineal de los parámetros sugiere que el modelo es propenso al sobreajuste. Qué piensas ?

— kanzen_master

No hay problema. Ya sabes mucho sobre estas cosas, así que también aprendo cosas. ad (1) Bueno, como de costumbre, depende: LSI puede manejar la polisemia debido a la combinación lineal de términos como se hace en PCA. Lo hace mejor con sinónimos, pero hasta cierto punto también con polisemia. Básicamente, las palabras polisémicas que son similares son componentes agregados de palabras que comparten un significado similar. Sin embargo, lo hace mucho menos bien que pLSI ya que cada aparición de una palabra se representa como un solo punto en el espacio. Por lo tanto, la representación de la palabra es un promedio de todos los diferentes significados de la palabra en el corpus.

— Momo

LDA puede capturar un orden superior de co-ocurrencias de términos (debido a la suposición de que cada tema es una distribución multinomial sobre términos), lo que no es posible simplemente calculando PMI entre términos.

— Liangjie Hong
fuente

¡Gracias! ¿Cuál es la definición de "alto orden de co-ocurrencias"?

— kanzen_master

Puede que tenga 3 años de retraso, pero quiero seguir su pregunta sobre el ejemplo de "alto orden de coincidencias".

Básicamente, si el término t1 ocurre conjuntamente con el término t2 que coincide con el término t3, entonces el término t1 es la ocurrencia de segundo orden con el término t3. Puede ir a un orden superior si lo desea, pero al final controla lo similares que deberían ser dos palabras.

— suthee
fuente