¿Cuál es la diferencia entre la clasificación de texto y los modelos de temas?

20

Sé la diferencia entre la agrupación y la clasificación en el aprendizaje automático, pero no entiendo la diferencia entre la clasificación de texto y el modelado de temas para documentos. ¿Puedo usar el modelado de temas sobre documentos para identificar un tema? ¿Puedo usar métodos de clasificación para clasificar el texto dentro de estos documentos?

classification text-mining topic-model

— Ali
fuente

28

Clasificación de texto

Te doy un montón de documentos, cada uno de los cuales tiene una etiqueta adjunta. Le pido que sepa por qué cree que el contenido de los documentos recibió estas etiquetas en función de sus palabras. Luego te doy nuevos documentos y te pregunto cuál crees que debería ser la etiqueta para cada uno. Las etiquetas tienen significado para mí, no necesariamente para ti.

Modelado de temas

Te doy un montón de documentos, sin etiquetas. Le pido que explique por qué los documentos tienen las palabras que hacen identificando algunos temas de los que se trata cada uno. Usted me cuenta los temas, diciéndome cuánto de cada uno hay en cada documento, y yo decido qué significan "los temas" en todo caso.

Tendrías que aclarar lo que eres "identificando un tema" o "clasificando el texto".

— Sean Owen
fuente

10

Pero no sé cuál es la diferencia entre la clasificación de texto y los modelos de temas en los documentos.

Text Classificationes una forma de aprendizaje supervisado, por lo tanto, el conjunto de clases posibles se conoce / define de antemano y no cambiará.

Topic Modelinges una forma de aprendizaje no supervisado (similar a la agrupación), por lo que el conjunto de posibles temas son desconocidos a priori . Se definen como parte de la generación de los modelos de temas. Con un algoritmo no determinista como LDA, obtendrá diferentes temas cada vez que ejecute el algoritmo.

Text classificationa menudo implica clases mutuamente excluyentes; piense en ellas como cubos.
Pero no tiene por qué: dado el tipo correcto de datos de entrada etiquetados, puede establecer una serie de clasificadores binarios no mutuamente excluyentes.

Topic modelinggeneralmente no es mutuamente excluyente: el mismo documento puede tener su distribución de probabilidad distribuida en muchos temas. Además, también hay métodos de modelado de temas jerárquicos.

¿También puedo usar el modelo de tema para los documentos para identificar un tema más adelante? ¿Puedo usar la clasificación para clasificar el texto dentro de estos documentos?

Si está preguntando si puede tomar todos los documentos asignados a un tema por un algoritmo de modelado de temas y luego aplicar un clasificador a esa colección, entonces sí, ciertamente puede hacerlo.

Sin embargo, no estoy seguro de que tenga mucho sentido: como mínimo, deberá elegir un umbral para la distribución de probabilidad de tema por encima del cual incluirá documentos en su colección (generalmente 0.05-0.1).

¿Puedes dar más detalles sobre tu caso de uso?

Por cierto, hay un gran tutorial sobre modelado de temas usando la biblioteca MALLET para Java disponible aquí: Introducción al modelado de temas y MALLET

— Charlie Greenbacker
fuente

4

Los modelos de temas generalmente no están supervisados . También hay "modelos de temas supervisados"; pero incluso entonces intentan modelar temas dentro de una clase .

Por ejemplo, puede tener una clase de "fútbol", pero puede haber temas dentro de esta clase que se relacionan con partidos o equipos particulares.

El desafío con los temas es que cambian con el tiempo; Considere el ejemplo de coincidencias anterior. Tales temas pueden surgir y desaparecer nuevamente.

— Erich Schubert
fuente