Bolsa de palabras para la clasificación de texto: ¿Por qué no usar frecuencias de palabras en lugar de TFIDF?

24

Un enfoque común para la clasificación de texto es entrenar a un clasificador a partir de una "bolsa de palabras". El usuario toma el texto para clasificarlo y cuenta las frecuencias de las palabras en cada objeto, seguido de algún tipo de recorte para mantener la matriz resultante de un tamaño manejable.

A menudo, veo a los usuarios construir su vector de características usando TFIDF. En otras palabras, las frecuencias de texto indicadas anteriormente están ponderadas hacia abajo por la frecuencia de las palabras en el corpus. Veo por qué TFIDF sería útil para seleccionar las palabras 'más distintivas' de un documento dado para, por ejemplo, mostrar a un analista humano. Pero en el caso de la categorización de texto utilizando técnicas de LD supervisadas estándar, ¿por qué molestarse en la disminución de la frecuencia de los documentos en el corpus? ¿El alumno no decidirá la importancia de asignar a cada palabra / combinación de palabras? Le agradecería su opinión sobre el valor que agrega el IDF, si lo hay.

machine-learning classification text-mining

— shf8888
fuente

29

La respuesta es muy directa: TF-IDF puede lograr mejores resultados que las frecuencias de término simples cuando se combina con algunos métodos supervisados.

El ejemplo canónico está usando la similitud de coseno como una medida de similitud entre documentos. Tomar el coseno del ángulo entre la representación vectorial de documentos TF-IDF puede recuperar con éxito documentos similares relevantes con mayor precisión que TF solo.

Esto se debe a que IDF reduce el peso dado a las palabras comunes y resalta las palabras poco comunes en un documento. La mayoría de los artículos de noticias no son sobre avestruces, por lo que un artículo de noticias que contenga "avestruz" es inusual, y nos gustaría saberlo cuando intentemos encontrar documentos similares.

Pero en el caso de la categorización de texto utilizando técnicas de LD supervisadas estándar, ¿por qué molestarse en la disminución de la frecuencia de los documentos en el corpus? ¿El alumno no decidirá la importancia de asignar a cada palabra / combinación de palabras?

Esto ilustra un punto clave en el aprendizaje automático: las mejores características tienden a vencer a un algoritmo más inteligente. Una herramienta de ML solo está tratando de aprender una función para asignar entradas (s) a salidas (s) . Si nuestra representación de es tan buena que ya son básicamente (o, en un caso ideal, literalmente son $x$ $y$ $x$ $y$ $y$ ), entonces hemos hecho la tarea mucho más fácil para nosotros y para nuestras computadoras pobres y con exceso de trabajo. Creo que este es un componente poco apreciado del campo: las personas pasan mucho tiempo estudiando y considerando los algoritmos porque son independientes del dominio, pero saber más sobre sus datos y el problema que está tratando de resolver puede sugerir caminos para mejor recopilación de datos o representación de datos que hacen la tarea mucho más fácil, y tan fácil que un modelo de sofisticación adornada es innecesario.

Aquí se pueden encontrar varios recursos , que reproduzco por conveniencia.

K. Sparck Jones. "Una interpretación estadística de la especificidad del término y su aplicación en la recuperación". Revista de Documentación, 28 (1). 1972.
G. Salton y Edward Fox y Wu Harry Wu. "Recuperación de información booleana extendida". Comunicaciones de la ACM, 26 (11). 1983.
G. Salton y MJ McGill. "Introducción a la recuperación de información moderna". 1983
G. Salton y C. Buckley. "Enfoques de ponderación de término en la recuperación automática de texto". Procesamiento y gestión de la información, 24 (5). 1988.
H. Wu y R. Luk y K. Wong y K. Kwok. "Interpretar ponderaciones de término TF-IDF como tomar decisiones de relevancia". Transacciones de ACM en sistemas de información, 26 (3). 2008

— Sycorax dice reinstalar a Mónica
fuente

Gracias por la nota @ user777! Lo aprecio. Estoy echando un vistazo a esos artículos. ¿Existen clases generales de algoritmos que esperamos que se beneficien preferentemente de TFIDF frente a solo TF?

— shf8888

@ shf8888 No estoy seguro de si hay clases generales en las que una sea mejor. ¡Es posible! Hasta donde sé, el primer reflejo de alguien que trabaja en una tarea de PNL es probar TF y luego TF-IDF como métodos de referencia antes de avanzar a un modelo más complicado. De esta manera, puede cuantificar cuánto aumento de rendimiento compra por el mayor esfuerzo gastado al usar modelos cada vez más complicados.

— Sycorax dice Reinstate Monica

¡Muchas gracias! Bueno, la respuesta de que "empíricamente TFIDF puede proporcionar un mayor rendimiento sobre TF con algunos algoritmos" (si no se opone a mi resumen de una oración) es definitivamente buena desde mi perspectiva. Gracias por las referencias

— shf8888

2

En el caso típico, podría tener muchos más documentos en su corpus que los documentos etiquetados. Eso significa que el IDF se puede calcular de manera mucho más precisa y completa cuando se usa todo el corpus.

A continuación, considere el caso en el que el corpus que puede tener hasta ahora está etiquetado o el subconjunto etiquetado es "lo suficientemente grande". En este caso, el número de iteraciones necesarias para el entrenamiento podría ser menor cuando se usa TfIDF porque el algoritmo de aprendizaje no necesitaría aprender tanto.

Finalmente, en este mismo caso, también podría proporcionar tf solamente, o tf e idf por separado (o incluso incluir tfidf también). Creo que esto podría generar mejores resultados, por ejemplo, cuando se utiliza una función de kernel sofisticada.

— shuri
fuente