La respuesta es muy directa: TF-IDF puede lograr mejores resultados que las frecuencias de término simples cuando se combina con algunos métodos supervisados.
El ejemplo canónico está usando la similitud de coseno como una medida de similitud entre documentos. Tomar el coseno del ángulo entre la representación vectorial de documentos TF-IDF puede recuperar con éxito documentos similares relevantes con mayor precisión que TF solo.
Esto se debe a que IDF reduce el peso dado a las palabras comunes y resalta las palabras poco comunes en un documento. La mayoría de los artículos de noticias no son sobre avestruces, por lo que un artículo de noticias que contenga "avestruz" es inusual, y nos gustaría saberlo cuando intentemos encontrar documentos similares.
Pero en el caso de la categorización de texto utilizando técnicas de LD supervisadas estándar, ¿por qué molestarse en la disminución de la frecuencia de los documentos en el corpus? ¿El alumno no decidirá la importancia de asignar a cada palabra / combinación de palabras?
Esto ilustra un punto clave en el aprendizaje automático: las mejores características tienden a vencer a un algoritmo más inteligente. Una herramienta de ML solo está tratando de aprender una función para asignar entradas (s) a salidas (s) . Si nuestra representación de es tan buena que ya son básicamente (o, en un caso ideal, literalmente sonXyXyy), entonces hemos hecho la tarea mucho más fácil para nosotros y para nuestras computadoras pobres y con exceso de trabajo. Creo que este es un componente poco apreciado del campo: las personas pasan mucho tiempo estudiando y considerando los algoritmos porque son independientes del dominio, pero saber más sobre sus datos y el problema que está tratando de resolver puede sugerir caminos para mejor recopilación de datos o representación de datos que hacen la tarea mucho más fácil, y tan fácil que un modelo de sofisticación adornada es innecesario.
Aquí se pueden encontrar varios recursos , que reproduzco por conveniencia.
K. Sparck Jones. "Una interpretación estadística de la especificidad del término y su aplicación en la recuperación". Revista de Documentación, 28 (1). 1972.
G. Salton y Edward Fox y Wu Harry Wu. "Recuperación de información booleana extendida". Comunicaciones de la ACM, 26 (11). 1983.
G. Salton y MJ McGill. "Introducción a la recuperación de información moderna". 1983
G. Salton y C. Buckley. "Enfoques de ponderación de término en la recuperación automática de texto". Procesamiento y gestión de la información, 24 (5). 1988.
H. Wu y R. Luk y K. Wong y K. Kwok. "Interpretar ponderaciones de término TF-IDF como tomar decisiones de relevancia". Transacciones de ACM en sistemas de información, 26 (3). 2008