Como verá en otro lugar que se discute tf-idf, no existe una fórmula única universalmente aceptada para calcular tf-idf o incluso (como en su pregunta) idf . El propósito del es lograr uno de dos objetivos: a) evitar la división por cero , como cuando un término no aparece en ningún documento, a pesar de que esto no sucedería en un enfoque estrictamente "bolsa de palabras", o b) para establecer un límite inferior para evitar que un término tenga un peso cero solo porque aparece en todos los documentos.+1
En realidad, nunca he visto el formulación , aunque mencionas un libro de texto. Pero el propósito sería establecer un límite inferior de lugar de cero, como interpreta correctamente. He visto 1 + , que establece un límite inferior de 1. El cálculo más utilizado parece ser , como en Manning, Christopher D, Prabhakar Raghavan e Hinrich Schütze (2008) Introducción a la recuperación de información , Cambridge University Press, p118 o Wikipedia (basado en fuentes similares).log(1+Nnt)log(2)log(Nnt)log(Nnt)
No es directamente relevante para su consulta, pero el límite superior no es , sino donde dependiendo de su formulación de suavizado. Esto sucede para los términos que aparecen en 0 o 1 documentos (de nuevo, depende de si suaviza con para definirlo para términos con frecuencia de documento cero; de lo contrario, el valor máximo se produce para los términos que aparecen en un solo documento). IDF cuando y .k + l o g ( N / s ) k , s ∈ 0 , 1 s → ∞ 1 + n t = 1 N → ∞∞k+log(N/s)k,s∈0,1s→∞1+nt=1N→∞