Estaba leyendo:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Pero parece que no puedo entender exactamente por qué la fórmula se construyó de la manera en que está.
Lo que sí entiendo:
iDF debería medir en algún nivel la frecuencia con la que aparece un término S en cada uno de los documentos, disminuyendo su valor a medida que el término aparece con mayor frecuencia.
Desde esa perspectiva
Además, la frecuencia de término puede describirse correctamente como
Entonces la medida
es de alguna manera proporcional a la frecuencia con la que aparece un término en un documento determinado y cuán único es ese término en el conjunto de documentos.
Lo que no entiendo
Pero la fórmula dada lo describe como
Deseo comprender la necesidad de los logaritmos descritos en la definición. ¿Por qué están ahí? ¿Qué aspecto enfatizan?