En una aplicación de minería de texto, un enfoque simple es utilizar la heurística para crear vectores como representaciones compactas y dispersas de los documentos. Esto está bien para la configuración de lotes, donde todo el cuerpo se conoce a priori, ya que i d f requiere todo el cuerpo
donde es un término, d es un documento, D es el corpus de documentos y T (no se muestra) es el diccionario.
Sin embargo, normalmente se reciben documentos nuevos con el tiempo. Una opción es seguir usando el existente hasta que se haya recibido un cierto número de documentos nuevos y volver a calcularlo. Sin embargo, esto parece bastante ineficiente. ¿Alguien sabe de un esquema de actualización incremental que (posiblemente aproximadamente) converge al valor si todos los datos se vieron por adelantado? O, alternativamente, ¿hay otra medida que capture la misma noción pero que pueda calcularse de manera incremental?
También hay una pregunta relacionada sobre si sigue siendo una buena medida a lo largo del tiempo. Dado que el idf captura la noción de la frecuencia de las palabras del corpus, es concebible que los documentos más antiguos en el corpus (digamos, por ejemplo, que mi corpus incluya más de 100 años de artículos de revistas), ya que las frecuencias de diferentes palabras cambian con el tiempo. En este caso, en realidad podría ser sensato tirar documentos antiguos cuando lleguen nuevos, en efecto utilizando una ventana deslizante i d f . Posiblemente, uno también podría almacenar todos los vectores i d f anteriores a medida que se calculan los nuevos, y luego, si quisiéramos recuperar documentos de 1920-1930, podríamos usar el i d fcalculado a partir de documentos en ese intervalo de fechas. ¿Tiene sentido este enfoque?
Editar: Hay un tema separado pero relacionado sobre el diccionario de la . A medida que el tiempo evolucione, habrá nuevos términos de diccionario que no aparecieron antes, así que | T | tendrá que crecer y, por lo tanto, la longitud del vector i d f . Parece que esto no sería un problema, ya que los ceros se podrían incluir a los viejos i d f vectores.