Lucene trabaja con Frecuencia de término y Frecuencia de documento inversa . Crea un índice que mapea cada palabra con el documento y su recuento de frecuencia, que no es más que un índice inverso en el documento.
Ejemplo :
Archivo 1: La memoria de acceso aleatorio es la memoria principal.
Archivo 2: Los discos duros son memoria secundaria.
Lucene crea un índice inverso similar a
Archivo 1:
Término: Aleatorio
Frecuencia: 1
Posición: 0
Término: Memoria
Frecuencia: 2
Puesto: 3
Puesto: 6
Por lo tanto, puede buscar y recuperar el contenido buscado rápidamente. Cuando hay demasiadas coincidencias para la consulta de búsqueda, genera el resultado en función del peso. Considere la consulta de búsqueda "Memoria principal" , busca las 4 palabras individualmente y el resultado sería como,
Principal
Archivo 1: Frecuencia - 1
Memoria
Archivo 1: Frecuencia - 2
Archivo 2: Frecuencia - 1
El resultado sería Fichero1 seguido por archivo2 . Para dejar de dejarse llevar por el peso de las palabras más comunes como 'y', 'o', 'el', considera la frecuencia inversa del documento (es decir, 'disminuye el peso de la palabra que es más popular entre el conjunto de documentos).