El diccionario geográfico o cualquier otra opción de función de tamaño intencionalmente fijo parece un enfoque muy popular en los documentos académicos , cuando tiene un problema de tamaño finito, por ejemplo NER en un corpus fijo, o etiquetado POS o cualquier otra cosa. No lo consideraría hacer trampa a menos que la única característica que usará sea la coincidencia del diccionario geográfico.
Sin embargo, cuando entrena cualquier tipo de modelo de PNL, que se basa en el diccionario durante el entrenamiento, puede obtener un rendimiento del mundo real mucho más bajo de lo que informaría su prueba inicial, a menos que pueda incluir todos los objetos de interés en el diccionario geográfico (y por qué entonces ¿necesita ese modelo?) porque su modelo entrenado dependerá de la característica en algún momento y, en el caso de que otras características sean demasiado débiles o no descriptivas, no se reconocerán nuevos objetos de interés.
Si utiliza un diccionario geográfico en sus modelos, debe asegurarse de que esa función tenga una función de contador para permitir que el modelo se equilibre, de modo que la simple coincidencia de diccionario no sea la única característica de la clase positiva (y lo más importante, el diccionario geográfico debería no solo coincide con ejemplos positivos, sino también negativos).
Por ejemplo, suponga que tiene un conjunto completo de variaciones infinitas de todos los nombres de personas, lo que hace que la persona general NER sea irrelevante, pero ahora intenta decidir si el objeto mencionado en el texto es capaz de cantar. Confiarás en las características de inclusión en tu diccionario geográfico de la Persona, que te darán muchos falsos positivos; luego, agregará una característica centrada en el verbo de " Es sujeto del verbo cantar ", y eso probablemente le dará falsos positivos de todo tipo de objetos como pájaros, su estómago cuando tiene hambre y un tipo borracho que piensapuede cantar (pero seamos honestos, no puede), pero esa característica centrada en el verbo se equilibrará con el diccionario geográfico de su persona para asignar una clase positiva de 'Cantante' a personas y no a animales u otros objetos. Sin embargo, no resuelve el caso del artista borracho.