Estamos buscando una manera de tokenizar un texto de la misma manera o similar a como lo haría un motor de búsqueda.
La razón por la que estamos haciendo esto es para que podamos ejecutar un análisis estadístico de los tokens. El lenguaje que estamos usando es python, por lo que preferiría una técnica que funcione en ese idioma, pero probablemente podría configurar algo para usar otro idioma si es necesario.
Ejemplo
Token original:
¡Tenemos unos burritos geniales!
Más simplificado: (eliminar plurales y puntuación)
Tenemos un gran burrito
Aún más simplificado: (eliminar palabras superfluas)
gran burrito
Mejor: (reconozca el significado positivo y negativo):
burrito positivo