Estoy trabajando en una aplicación que requiere crear una base de datos muy grande de n-gramos que existen en un corpus de texto grande.
Necesito tres tipos de operaciones eficientes: búsqueda e inserción indexadas por el n-gramo en sí, y consulta de todos los n-gramos que contienen un sub-n-gramo.
Esto me parece que la base de datos debería ser un árbol de documentos gigantesco, y las bases de datos de documentos, por ejemplo, Mongo, deberían poder hacer bien el trabajo, pero nunca las he usado a escala.
Conociendo el formato de pregunta de Stack Exchange, me gustaría aclarar que no estoy pidiendo sugerencias sobre tecnologías específicas, sino más bien un tipo de base de datos que debería estar buscando para implementar algo como esto a escala.