Me parece que está creando un clasificador de texto con una etapa de capacitación supervisada al principio, donde asigna etiquetas manualmente. Su modelo está funcionando bien (alta precisión y recuperación), por lo que desea complementar el modelo de entrenamiento inicial con un proceso de entrenamiento sin supervisión sobre nuevas cadenas de entrada.
Estas nuevas entradas tendrán algunas señales conocidas (palabras que has visto antes) para que tu modelo pueda hacer bien su trabajo, pero también tendrán señales desconocidas (palabras que no has visto antes). Desea que su proceso de capacitación sin supervisión asocie esas palabras nuevas con las conocidas, para "aprender". De esta manera, está confiando en que la asociación entre la palabra nueva y la palabra conocida es correcta. Debido a que el procesamiento del lenguaje es tan difícil, probablemente generará asociaciones falsas positivas automáticamente que se habrían excluido / corregido en un entorno supervisado. Por lo tanto, al hacer el aprendizaje sin supervisión, corre el riesgo de reducir su precisión.
Su pregunta es sobre estar "sobrecargado" con muchos datos. Esta es una preocupación justa, y depende mucho del tamaño de sus datos, la elección de implementación y las expectativas de comportamiento del sistema. Si bien la capacidad de respuesta y la capacidad de manejar grandes cantidades de datos es una cosa, creo que la precisión y el recuerdo de su algoritmo de etiquetado de sentimientos es probablemente de gran importancia.
En el artículo que vinculó, el autor tiene un puntaje de confianza que hace que las asociaciones no supervisadas se consideren solo si hay una "alta confianza". Esto es bueno, pero aún existe el riesgo de que con el tiempo su precisión general disminuya. Su sistema tendría que ser evaluado periódicamente para precisión y recuperación, y volver a entrenar. El ejemplo de "Bad Santa" en los comentarios es un buen ejemplo. Le sugiero que lea sobre la capacitación semi-supervisada y haga que este etiquetado sea correcto en conjuntos de datos pequeños antes de confiar en que funcione bien en conjuntos de datos mucho más grandes. ¡El procesamiento del lenguaje es difícil!