¿Qué conjuntos de datos disponibles libremente puedo usar para entrenar un clasificador de texto?
Estamos tratando de mejorar la participación de nuestros usuarios recomendando el contenido más relacionado para él, por lo que pensamos que si clasificamos nuestro contenido en función de una bolsa de palabras predefinida, podemos recomendarle contenido atractivo al obtener sus comentarios sobre un número aleatorio de publicaciones ya clasificadas antes de.
Podemos usar esta información para recomendarle pulsos etiquetados con esas clases. Pero descubrimos que si utilizamos una bolsa de palabras predefinida que no está relacionada con nuestro contenido, el vector de características estará lleno de ceros, también las categorías pueden no ser relevantes para nuestro contenido. entonces, por esas razones, probamos otra solución que agrupará nuestro contenido sin clasificarlo.
Gracias :)