Estoy planeando usar el clasificador de máquina de vectores de soporte lineal (SVM) scikit para la clasificación de texto en un corpus que consta de 1 millón de documentos etiquetados. Lo que planeo hacer es que, cuando un usuario ingrese alguna palabra clave, el clasificador primero la clasificará en una categoría, y luego se realizará una consulta de recuperación de información en los documentos de esa categoría. Tengo algunas preguntas:
- ¿Cómo confirmo que la clasificación no tomará mucho tiempo? No quiero que los usuarios tengan que pasar tiempo esperando que termine una clasificación para obtener mejores resultados.
- ¿El uso de la biblioteca scikit de Python para sitios web / aplicaciones web es adecuado para esto?
- ¿Alguien sabe cómo Amazon o flipkart realizan la clasificación en las consultas de los usuarios, o utilizan una lógica completamente diferente?