Tengo que lidiar con un problema de clasificación de texto. Un rastreador web rastrea páginas web de un determinado dominio y para cada página web quiero saber si pertenece o no a una clase específica. Es decir, si llamo a esta clase Positiva , cada página web rastreada pertenece a la clase Positiva o a la clase No Positiva .
Ya tengo un gran conjunto de páginas web de capacitación para la clase Positiva . Pero, ¿cómo crear un conjunto de capacitación para la clase No positiva que sea lo más representativo posible? Quiero decir, básicamente podría usar cada uno y todo para esa clase. ¿Puedo recopilar algunas páginas arbitrarias que definitivamente no pertenecen a la clase Positiva ? Estoy seguro de que el rendimiento de un algoritmo de clasificación de texto (prefiero utilizar un algoritmo Naive Bayes) depende en gran medida de las páginas web que elija para la clase No positivo .
Entonces, ¿qué debo hacer? ¿Alguien puede darme un consejo? ¡Muchas gracias!