Estoy buscando algunos consejos sobre cómo curar una lista de palabras vacías. ¿Alguien sabe / alguien puede recomendar un buen método para extraer listas de palabras clave del conjunto de datos para el preprocesamiento y el filtrado?
Los datos:
una gran cantidad de entrada de texto humano de longitud variable (términos de búsqueda y oraciones completas (hasta 200 caracteres)) durante varios años. El texto contiene una gran cantidad de spam (como la entrada de máquinas de bots, palabras sueltas, búsquedas estúpidas, búsquedas de productos ...) y solo un pequeño porcentaje parece ser útil. Me di cuenta de que a veces (solo muy raramente) las personas buscan mi lado haciendo preguntas realmente geniales. Estas preguntas son tan geniales, que creo que vale la pena echarles un vistazo más profundo para ver cómo las personas buscan a lo largo del tiempo y qué temas han estado interesados en usar mi sitio web.
Mi problema:
es que realmente estoy luchando con el preprocesamiento (es decir, descartar el spam). Ya probé una lista de palabras vacías de la web (NLTK, etc.), pero estas realmente no ayudan a mis necesidades con respecto a este conjunto de datos.
¡Gracias por sus ideas y discusión amigos!
stop words
. Stop-wrods es una lista de la mayoría de las palabras comunes en algún lenguaje, por ejemplo I
, the
, a
y así sucesivamente. Simplemente eliminará estas palabras de su texto antes de comenzar a entrenar su algoritmo que intenta identificar qué texto es spam o no. No le ayudó a identificar qué texto es spam o no, puede mejorar su algoritmo de aprendizaje.