Estoy trabajando en un proyecto en R donde tengo aproximadamente 1200 correos electrónicos de una empresa, la mayoría de los cuales están etiquetados como clase o clase , que son los tipos de solicitudes. Aproximadamente 1000 correos electrónicos están etiquetados como clase , y 200 están etiquetados como clase Mi objetivo es utilizar el aprendizaje supervisado para construir un modelo que clasifique los nuevos correos electrónicos.
Pero, después de mucho preprocesamiento (análisis, eliminación de palabras vacías, etc.) y de probar algoritmos típicos (SVM, árboles de decisión, etc.) en una matriz de términos del documento, mi matriz de confusión contenía muchos falsos positivos y falsos negativos, pero solo unos pocos falsos negativos con SVM.
Me pregunto cómo podría mejorar mis resultados. ¿Necesito usar sobremuestreo o representación de características bi-gram? Supongo que el problema es que los temas de las dos categorías son muy cercanos.