Tengo un conjunto de datos que tiene un atributo de clase binaria. Hay 623 instancias con clase +1 (cáncer positivo) y 101,671 instancias con clase -1 (cáncer negativo).
He probado varios algoritmos (Naive Bayes, Random Forest, AODE, C4.5) y todos ellos tienen relaciones inaceptables de falsos negativos. Random Forest tiene la precisión de predicción general más alta (99.5%) y la relación de falsos negativos más baja, pero aún pierde el 79% de las clases positivas (es decir, no detecta el 79% de los tumores malignos).
¿Alguna idea de cómo puedo mejorar esta situación?
¡Gracias!