Estoy usando el ingenuo clasificador bayes para clasificar entre dos grupos de datos. Un grupo de datos es mucho más grande que el otro (más de 4 veces). Estoy usando la probabilidad previa de cada grupo en el clasificador.
El problema es que el resultado que obtengo tiene un 0% de índice positivo verdadero y un 0% de índice falso positivo. Obtuve los mismos resultados cuando configuré el anterior a 0.5 y 0.5.
¿Cómo puedo establecer mi umbral en algo mejor para poder obtener resultados más equilibrados?
Tuve un problema similar al usar el clasificador de regresión logística. Lo resolví restando el término anterior del sesgo.
Cuando uso Fisher Linear Discriminant en estos datos, obtengo buenos resultados con el umbral establecido en el medio.
Supongo que hay una solución común a este problema, simplemente no pude encontrarlo.
ACTUALIZACIÓN: Acabo de notar que el clasificador está sobreajustado. El rendimiento en el conjunto de entrenamiento es perfecto (100% correcto).
Si uso grupos iguales, entonces el clasificador comienza a clasificar también para el grupo "pequeño", pero el rendimiento es bastante malo (peor que FLD o LR).
ACTUALIZACIÓN2: Creo que el problema era que estaba usando una matriz de covarianza completa. Correr con una matriz de covarianza diagonal me dio resultados más "equilibrados".