necesita lidiar con el desequilibrio de clase si / porque mejora su modelo (en datos no vistos). "Mejor" es algo que debes definir a ti mismo. Podría ser precisión, podría ser un costo, podría ser la verdadera tasa positiva, etc.
Hay un matiz sutil que es importante comprender cuando se habla del desequilibrio de clase. Es decir, sus datos están desequilibrados porque:
- la distribución de los datos está en sí misma desequilibrada
En algunos casos, una clase ocurre mucho más que otra. Y esta bien. En este caso, debe analizar si ciertos errores son más costosos que otros. Este es el ejemplo típico de detección de enfermedades mortales en pacientes, averiguar si alguien es un terrorista, etc. Esto se remonta a la respuesta breve. Si algunos errores son más costosos que otros, querrás "castigarlos" dándoles un costo más alto. Por lo tanto, un modelo mejor tendrá un costo menor. Si todos los errores son tan malos, entonces no hay una razón real por la que deba usar modelos sensibles al costo.
También es importante tener en cuenta que el uso de modelos sensibles al costo no es específico para los conjuntos de datos desequilibrados. Puede utilizar dichos modelos si sus datos también están perfectamente equilibrados.
- no representa la verdadera distribución de los datos
A veces, sus datos están "desequilibrados" porque no representan la verdadera distribución de los datos. En este caso, debe tener cuidado, ya que tiene "demasiados" ejemplos de una clase y "muy pocos" de la otra, y por lo tanto, debe asegurarse de que su modelo no se sobreajusta en una. de estas clases
Esto es diferente a usar costos porque podría no ser el caso de que un error sea peor que otro. Lo que sucedería es que sería parcial y no sería beneficioso para su modelo si los datos no vistos no tienen la misma distribución que los datos que entrenó.
Digamos que te doy datos de entrenamiento y tu objetivo es adivinar si algo es rojo o azul. Si confundes el azul con el rojo o el rojo con el azul no hace mucha diferencia. Sus datos de entrenamiento tienen 90% de instancias rojas en las que, en la vida real, solo ocurren el 10% del tiempo. Tendría que lidiar con eso para mejorar su modelo.