Ya teníamos varias preguntas sobre datos desequilibrados al usar regresión logística , SVM , árboles de decisión , embolsado y una serie de otras preguntas similares, ¡lo que lo convierte en un tema muy popular! Desafortunadamente, cada una de las preguntas parece ser específica del algoritmo y no encontré ninguna guía general para tratar con datos desequilibrados.
Citando una de las respuestas de Marc Claesen , que trata sobre datos no balanceados
(...) depende en gran medida del método de aprendizaje. La mayoría de los enfoques de propósito general tienen una (o varias) formas de lidiar con esto.
Pero, ¿cuándo exactamente deberíamos preocuparnos por los datos desequilibrados? ¿Qué algoritmos se ven más afectados por él y cuáles son capaces de manejarlo? ¿Qué algoritmos necesitarían para equilibrar los datos? Soy consciente de que discutir cada uno de los algoritmos sería imposible en un sitio de preguntas y respuestas como este, prefiero buscar pautas generales sobre cuándo podría ser un problema.