En una pregunta reciente y bien recibida, Tim pregunta cuándo los datos desequilibrados son realmente un problema en Machine Learning . La premisa de la pregunta es que hay mucha literatura de aprendizaje automático que discute el equilibrio de la clase y el problema de las clases desequilibradas . La idea es que los conjuntos de datos con un desequilibrio entre la clase positiva y la negativa causen problemas para algunos algoritmos de clasificación de aprendizaje automático (incluyo modelos probabilísticos aquí), y se deben buscar métodos para "equilibrar" el conjunto de datos, restaurando el 50/50 perfecto dividido entre clases positivas y negativas.
El sentido general de las respuestas votadas es que "no lo es, al menos si eres considerado en tu modelado". M. Henry L., en un comentario votado a una respuesta aceptada, afirma
[...] no hay un problema de bajo nivel con el uso de datos no balanceados. En mi experiencia, el consejo para "evitar datos desequilibrados" es un algoritmo específico o una sabiduría heredada. Estoy de acuerdo con AdamO en que, en general, los datos desequilibrados no plantean ningún problema conceptual a un modelo bien especificado.
AdamO argumenta que el "problema" con el equilibrio de clase es realmente uno de rareza de clase
Por lo tanto, al menos en regresión (pero sospecho que en todas las circunstancias), el único problema con los datos desequilibrados es que efectivamente tiene un tamaño de muestra pequeño. Si algún método es adecuado para el número de personas en la clase más rara, no debería haber problema si su proporción de miembros está desequilibrada.
Si este es el verdadero problema, deja una pregunta abierta: ¿cuál es el propósito de todos los métodos de remuestreo destinados a equilibrar el conjunto de datos: sobremuestreo, submuestreo, SMOTE, etc.? Claramente, no abordan el problema de tener implícitamente un tamaño de muestra pequeño, ¡no puede crear información de la nada!