El razonamiento intuitivo se ha explicado en la publicación del blog:
Si nuestro objetivo es la predicción, esto provocará un sesgo definitivo. Y lo que es peor, será un sesgo permanente, en el sentido de que no tendremos estimaciones consistentes a medida que crezca el tamaño de la muestra.
Entonces, podría decirse que el problema de los datos equilibrados (artificialmente) es peor que el caso desequilibrado.
Los datos equilibrados son buenos para la clasificación, pero obviamente pierde información sobre las frecuencias de apariencia, lo que afectará las métricas de precisión, así como el rendimiento de la producción.
Digamos que está reconociendo letras escritas a mano del alfabeto inglés (26 letras). El sobrebalanceo de cada apariencia de letra le dará a cada letra una probabilidad de ser clasificada (correctamente o no) aproximadamente 1/26, por lo que el clasificador se olvidará de la distribución real de letras en la muestra original. Y está bien cuando el clasificador puede generalizar y reconocer cada letra con alta precisión .
Pero si la precisión y, lo más importante, la generalización no es "tan alta" (no puedo darle una definición, puede pensarlo como el "peor de los casos"), los puntos mal clasificados probablemente se distribuirán equitativamente entre todas las letras , algo como:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
A diferencia de sin balancear (suponiendo que "A" y "C" tienen probabilidades mucho más altas de aparición en el texto)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Por lo tanto, los casos frecuentes obtendrán menos clasificaciones erróneas. Si es bueno o no depende de su tarea. Para el reconocimiento de texto natural, se podría argumentar que las letras con frecuencias más altas son más viables, ya que preservarían la semántica del texto original, acercando la tarea de reconocimiento a la predicción (donde la semántica representa tendencias ). Pero si está tratando de reconocer algo como la captura de pantalla de la clave ECDSA (más entropía -> menos predicción), mantener los datos desequilibrados no ayudaría. Entonces, de nuevo, depende.
La distinción más importante es que la estimación de precisión es, en sí misma, sesgada (como puede ver en el ejemplo del alfabeto equilibrado), por lo que no sabe cómo el comportamiento del modelo se ve afectado por los puntos más raros o más frecuentes.
PD Siempre puede realizar un seguimiento del rendimiento de la clasificación desequilibrada con métricas de precisión / recuperación primero y decidir si necesita agregar equilibrio o no.
p ( xyoEl | θ)p ( xyoEl | θ^)θ^yo- θyo, a veces se recomienda reequilibrar las clases según la propia población o los parámetros conocidos de una muestra más grande (por lo tanto, un mejor estimador). Sin embargo, en la práctica no hay garantía de que una "muestra más grande" se distribuya de manera idéntica debido al riesgo de obtener datos sesgados en cada paso (digamos cartas en inglés recopiladas de literatura técnica vs ficción vs toda la biblioteca), por lo que el equilibrio aún podría ser perjudicial.
Esta respuesta también debe aclarar los criterios de aplicabilidad para equilibrar:
El problema del desequilibrio de clase se debe a que no hay suficientes patrones pertenecientes a la clase minoritaria, no a la proporción de patrones positivos y negativos en sí. En general, si tiene suficientes datos, no surge el "problema de desequilibrio de clase"
Como conclusión, el equilibrio artificial rara vez es útil si el conjunto de entrenamiento es lo suficientemente grande. La ausencia de datos estadísticos de una muestra distribuida idénticamente más grande también sugiere que no es necesario un equilibrio artificial (especialmente para la predicción), de lo contrario, la calidad del estimador es tan buena como la "probabilidad de encontrarse con un dinosaurio":
¿Cuál es la probabilidad de encontrarse con un dinosaurio en la calle?
1/2 te encuentras con un dinosaurio o no te encuentras con un dinosaurio