Mi tarea de "aprendizaje automático" es separar el tráfico benigno de Internet del tráfico malicioso. En el escenario del mundo real, la mayoría (digamos 90% o más) del tráfico de Internet es benigno. Por lo tanto, sentí que debería elegir una configuración de datos similar para entrenar a mis modelos también. Pero me encontré con uno o dos trabajos de investigación (en mi área de trabajo) que han utilizado un enfoque de datos de "equilibrio de clases" para entrenar los modelos, lo que implica un número igual de casos de tráfico benigno y malicioso.
En general, si estoy construyendo modelos de aprendizaje automático, ¿debería elegir un conjunto de datos que sea representativo del problema del mundo real, o sea un conjunto de datos equilibrado más adecuado para construir los modelos (dado que ciertos clasificadores no se comportan bien con el desequilibrio de clases, o debido a otras razones que no conozco)
¿Alguien puede arrojar más luz sobre los pros y los contras de las opciones y cómo decidir cuál elegir?