Tengo un conjunto de datos que contiene ~ 100,000 muestras de 50 clases. He estado usando SVM con un núcleo RBF para entrenar y predecir nuevos datos. Sin embargo, el problema es que el conjunto de datos está sesgado hacia diferentes clases.
Por ejemplo, Clase 1 - 30 (~ 3% cada uno), Clase 31 - 45 (~ 0.6% cada uno), Clase 46 - 50 (~ 0.2% cada uno)
Veo que el modelo tiende a predecir muy raramente las clases que ocurren con menos frecuencia en el conjunto de entrenamiento, a pesar de que el conjunto de prueba tiene la misma distribución de clase que el conjunto de entrenamiento.
Soy consciente de que existen técnicas como el 'submuestreo' donde la clase mayoritaria se reduce a la clase menor. Sin embargo, ¿es esto aplicable aquí donde hay tantas clases diferentes? ¿Existen otros métodos para ayudar a manejar este caso?