Tengo 40000 filas de datos de texto del dominio de atención médica. Los datos tienen una columna para el texto (2-5 oraciones) y una columna para su categoría. Quiero clasificar eso en 300 categorías. Algunas categorías son independientes, mientras que otras están algo relacionadas. La distribución de datos entre categorías tampoco es uniforme, es decir, algunas de las categorías (alrededor de 40 de ellas) tienen menos datos sobre 2-3 filas.
Estoy adjuntando la probabilidad de registro de cada clase / categorías. (O distribución de clases) aquí.