Estoy trabajando en un conjunto de datos con más de 200,000 muestras y aproximadamente 50 características por muestra: 10 variables continuas y las otras ~ 40 son variables categóricas (países, idiomas, campos científicos, etc.). Para estas variables categóricas, tiene por ejemplo 150 países diferentes, 50 idiomas, 50 campos científicos, etc.
Hasta ahora mi enfoque es:
Para cada variable categórica con muchos valores posibles, tome solo la que tenga más de 10000 muestras que tome este valor. Esto se reduce a 5-10 categorías en lugar de 150.
Cree una variable ficticia para cada una categórica (si hay 10 países, agregue para cada muestra un vector binario de tamaño 10).
Alimente un clasificador de bosque aleatorio (validación cruzada de los parámetros, etc.) con estos datos.
Actualmente con este enfoque, solo logro obtener un 65% de precisión y siento que se puede hacer más. Especialmente no estoy satisfecho con mi 1) ya que siento que no debería eliminar arbitrariamente los "valores menos relevantes" de acuerdo con el número de muestra que tienen, porque estos valores menos representados podrían ser más discriminatorios. Por otro lado, mi RAM no puede permitirse agregar 500 columnas * 200000 filas a los datos manteniendo todos los valores posibles.
¿Tendrías alguna sugerencia para hacer frente a tantas variables categóricas?