Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la codificación única crea una variable ficticia para cada nivel, las características de las características son para cada nivel y no para cada característica (columna). ¿Cuál es una buena manera de agregar estas características importantes?
Pensé en sumar u obtener la importancia promedio para todos los niveles de una característica (probablemente la primera estará sesgada hacia aquellas características con más niveles). ¿Hay alguna referencia sobre este tema?
¿Qué más se puede hacer para disminuir la cantidad de funciones? Soy consciente del lazo grupal, no pude encontrar nada fácil de usar para scikit-learn.