Hola, tengo un marco de datos con grandes valores categóricos en más de 1600 categorías. ¿Hay alguna forma de encontrar alternativas para no tener más de 1600 columnas?
Encontré esto debajo del enlace interesante http://amunategui.github.io/feature-hashing/#sourcecode
Pero se están convirtiendo a clase / objeto que no quiero. ¿Quiero mi salida final como un marco de datos para poder probar con diferentes modelos de aprendizaje automático? ¿O hay alguna forma de usar la matriz generada para entrenar los otros modelos de aprendizaje automático que no sean la regresión logística o XGBoost?
¿Hay alguna forma de implementar?