Tengo datos sin procesar que tienen alrededor de 20 columnas (20 características). Diez de ellos son datos continuos y 10 de ellos son categóricos. Algunos de los datos categóricos pueden tener como 50 valores diferentes (Estados de EE. UU.). Después de preprocesar los datos, las 10 columnas continuas se convierten en 10 columnas preparadas y los 10 valores categóricos se convierten en 200 variables codificadas en caliente. Me preocupa que si pongo todas estas características 200 + 10 = 210 en la red neuronal, las características 200-one-hot (las 10 columnas categóricas) dominarán por completo las 10 características continuas.
Quizás un método sería "agrupar" columnas juntas o algo así. ¿Es una preocupación válida y hay alguna forma estándar de tratar este problema?
(Estoy usando Keras, aunque no creo que importe demasiado).