He estado buscando preguntas sobre la codificación de características categóricas, pero no pude encontrar ninguna que discuta mi problema. Disculpas si me lo perdí.
Digamos que tenemos un conjunto de datos con variables binarias y nominales de aproximadamente igual importancia cada una.
La mayoría de los clasificadores no pueden ocuparse directamente de los tipos categóricos, por lo que estos deben ser transformados, por ejemplo, utilizando la codificación de un punto (variables ficticias) como se explica en esta respuesta .
Si una variable categórica tiene una alta cardinalidad, ¿no la codificaría de esta manera "sobrecargando" otras variables (por ejemplo, binarias)? Por "cardinalidad" me refiero al número de categorías en una variable nominal.
Si nuestro modelo clasificador conoce las relaciones entre variables, ¿no intentaría innecesariamente encontrar relaciones entre los "componentes" binarios binarios introducidos de la misma variable?
Y si es así, ¿cómo podría abordarse esto?
La mejor solución que se me ocurre es agrupar lógicamente las propiedades de alta cardinalidad en "cubos", sin embargo, si hay suficientes valores únicos para ser un problema, agruparlos manualmente también consumiría trabajo.
Editar: Esto es trivial y solo aborda parcialmente el problema, pero una de las cosas que terminé haciendo es reemplazar todos los valores categóricos relativamente raros con una nueva categoría, "otra". Podría llevar mucho tiempo optimizar el umbral cuando se considera que el valor es "raro", pero al menos este enfoque puede automatizarse.