Muchos algoritmos de aprendizaje automático, por ejemplo, redes neuronales, esperan lidiar con los números. Entonces, cuando tiene datos categóricos, necesita convertirlos. Por categórico quiero decir, por ejemplo:
Marcas de automóviles: Audi, BMW, Chevrolet ... ID de usuario: 1, 25, 26, 28 ...
Aunque los ID de usuario son números, son solo etiquetas y no significan nada en términos de continuidad, como edad o suma de dinero.
Entonces, el enfoque básico parece usar vectores binarios para codificar categorías:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Está bien cuando hay pocas categorías, pero más allá de eso parece un poco ineficiente. Por ejemplo, cuando tiene 10 000 ID de usuario para codificar, son 10 000 funciones.
La pregunta es, ¿hay una mejor manera? Tal vez uno con probabilidades?