Muchos algoritmos de aprendizaje aprenden un solo peso por característica o usan distancias entre muestras. El primero es el caso de modelos lineales como la regresión logística, que son fáciles de explicar.
Suponga que tiene un conjunto de datos que tiene una sola característica categórica "nacionalidad", con valores "Reino Unido", "Francés" y "Estados Unidos". Suponga, sin pérdida de generalidad, que estos están codificados como 0, 1 y 2. Luego tiene un peso w para esta característica en un clasificador lineal, que tomará algún tipo de decisión basada en la restricción w × x + b> 0 , o equivalentemente w × x <b.
El problema ahora es que el peso w no puede codificar una opción de tres vías. Los tres valores posibles de w × x son 0, w y 2 × w. O estos tres conducen a la misma decisión (son <b o ≥b) o "Reino Unido" y "Francés" conducen a la misma decisión, o "Francés" y "EE. UU." Dan la misma decisión. No hay posibilidad de que el modelo aprenda que "Reino Unido" y "EE. UU." Deberían tener la misma etiqueta, con "Francés" el más extraño.
Mediante la codificación en caliente, se amplía el espacio de funciones en tres funciones, cada una de las cuales tendrá su propio peso, por lo que la función de decisión ahora es w [UK] x [UK] + w [FR] x [FR] + w [US] x [US] <b, donde todas las x son booleanos. En este espacio, dicha función lineal puede expresar cualquier suma / disyunción de las posibilidades (por ejemplo, "Reino Unido o Estados Unidos", que podría ser un predictor para alguien que habla inglés).
Del mismo modo, cualquier alumno basado en métricas de distancia estándar (como los vecinos más cercanos a k) entre muestras se confundirá sin una codificación única. Con la codificación ingenua y la distancia euclidiana, la distancia entre Francia y EE. UU. Es 1. La distancia entre EE. UU. Y el Reino Unido es 2. Pero con la codificación única, las distancias por pares entre [1, 0, 0], [0, 1 , 0] y [0, 0, 1] son todos iguales a √2.
Esto no es cierto para todos los algoritmos de aprendizaje; Los árboles de decisión y los modelos derivados, como los bosques aleatorios, si son lo suficientemente profundos, pueden manejar variables categóricas sin codificación única.