¿Alguien puede dar una lista de qué algoritmos requerirían que las características categóricas estén codificadas en caliente y cuáles no?
AFAIU, tiene que ver más con los datos particulares , menos con el algoritmo particular . Específicamente, depende de si hay un orden significativo en las categorías o no.
Considere dos casos. En el primero tienes las categorías malo, meh, bueno , y en el segundo tienes manzana, naranja, pera . Hay un orden natural en el primer caso, porque meh probablemente esté entre malo y bueno , pero probablemente no ocurra nada similar en manzana, naranja, pera .
Si evita la codificación en caliente para el primer caso, está "perdiendo" la información sobre el pedido. Si utiliza la codificación de un solo uso para el segundo caso, está asignando un orden a las categorías que no es naturalmente cierto.
Lo hago cada vez que el algoritmo usa una métrica de distancia para calcular la similitud.
¿Por qué? Suponga que una de las características es categóricamente mala, meh, buena , y tiene tres instancias, 1, 2 y 3, donde son idénticas, excepto que 1 es malo , 2 es meh y 3 es bueno. Probablemente quiera expresarle al algoritmo que 1 es más similar a 2 que a 3.