Soy consciente del hecho de que las variables categóricas con k niveles deben codificarse con k-1 en la codificación ficticia (de manera similar para las variables categóricas de valores múltiples). Me preguntaba cuánto problema tiene una codificación de un punto (es decir, usando k variables en lugar de) sobre la codificación ficticia para diferentes métodos de regresión, principalmente regresión lineal, regresión lineal penalizada (Lasso, Ridge, ElasticNet), basada en árboles (bosques aleatorios , máquinas de aumento de gradiente).
Sé que en la regresión lineal, ocurren problemas de multicolinealidad (aunque en la práctica he ajustado la regresión lineal usando OHE sin ningún problema).
Sin embargo, ¿es necesario utilizar la codificación ficticia en todos ellos y cuán incorrectos serían los resultados si se utiliza la codificación de un solo uso?
Me centro en la predicción en modelos de regresión con múltiples variables categóricas (de alta cardinalidad), por lo que no me interesan los intervalos de confianza.