Estoy luchando por encontrar un método para reducir el número de categorías en datos nominales u ordinales.
Por ejemplo, supongamos que quiero construir un modelo de regresión en un conjunto de datos que tenga varios factores nominales y ordinales. Si bien no tengo problemas con este paso, a menudo me encuentro con situaciones en las que una característica nominal no tiene observaciones en el conjunto de entrenamiento, pero posteriormente existe en el conjunto de datos de validación. Esto, naturalmente, conduce a un error cuando el modelo se presenta con (hasta ahora) casos no vistos. Otra situación en la que me gustaría combinar categorías es simplemente cuando hay demasiadas categorías con pocas observaciones.
Entonces mis preguntas son:
- Si bien me doy cuenta de que podría ser mejor combinar muchas categorías nominales (y ordinales) basadas en la información de antecedentes del mundo real que representan, ¿hay métodos sistemáticos (
R
paquetes preferibles) disponibles? - ¿Qué pautas y sugerencias haría con respecto a los umbrales de corte, etc.?
- ¿Cuáles son las soluciones más populares en la literatura?
- ¿Existen otras estrategias que combinar pequeñas categorías nominales con una nueva categoría, "OTROS"?
Por favor, siéntase libre de intervenir si tiene otras sugerencias también.