¿Métodos para fusionar / reducir categorías en datos ordinales o nominales?

14

Estoy luchando por encontrar un método para reducir el número de categorías en datos nominales u ordinales.

Por ejemplo, supongamos que quiero construir un modelo de regresión en un conjunto de datos que tenga varios factores nominales y ordinales. Si bien no tengo problemas con este paso, a menudo me encuentro con situaciones en las que una característica nominal no tiene observaciones en el conjunto de entrenamiento, pero posteriormente existe en el conjunto de datos de validación. Esto, naturalmente, conduce a un error cuando el modelo se presenta con (hasta ahora) casos no vistos. Otra situación en la que me gustaría combinar categorías es simplemente cuando hay demasiadas categorías con pocas observaciones.

Entonces mis preguntas son:

Si bien me doy cuenta de que podría ser mejor combinar muchas categorías nominales (y ordinales) basadas en la información de antecedentes del mundo real que representan, ¿hay métodos sistemáticos ( Rpaquetes preferibles) disponibles?
¿Qué pautas y sugerencias haría con respecto a los umbrales de corte, etc.?
¿Cuáles son las soluciones más populares en la literatura?
¿Existen otras estrategias que combinar pequeñas categorías nominales con una nueva categoría, "OTROS"?

Por favor, siéntase libre de intervenir si tiene otras sugerencias también.

r categorical-data dimensionality-reduction many-categories

— Figaro
fuente

Observe la pregunta relacionada: stats.stackexchange.com/questions/227125/…

— kjetil b halvorsen

11

Esta es una respuesta a su segunda pregunta.

Sospecho que el enfoque correcto para este tipo de decisiones estará determinado en gran medida por las normas disciplinarias y las expectativas de la audiencia prevista de su trabajo. Como científico social, a menudo trabajo con datos de encuestas (o encuestas similares) y siempre trato de equilibrar lógicas sustantivas y basadas en datos cuando colapso escalas ordinales o variables categóricas. En otras palabras, haré todo lo posible para considerar qué combinaciones de elementos "se unen" en términos de su sustancia, así como la distribución de respuestas antes de colapsar los elementos.

Aquí hay un ejemplo reciente de una pregunta de encuesta específica (ordinal) que involucraba una escala de frecuencia de cinco puntos:

¿Con qué frecuencia asiste a las reuniones de un club u organización en su comunidad?

Nunca

Algunas veces al año

Una vez al mes

Algunas veces al mes

Una vez a la semana o más

No tengo los datos disponibles en este momento, pero los resultados fueron fuertemente sesgados hacia el "nunca" final de la escala. Como resultado, mi coautor y yo elegimos agrupar las respuestas en dos grupos: "Una vez al mes o más" y "Menos de una vez al mes". La variable (binaria) resultante se distribuyó de manera más uniforme y reflejó una distinción significativa en términos prácticos: dado que muchos clubes y organizaciones no se reúnen más de una vez al mes, existen buenas razones para creer que las personas que asisten a reuniones al menos con frecuencia miembros "activos" de dichos grupos, mientras que los que asisten con menos frecuencia (o nunca) están "inactivos".

Entonces, en mi experiencia, estas decisiones son al menos tanto arte como ciencia. Dicho esto, también trato de hacer esto antes de ajustar cualquier modelo, ya que trabajo en una disciplina donde cualquier otra cosa se ve (negativamente) como minería de datos y altamente no científica (¡momentos divertidos!).

Con eso en mente, podría ayudar si pudiera decir un poco más sobre qué tipo de audiencia tiene en mente para este trabajo. También le conviene revisar algunos libros de texto de metodología prominentes en su campo, ya que a menudo pueden aclarar qué pasa por el comportamiento "normal" entre una comunidad de investigación determinada.

— ashaw
fuente

5

Los tipos de enfoques que discute Ashaw pueden conducir a una metodología relativamente más sistemática. Pero también creo que por sistemático quieres decir algorítmico. Aquí las herramientas de minería de datos pueden llenar un vacío. Por un lado, está el procedimiento de detección de interacción automática chi-cuadrado (CHAID) integrado en el módulo Árbol de decisión de SPSS; de acuerdo con las reglas establecidas por el usuario, puede colapsar categorías ordinales o nominales de variables predictoras cuando muestran valores similares en la variable de resultado (ya sea continua o nominal). Estas reglas pueden depender del tamaño de los grupos que se colapsan o se crean colapsando, o de la p-valores de pruebas estadísticas relacionadas. Creo que algunos programas de clasificación y árbol de regresión (CART) pueden hacer lo mismo. Otros encuestados deberían poder hablar sobre funciones similares realizadas por redes neuronales u otras aplicaciones proporcionadas a través de varios paquetes de minería de datos.

— rolando2
fuente

Gran punto, @rolando: dado que la publicación original se refiere a conjuntos de datos de capacitación y validación, sospecho que su respuesta puede ser más útil para @Figaro.

— ashaw

Gracias a ambos por su valioso aporte. @ rolando2 usted tenía razón acerca de mi redacción ambigua, algorítmica era la dirección a la que apuntaba.

— Figaro