¿Qué técnicas están disponibles para contraer (o agrupar) muchas categorías a unas pocas, con el fin de usarlas como entrada (predictor) en un modelo estadístico?
Considere una variable como estudiante universitario mayor (disciplina elegida por un estudiante universitario). Es desordenada y categórica, pero puede tener docenas de niveles distintos. Digamos que quiero usar major como predictor en un modelo de regresión.
El uso de estos niveles tal como está para modelar conduce a todo tipo de problemas porque hay muchos. Se desperdiciaría mucha precisión estadística para usarlos, y los resultados son difíciles de interpretar. Raramente estamos interesados en especializaciones específicas; es mucho más probable que nos interesen las categorías amplias (subgrupos) de especializaciones. Pero no siempre está claro cómo dividir los niveles en categorías de nivel superior, o incluso cuántas categorías de nivel superior utilizar.
Para los datos típicos, me encantaría utilizar el análisis factorial, la factorización matricial o una técnica discreta de modelado latente. Pero las especializaciones son categorías mutuamente excluyentes, por lo que dudo en explotar su covarianza para cualquier cosa.
Además, no me importan las categorías principales por sí mismas. Me importa producir categorías de nivel superior que sean coherentes con respecto a mi resultado de regresión . En el caso de resultados binarios, eso me sugiere algo como el análisis discriminante lineal (LDA) para generar categorías de nivel superior que maximicen el rendimiento discriminativo. Pero LDA es una técnica limitada y eso me parece un dragado de datos sucio. Además, cualquier solución continua será difícil de interpretar.
Mientras tanto, algo basado en covarianzas, como el análisis de correspondencia múltiple (MCA), me parece sospechoso en este caso debido a la dependencia inherente entre variables ficticias mutuamente excluyentes: son más adecuadas para estudiar múltiples variables categóricas, en lugar de múltiples categorías de misma variable
editar : para ser claros, se trata de contraer categorías (no seleccionarlas), y las categorías son predictores o variables independientes. En retrospectiva, este problema parece un momento apropiado para "regularizarlos a todos y dejar que Dios los resuelva". ¡Me alegra ver que esta pregunta es interesante para tanta gente!