Estoy buscando agrupar un pequeño conjunto de datos (64 observaciones de 4 variables de intervalo y una sola variable categórica de tres factores). Ahora, soy bastante nuevo en el análisis de conglomerados, pero soy consciente de que ha habido un progreso considerable desde los días en que el agrupamiento jerárquico o k-means eran las únicas opciones disponibles. En particular, parece que hay disponibles nuevos métodos de agrupación basada en modelos que, como lo señala chl , permiten el uso de "índices de bondad de ajuste para decidir sobre el número de agrupaciones o clases".
Sin embargo, el paquete R estándar para la agrupación basada en modelos mclust
aparentemente no se ajustará a modelos con tipos de datos mixtos. El fpc
modelo, pero tiene problemas para ajustar un modelo, sospecho que debido a la naturaleza no gaussiana de las variables continuas. ¿Debo continuar con el enfoque basado en modelos? Me gustaría continuar usando R si es posible. Tal como lo veo, tengo algunas opciones:
- Convierta la variable categórica de tres niveles en dos variables ficticias y úsela
mclust
. No estoy seguro de si esto sesgará los resultados, pero si no, esta es mi opción preferida. - Transforme las variables continuas de alguna manera y use el
fpc
paquete. - Use algún otro paquete R que aún no haya encontrado.
- Cree una matriz de disimilitud utilizando la medida de Gower y utilice técnicas tradicionales de agrupación jerárquica o de reubicación.
¿El stats.se hivemind tiene alguna sugerencia aquí?