En mi conjunto de datos tenemos variables continuas y naturalmente discretas. Quiero saber si podemos hacer agrupaciones jerárquicas usando ambos tipos de variables. Y si es así, ¿qué medida de distancia es apropiada?
En mi conjunto de datos tenemos variables continuas y naturalmente discretas. Quiero saber si podemos hacer agrupaciones jerárquicas usando ambos tipos de variables. Y si es así, ¿qué medida de distancia es apropiada?
Respuestas:
Una forma es usar el coeficiente de similitud de Gower, que es una medida compuesta 1 ; toma variables cuantitativas (como escala de calificación), binarias (como presente / ausente) y nominales (como trabajador / maestro / empleado). Más tarde, Podani 2 agregó una opción para tomar variables ordinales también.
El coeficiente se entiende fácilmente incluso sin una fórmula; calcula el valor de similitud entre los individuos por cada variable, teniendo en cuenta el tipo de la variable y luego promedia en todas las variables. Por lo general, un programa que calcula Gower le permitirá ponderar variables, es decir, su contribución a la fórmula compuesta. Sin embargo, la ponderación adecuada de variables de diferente tipo es un problema , no existen pautas claras, lo que hace que Gower u otros índices "compuestos" de proximidad se enfrenten.
Las facetas de similitud de Gower ( ):
(Es fácil extender la lista de tipos. Por ejemplo, uno podría agregar un sumando para las variables de conteo, usando la distancia chi-cuadrado normalizada convertida en similitud).
El coeficiente oscila entre 0 y 1.
Con distancias euclidianas (distancias que soportan el espacio euclidiano), prácticamente cualquier técnica clásica de agrupamiento funcionará. Incluyendo K-means (si su programa K-means puede procesar matrices de distancia, por supuesto) e incluyendo los métodos de Ward, centroide, mediana de agrupamiento jerárquico . El uso de K-means u otros métodos basados en la distancia euclidiana con la distancia métrica aún no euclidiana es heurísticamente admisible, tal vez. Con distancias no métricas, no se pueden usar tales métodos.
El párrafo anterior habla sobre si K-means o Ward's o tal agrupación es legal o no con la distancia de Gower matemáticamente (geométricamente). Desde el punto de vista de la escala de medición ("psicométrico") no se debe calcular la desviación media o de distancia euclidiana de ella en ningún dato categórico (nominal, binario y ordinal); por lo tanto, desde esta posición, es posible que no procese el coeficiente de Gower por medio K, Ward, etc. Este punto de vista advierte que incluso si hay un espacio euclidiano puede estar granulado, no liso ( ver relacionado ).
Si se ha topado con esta pregunta y se pregunta qué paquete descargar para usar la métrica de Gower en R , el cluster
paquete tiene una función llamada daisy () , que por defecto usa la métrica de Gower siempre que se usan tipos mixtos de variables. O puede configurarlo manualmente para usar la métrica de Gower.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.