Este es un seguimiento de esta pregunta. Actualmente estoy tratando de implementar el Índice C para encontrar un número casi óptimo de grupos de una jerarquía de grupos. Hago esto calculando el Índice C para cada paso del agrupamiento jerárquico (aglomerativo). El problema es que el índice C es mínimo (0 para ser exactos) para agrupaciones muy degeneradas. Considera esto:
En este caso, es la suma de todas las distancias entre pares de observaciones en el mismo grupo sobre todos los grupos. Sea n el número de estos pares. S m i n y S m a x son las sumas de n distancias más bajas / más altas en todos los pares de observaciones. En el primer paso de la agrupación jerárquica, las dos observaciones más cercanas (distancia mínima) se fusionan en un grupo. Sea d la distancia entre estas observaciones. Ahora hay un par de observaciones en el mismo grupo, entonces n = 1 (todos los otros grupos son singletons). En consecuencia S = . El problema es que S m i n también es igual a d , porque d es la distancia más pequeña (es por eso que las observaciones se fusionaron primero). Entonces, para este caso, el Índice C siempre es 0. Permanece 0 siempre que solo se fusionen los clústeres únicos. Esto significa que la agrupación óptima de acuerdo con el Índice C siempre consistiría en un grupo de agrupaciones que contienen dos observaciones, y el resto de singleton. ¿Significa esto que el índice C no es aplicable a la agrupación jerárquica? ¿Estoy haciendo algo mal? He buscado mucho, pero no pude encontrar ninguna explicación adecuada. ¿Alguien puede referirme a algún recurso que esté disponible gratuitamente en Internet? O, si no, ¿al menos un libro que pueda intentar conseguir en la biblioteca de mi universidad?
¡Gracias por adelantado!