Hay algunas cosas que uno debe tener en cuenta.
Como la mayoría de los criterios de agrupamiento interno , Calinski-Harabasz es un dispositivo heurístico. La forma correcta de usarlo es comparar las soluciones de agrupación obtenidas con los mismos datos, soluciones que difieren en la cantidad de agrupaciones o en el método de agrupación utilizado.
No hay un valor de corte "aceptable". Simplemente compara los valores de CH a simple vista. Cuanto mayor sea el valor, "mejor" es la solución. Si en el diagrama lineal de los valores de CH parece que una solución da un pico o al menos un codo abrupto, elíjalo. Si, por el contrario, la línea es suave - horizontal o ascendente o descendente - entonces no hay razón para preferir una solución a otras.
El criterio CH se basa en la ideología ANOVA. Por lo tanto, implica que los objetos agrupados se encuentran en el espacio euclidiano de variables de escala (no ordinales, binarias o nominales). Si los datos agrupados no fueran variables de objetos X sino una matriz de diferencias entre objetos, entonces la medida de disimilitud debería ser la distancia euclidiana (al cuadrado) (o, en el peor de los casos, otra distancia métrica que se aproxima a la distancia euclidiana por propiedades).
1
Observemos un ejemplo. A continuación se muestra un diagrama de dispersión de datos que se generaron como 5 grupos distribuidos normalmente que se encuentran bastante cerca uno del otro.
Estos datos se agruparon mediante el método jerárquico de enlace promedio, y se guardaron todas las soluciones de agrupación (membresías de agrupación) desde la solución de 15 agrupaciones hasta la de 2 agrupaciones. Luego se aplicaron dos criterios de agrupamiento para comparar las soluciones y seleccionar la "mejor", si hay alguna.
La parcela para Calinski-Harabasz está a la izquierda. Vemos que, en este ejemplo, CH indica claramente que la solución de 5 grupos (etiquetada CLU5_1) es la mejor. Trazar para otro criterio de agrupamiento, el índice C (que no se basa en la ideología ANOVA y es más universal en su aplicación que CH) está a la derecha. Para el índice C, un valor más bajo indica una solución "mejor". Como muestra la gráfica, la solución de 15 clústeres es formalmente la mejor. Pero recuerde que con los criterios de agrupamiento, la topografía accidentada es más importante en la decisión que la magnitud misma. Tenga en cuenta que existe el codo en la solución de 5 grupos; La solución de 5 grupos sigue siendo relativamente buena, mientras que las soluciones de 4 o 3 grupos se deterioran a pasos agigantados. Dado que generalmente deseamos obtener "una mejor solución con menos grupos", la elección de la solución de 5 grupos parece ser razonable también bajo las pruebas de índice C.
PD Esta publicación también plantea la cuestión de si debemos confiar más en el máximo (o mínimo) real de un criterio de agrupación o, más bien, en un paisaje de la trama de sus valores.
1
Una descripción general de los criterios de agrupamiento interno y cómo usarlos .