Comparar dendrogramas de agrupamiento jerárquico obtenidos por diferentes distancias y métodos

[El título inicial "Medición de similitud para árboles de agrupamiento jerárquico" fue cambiado más tarde por @ttnphns para reflejar mejor el tema]

Estoy realizando una serie de análisis de conglomerados jerárquicos en un marco de datos de registros de pacientes (por ejemplo, similar a http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

Estoy experimentando con diferentes medidas de distancia , diferentes pesos de parámetros y diferentes métodos jerárquicos , para comprender su impacto en los grupos finales / estructura / vista del árbol (dendrograma). Mi pregunta es si hay un cálculo / medida estándar para calcular la diferencia entre diferentes árboles jerárquicos y cómo implementar esto en R (por ejemplo, para cuantificar que algunos árboles son casi idénticos y que algunos son drásticamente diferentes).

— Wouter
fuente

Para comparar la similitud de dos estructuras jerárquicas (en forma de árbol), se utilizan medidas basadas en la idea de correlación cophenetic. Pero, ¿es correcto realizar una comparación de dendrogramas para seleccionar el método "correcto" o la medida de distancia en la agrupación jerárquica?

Hay algunos puntos, inconvenientes ocultos, con respecto al análisis de agrupamiento jerárquico que consideraría bastante importante :

Nunca compare (para seleccionar el método que proporciona una partición más fuerte) dendrogramas obtenidos por diferentes métodos de aglomeración visualmente. No dirá qué método es "mejor" en eso. Cada método tiene su propio aspecto de árbol "prototípico": los árboles diferirán consistentemente incluso cuando los datos no tienen estructura de clúster o tienen estructura de clúster aleatorio. (Y no creo que exista una estandarización o medida que elimine estas diferencias intrínsecas). Sin embargo, puede comparar el aspecto del dendrograma de los resultados producidos por el mismo método pero con datos diferentes. Máxima: directa, la comparación de apariencia de los dendrogramas después de diferentes métodos es inaceptable .
No decida el número de grupos (es decir, dónde cortar el árbol) mirando el dendrograma del método Ward . En Ward, el árbol muestra el crecimiento del coeficiente de coligación sumativo, no el promedio; y la consecuencia es que dado que los grupos posteriores son más grandes por el número de puntos, los grupos posteriores se ven engañosamente "mejor" en el árbol. Para estandarizar el dendrograma de Ward de manera adecuada, divida el coeficiente de crecimiento en cada paso por el número total de puntos en los dos grupos que se combinan (sin embargo, dicho dendrograma de Ward estandarizado puede ser difícil de implementar gráficamente). $^1$ Maxim: elegir un nivel de corte al contemplar una apariencia de dendrograma, aunque es posible, no es el mejor método para seleccionar la partición, y para algunos métodos puede ser engañoso . En su lugar, se recomienda confiar en algún criterio de agrupamiento interno formal .
Aunque nadie puede prohibirle "experimentar" con medidas de distancia o métodos aglomerativos, es mejor seleccionar la distancia y el método de manera consciente , no a ciegas. La distancia debe reflejar los aspectos de diferencia que le interesan, y el método, uno debe tener en cuenta, implica un arquetipo específico de un grupo (por ejemplo, la metáfora de un grupo Ward es, diría, tipo ; grupo después de la vinculación completa ser círculo [por hobby o trama]; grupo después de un enlace único sería espectro [cadena]; grupo después del método de centroide sería proximidad de plataformas [política]; un grupo de enlace promedio es conceptualmente más indiferenciado y generalmente sería clase unida ).
Algunos métodos requieren medidas de distancia correctas y / o tipo de datos correctos. Ward y centroide, por ejemplo, requieren lógicamente una distancia euclidiana (al cuadrado), porque estos métodos se dedican al cálculo de los centroides en el espacio euclidiano. Y el cálculo de los centroides geométricos es incongruente con, por ejemplo, datos binarios; Los datos deben ser a escala / continuos. Maxim: los supuestos de datos / distancia / método y la correspondencia son preguntas muy importantes y no tan fáciles.
El preprocesamiento (como el centrado, el escalado y otras formas de transformación de variables / características) antes del cálculo de una matriz de distancia y la agrupación también es una pregunta extremadamente importante. Puede influir dramáticamente en los resultados. Piensa en qué preprocesamiento puede ayudarte y tendrá sentido desde el punto de vista de la interpretación. Además, nunca dude en inspeccionar cuidadosamente sus datos gráficamente antes de intentar hacer un análisis de conglomerados.
No todos los métodos de agrupamiento aglomerativo pueden considerarse igualmente como una clasificación jerárquica ... por motivos filosóficos. Por ejemplo, el método centroide da jerarquía en cierto sentido, porque el centro de clúster es una característica emergente y definitoria de un clúster como un todo , y la fusión de clústeres está impulsada por esa característica. La vinculación completa, por otro lado, "descarta" ambos subgrupos cuando los fusiona, en virtud del distanciamiento entre los objetos individuales de los dos. Por lo tanto, el dendrograma de enlace completo es simplemente una historia de recolección y no un tipo de taxonomía padre-hijo .Maxim: el análisis jerárquico de conglomerados aglomerativos, en general, espera que realice una partición en función de su resultado, en lugar de ver el resultado como una taxonomía jerárquica.
La agrupación jerárquica es un algoritmo codicioso típico que hace la mejor elección entre las alternativas que aparecen en cada paso con la esperanza de acercarse a la solución óptima al final. Sin embargo, la "mejor" opción que aparece en un paso de alto nivel probablemente sea más pobre que el óptimo global teóricamente posible en ese paso. Cuanto mayor es el paso, mayor es la suboptimidad, como regla. Dado que generalmente queremos pocos grupos, los últimos pasos son importantes; y, como acabo de decir, se espera que sean relativamente pobres si el número de pasos es alto (digamos, milésimo paso). Es por eso que la agrupación jerárquica generalmente no se recomienda para grandes muestras de objetos (numerando miles de objetos) incluso si el programa pudiera manejar una matriz de distancia tan grande.

Si después de las precauciones anteriores continúa pensando que desea una medida de similitud entre las clasificaciones jerárquicas, puede buscar en Google 'comparar dendrogramas' y 'comparar clasificaciones jerárquicas'. Una de las ideas más sugerentes puede basarse en la correlación cophenetic: tener dos dendrogramas para el mismo conjunto de datos de n objetos, sea un coeficiente de coligación (o tal vez su rango, el número de paso) entre cada par de objetos ij en un dendrograma y también son iguales en el otro dendrograma. Calcular correlación o coseno. $X_{ij}$ $Y_{ij}$

$^1$ Actualización posterior sobre el problema del dendrograma del método de Wards . Los diferentes programas de agrupación pueden generar coeficientes de aglomeración transformados de manera diferente para el método de Ward. Por lo tanto, sus dendrogramas se verán algo diferentes a pesar de que el historial de agrupamiento y los resultados son los mismos . Por ejemplo, SPSS no toma la raíz de los coeficientes ultramétricos, y los acumula en la salida. Otra tradición (que se encuentra en algunos paquetes R, por ejemplo) es tomar la raíz (llamada "Ward-2"implementaciones) y no acumular. Para repetir nuevamente, tales diferencias afectan solo la forma / apariencia general del dendrograma, no los resultados de la agrupación. Pero el aspecto del dendrograma puede influir en su decisión sobre el número de grupos. La moraleja es que sería seguro no confiar en el dendrograma en el método de Ward, a menos que sepa exactamente cuáles son estos coeficientes de su programa y cómo interpretarlos correctamente.

— ttnphns
fuente

Puedo secundar casi todo esto. Dos puntos que quiero agregar: A) lo que parece hacer es algún tipo de sobreajuste . Al evaluar sistemáticamente las medidas, los pesos y los métodos, existe un alto riesgo de que los parámetros con los que termine sean altamente específicos para sus datos actuales y puedan ser inútiles en otros datos o incluso datos posteriores. B) de qué sirve saber la similitud de los dendrogramas. Considere lo que quiere hacer con ellos luego, y luego intente evaluar el resultado final. La evaluación de resultados provisionales puede ser engañosa.

— Anony-Mousse

Si todavía está interesado en el tema, pensé que podría encontrar útil mi respuesta reciente sobre DS SE , especialmente porque ofrece una cobertura, aunque limitada, de enfoques tanto frecuentistas como bayesianos para los modelos temáticos jerárquicos (con información de clase incorporada) y seleccionando medidas de similitud .

— Aleksandr Blekh

@ttnphns, ¿podría explicar con más detalles cómo utilizar el "coeficiente de coligación" para comparar dos clasificaciones jerárquicas?

— bassir