¿Está bien usar la distancia de Manhattan con el enlace entre grupos de Ward en la agrupación jerárquica?


15

Estoy usando la agrupación jerárquica para analizar datos de series de tiempo. Mi código se implementa usando la función MathematicaDirectAgglomerate[...] , que genera grupos jerárquicos con las siguientes entradas:

  • una matriz de distancia D

  • El nombre del método utilizado para determinar la vinculación entre clústeres.

He calculado la matriz de distancia D usando la distancia de Manhattan:

d(x,y)=i|xiyi|

donde y n 150 es el número de puntos de datos en mi serie de tiempo.i=1,,nn150

Mi pregunta es, ¿está bien usar el enlace entre grupos de Ward con una matriz de distancia de Manhattan? Algunas fuentes sugieren que el enlace de Ward solo debe usarse con la distancia euclidiana.

Tenga en cuenta que DirectAgglomerate[...]calcula el enlace de Ward utilizando solo la matriz de distancia, no las observaciones originales. Desafortunadamente, no estoy seguro de cómo Mathematica modifica el algoritmo original de Ward, que (según tengo entendido) funcionó minimizando la suma de cuadrados de error de las observaciones, calculadas con respecto a la media del grupo. Por ejemplo, para un grupo consiste en un vector de observaciones univariadas, Ward formuló la suma de cuadrados de error como:c

(j||cjmean(c)||2)2

(Otras herramientas de software como Matlab y R también implementan el agrupamiento de Ward utilizando solo una matriz de distancia, por lo que la pregunta no es específica de Mathematica).


Recientemente he analizado un conjunto bastante grande de datos utilizando el método Ward. En mi caso específico, la distancia de Manatán dio esencialmente el mismo agrupamiento que la distancia euclidiana. No puedo darle ninguna prueba matemática a favor de ninguna combinación de métodos, pero, al menos en mi caso, la agrupación no se vio afectada por el método de distancia
Nico

Todas las funciones R no necesariamente esperan una matriz de distancia. Consulte, por ejemplo, la ayuda agnesen línea para el paquete de clúster .
chl

En realidad está bien usar cualquier distancia. Verifique vlado.fmf.uni-lj.si/pub/preprint/ward.pdf El único inconveniente es que, la media de la que estamos hablando ya no es la media aritmética sino la media de Frechet.
Randy Lai

¿Pero podemos usar la distancia de Manhattan para un enlace completo?
Payel Banerjee

Respuestas:


8

El algoritmo de agrupamiento Ward es un método de agrupamiento jerárquico que minimiza los criterios de "inercia" en cada paso. Esta inercia cuantifica la suma de los residuos cuadrados entre la señal reducida y la señal inicial: es una medida de la varianza del error en un sentido l2 (euclidiano). En realidad, incluso lo mencionas en tu pregunta. Por eso, creo, no tiene sentido aplicarlo a una matriz de distancia que no sea una distancia euclidiana l2.

Por otro lado, un enlace promedio o una agrupación jerárquica de enlace único sería perfectamente adecuado para otras distancias.


2
Gracias por tu comentario; Creo que es correcto. Sin embargo, en la práctica parece que el enlace de Ward a menudo se usa con distancias no euclidianas. Todavía no estoy seguro de cuáles podrían ser las implicaciones de esto.
Rachel

Probablemente proviene de personas que usan Ward simplemente porque es bien conocido. Yo diría que Ward no aporta ganancias en comparación con un enlace promedio en esta configuración. Sin embargo, es más costoso desde el punto de vista computacional (debe calcular los dos primeros momentos para cada fusión o calcularlos previamente). Por lo tanto, desde un punto de vista pragmático, simplemente elegiría un enlace promedio.
Gael Varoquaux el

1
En realidad, la inercia se definiría usando la suma de la distancia al cuadrado (no es necesario ser euclidiano) ver vlado.fmf.uni-lj.si/pub/preprint/ward.pdf
Randy Lai

5

No se me ocurre ninguna razón por la cual Ward deba favorecer cualquier métrica. El método de Ward es solo otra opción para decidir qué grupos fusionar después durante la aglomeración. Esto se logra al encontrar los dos grupos cuya fusión minimizará un cierto error ( fuente ejemplar para la fórmula ).

Por lo tanto, se basa en dos conceptos:

  1. La media de los vectores que (para vectores numéricos) generalmente se calcula promediando sobre cada dimensión por separado.
  2. La métrica de distancia en sí misma, es decir, el concepto de similitud expresado por esta métrica.

Entonces: mientras las propiedades de la métrica elegida (como, por ejemplo, rotación, traslación o invariancia de escala) satisfagan sus necesidades (y la métrica se ajuste a la forma en que se calcula la media del clúster), no veo ninguna razón para no usarla .

Sospecho que la mayoría de la gente sugiere la métrica euclidiana porque

  • desea aumentar el peso de las diferencias entre una media de clúster y un único vector de observación (que se realiza por cuadración)
  • o porque salió como la mejor métrica en la validación basada en sus datos
  • o porque se usa en general.

Gracias por su respuesta. He aclarado un poco mi pregunta para resaltar que el algoritmo 'DirectAgglomerate [...]' solo toma una matriz de distancia. Dado esto, ¿la implementación modificada del enlace de Ward se basaría en el supuesto de que la Matriz de distancia es euclidiana? La implementación de Matlab del enlace de Ward, por ejemplo, señala que es adecuado solo para distancias euclidianas ( mathworks.com/help/toolbox/stats/linkage.html ).
Rachel

1
@ Rachel: aaah, ya veo. Cualquier implementación de barrio debe calcular la distancia entre los miembros del clúster y el centroide. Intuitivamente, está claro que la métrica utilizada para esto debería ser equivalente a la métrica utilizada para calcular las distancias entre las observaciones ... por lo tanto, Matlab requiere una distmatrix euclidiana. Pero ahora surge la pregunta de por qué las implementaciones no solicitan una función en lugar de una matriz de distancia. ¿Cuánto daño se hace cuando uno usa diferentes métricas para ambas tareas? Lo admito, no lo sé bien.
steffen

hola ejemplo eliminado. cualquier otro sitio web?
MonsterMMORPG

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.