Estoy usando la agrupación jerárquica para analizar datos de series de tiempo. Mi código se implementa usando la función MathematicaDirectAgglomerate[...]
, que genera grupos jerárquicos con las siguientes entradas:
una matriz de distancia D
El nombre del método utilizado para determinar la vinculación entre clústeres.
He calculado la matriz de distancia D usando la distancia de Manhattan:
donde y n ≈ 150 es el número de puntos de datos en mi serie de tiempo.
Mi pregunta es, ¿está bien usar el enlace entre grupos de Ward con una matriz de distancia de Manhattan? Algunas fuentes sugieren que el enlace de Ward solo debe usarse con la distancia euclidiana.
Tenga en cuenta que DirectAgglomerate[...]
calcula el enlace de Ward utilizando solo la matriz de distancia, no las observaciones originales. Desafortunadamente, no estoy seguro de cómo Mathematica modifica el algoritmo original de Ward, que (según tengo entendido) funcionó minimizando la suma de cuadrados de error de las observaciones, calculadas con respecto a la media del grupo. Por ejemplo, para un grupo consiste en un vector de observaciones univariadas, Ward formuló la suma de cuadrados de error como:
(Otras herramientas de software como Matlab y R también implementan el agrupamiento de Ward utilizando solo una matriz de distancia, por lo que la pregunta no es específica de Mathematica).