Requisitos para la agrupación jerárquica
La agrupación jerárquica se puede utilizar con medidas de similitud y disparidad arbitrarias. (La mayoría de las herramientas esperan una diferencia, pero permitirán valores negativos; depende de usted asegurarse de que se prefiera un valor pequeño o grande).
Solo los métodos basados en centroides o varianza (como el método de Ward) son especiales y deben usarse con Euclidiana al cuadrado. (Para entender por qué, estudie estos vínculos cuidadosamente).
El enlace simple, el enlace promedio, el enlace completo no se ven muy afectados, seguirá siendo el mínimo / promedio / máximo de las diferencias de pares.
Correlación como medida de distancia
Si preprocesas tus datos ( n observaciones, p características) de modo que cada característica tenga μ=0 y σ=1 (¡lo que no permite características constantes!), La correlación se reduce a coseno:
Corr(X,Y)=Cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=E[XY]=1n⟨X,Y⟩
En las mismas condiciones, la distancia euclidiana al cuadrado también se reduce a coseno:
d2Euclid(X,Y)=∑(Xi−Yi)2=∑X2i+∑Y2i−2∑XiYi=2n−2⟨X,Y⟩=2n[1−Corr(X,Y)]
Por lo tanto, a menos que sus datos estén degenerados, usar la correlación para la agrupación jerárquica debería estar bien. Solo preprocese como se explicó anteriormente, luego use la distancia euclidiana al cuadrado.