¿Qué algoritmo implementa ward.D en hclust () si no es el criterio de Ward?

16

El utilizado por la opción "ward.D" (equivalente a la única opción Ward "ward" en las versiones R <= 3.0.3) no implementa el criterio de agrupación de Ward (1963), mientras que la opción "ward.D2" implementa ese criterio ( Murtagh y Legendre 2014).

( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html )

Aparentemente, ward.D no implementa el criterio de Ward correctamente. No obstante, parece hacer un buen trabajo con respecto a las agrupaciones que produce. ¿Qué implementa method = "ward.D" si no es el criterio de Ward?

Referencias

Murtagh, F. y Legendre, P. (2014). Método de agrupamiento aglomerativo jerárquico de Ward: ¿qué algoritmos implementan el criterio de Ward? Diario de Clasificación , 31 (3), 274-295.

r clustering ward

— Raffael
fuente

¿El artículo de Murthagh y Legendre dice algo sobre esto?

— cbeleites apoya a Monica el

No tengo acceso a ese documento

— Raffael

Lo primero que me resulta una búsqueda es el pdf del manuscrito en u montreal !?

— cbeleites apoya a Monica el

Entonces, ¿qué dice el periódico? No puedo encontrarlo

— Raffael

Eso es lo que te pido que nos digas.

— cbeleites apoya a Monica el

11

El manuscrito relevante está aquí .

La diferencia entre ward.D y ward.D2 es la diferencia entre los dos criterios de agrupación que en el manuscrito se denominan Ward1 y Ward2.

Básicamente se reduce al hecho de que el algoritmo Ward se implementa directamente correctamente solo en Ward2 (ward.D2), pero Ward1 (ward.D) también se puede usar, si las distancias euclidianas (desde dist()) se cuadran antes de ingresarlas en el hclust()usando el ward.D como método.

Por ejemplo, SPSS también implementa Ward1, pero advierte a los usuarios que las distancias deben cuadrarse para obtener el criterio Ward. En tal sentido, la implementación de ward.D no está en desuso y, sin embargo, podría ser una buena idea retenerla por compatibilidad con versiones anteriores.

— JTT
fuente

2

Del documento que vincula a él no se sigue Ward algorithm is directly correctly implemented in just Ward2, sino que: (1) para obtener resultados correctos con ambas implementaciones, use distancias euclidianas cuadradas con Ward1 y distancias euclidianas no cuadradas con Ward2; (2) para hacer que sus dendrogramas de salida sean más comparables (idénticos), aplique la raíz cuadrada a los niveles de fusión después de Ward1 o los niveles de fusión cuadrados después de Ward2, antes de construir el dendrograma.

— ttnphns

Estas en lo correcto, por su puesto. Gracias por la aclaración. Lo que quise decir con "implementado directamente correctamente" es que no se necesitan más pasos, como tomar una raíz cuadrada de las alturas, para llegar al resultado correcto con el método ward.D2.

— JTT

1

El pequeño matiz aquí es que con el método de Ward, se no define lo que es "correcto" o verdadera presentación niveles de fusión - si deben ser trazados "nonsquared" o "cuadrado". La causa de la indecisión es que los niveles de fusión en Ward no son distancias , son dispersiones incrementales .

— ttnphns

9

La única diferencia entre ward.D&ward.D2 es el parámetro de entrada.

hclust(dist(x)^2,method="ward.D") ~ hclust(dist(x)^2,method="ward")

que son equivalentes a: hclust(dist(x),method="ward.D2")

Puede encontrar el documento de investigación: Método de agrupación jerárquica de Ward: Criterio de agrupación y algoritmo de aglomeración

Los valores del criterio Ward2 están " en una escala de distancias ", mientras que los valores del criterio Ward1 están " en una escala de distancias al cuadrado ".

— Nilesh
fuente

Prefiero esta respuesta ya que la otra implica que ward.D está mal, no lo está. Sólo diferente.

— Chris

6

Me encontré con el artículo de investigación que corresponde a la función objetivo que está siendo optimizada por "Ward1 (ward.D)": Agrupación jerárquica a través de distancias conjuntas entre interiores: extender el método de variación mínima de Ward . Resulta que la implementación de R de "Ward1 (ward.D)" es equivalente a minimizar la distancia de energía entre los grupos de grupos.

$e$

$A = \{a_1, \ldots, a_{n_1}\}$ $B = \{b_1, \ldots, b_{n_2}\}$ $\mathbb R^d$ $e$ $e(A, B)$ $A$ $B$
$\begin{aligned} e (A, B) = & \frac{n_{1} n_{2}}{n_{1} + n_{2}} (\frac{2}{n_{1} n_{2}} \sum_{i = 1}^{n_{1}} \sum_{j = 1}^{n_{2}} ‖ a_{i} - b_{j} ‖ \\ (1) & - \frac{1}{n_{1}^{2}} \sum_{i = 1}^{n_{1}} \sum_{j = 1}^{n_{1}} ‖ a_{i} - a_{j} ‖ - \frac{1}{n_{2}^{2}} \sum_{i = 1}^{n_{2}} \sum_{j = 1}^{n_{2}} ‖ b_{i} - b_{j} ‖) . \end{aligned}$ $\begin{align} e(A, B) = &\frac{n_1n_2}{n_1+n_2}\bigg(\frac{2}{n_1n_2}\sum_{i=1}^{n_1} \sum_{j=1}^{n_2} \|a_i-b_j\| \\ &- \frac{1}{n_1^2}\sum_{i=1}^{n_1}\sum_{j=1}^{n_1}\|a_i-a_j\| - \frac{1}{n_2^2}\sum_{i=1}^{n_2}\sum_{j=1}^{n_2}\|b_i-b_j\|\bigg). \tag{1} \end{align}$

— user3235207
fuente

Are you sure that that is the correct interpretation of the contents of that paper? It seems to me that

e^{(2)}

$e^{(2)}$ corresponds to ward.D2, but I don't think it is stated anywhere that

e^{(1)}

$e^{(1)}$ corresponds to ward.D1. In fact, on page 161–162, it is stated that for

0 < α < 2

$0<\alpha<2$ ,

e^{(α)}

$e^{(\alpha)}$ does not correspond to any power of Euclidean distance, assuming cluster size is greater than

1

$1$ . Interesting paper none the less.

— Jonas Dahlbæk