¿Cómo entender los inconvenientes de la agrupación jerárquica?

19

¿Alguien puede explicar los pros y los contras de la agrupación jerárquica?

¿El agrupamiento jerárquico tiene los mismos inconvenientes que K significa?
¿Cuáles son las ventajas del agrupamiento jerárquico sobre K?
¿Cuándo debemos usar los medios K sobre el agrupamiento jerárquico y viceversa?

Las respuestas a esta publicación explican los inconvenientes de k significa muy bien. Cómo entender los inconvenientes de K-means

— GeorgeOfTheRF
fuente

2

En esta respuesta , toqué algunas de las facetas potencialmente problemáticas del análisis jerárquico de conglomerados aglomerativos. El principal "inconveniente" es que no es un algoritmo codicioso de un solo paso y codicioso. Con un algoritmo codicioso, optimiza la tarea del paso actual, que, para la mayoría de los métodos HC, no garantiza necesariamente la mejor partición en un paso futuro distante. La principal ventaja de HC es que es flexible con respecto a la elección de la medida de proximidad a utilizar. @Mic ya ha dado una buena respuesta a continuación, así que solo estoy haciendo eco.

— ttnphns

13

Mientras que significa intenta optimizar un objetivo global (varianza de los grupos) y logra un clúster jerárquico aglomerativo óptimo local que busca encontrar el mejor paso en cada fusión de grupo (algoritmo codicioso) que se realiza exactamente pero que da como resultado una solución potencialmente subóptima . $k$

Uno debe usar la agrupación jerárquica cuando los datos subyacentes tienen una estructura jerárquica (como las correlaciones en los mercados financieros) y desea recuperar la jerarquía. Todavía puede aplicar significa para hacer eso, pero puede terminar con particiones (desde la más gruesa (todos los puntos de datos en un clúster) hasta la más fina (cada punto de datos es un clúster)) que no están anidadas y, por lo tanto, No es una jerarquía adecuada. $k$

Si desea profundizar en las propiedades más finas de la agrupación, es posible que no desee oponerse a la agrupación plana, como significa, a la agrupación jerárquica, como los enlaces simples, promedio y completos. Por ejemplo, todas estas agrupaciones conservan el espacio, es decir, cuando construyes agrupaciones no distorsionas el espacio, mientras que una agrupación jerárquica como Ward no conserva el espacio, es decir, en cada paso de fusión distorsionará el espacio métrico. $k$

Para concluir, los inconvenientes de los algoritmos de agrupamiento jerárquico pueden ser muy diferentes de uno a otro. Algunos pueden compartir propiedades similares a $k$ significa: Ward apunta a optimizar la varianza, pero Single Linkage no. Pero también pueden tener diferentes propiedades: Ward dilata el espacio, mientras que Single Linkage conserva el espacio como $k$ significa.

- edite para precisar las propiedades de conservación y dilatación del espacio

D_{i j} \in [min_{x \in C_{i}, y \in C_{j}} d (x, y), max_{x \in C_{i}, y \in C_{j}} d (x, y)]

$D_{ij} \in \left[ \min_{x \in C_i, y \in C_j} d(x,y), \max_{x \in C_i, y \in C_j} d(x,y) \right]$

D_{i j}

$D_{ij}$

C_{i}

$C_i$

C_{j}

$C_j$

d

$d$

espacio: es decir al fusionar y el algoritmo empujará más lejos el cluster .

re (C_{yo} \cup C_{j}, C_{k}) \geq max ({re}_{yo k}, {re}_{j k}),

$D(C_i \cup C_j, C_k) \geq \max(D_{ik}, D_{jk}),$

C_{i}

$C_i$

C_{j}

$C_j$

C_{k}

$C_k$

— mic
fuente

¿Puedes dar algunos ejemplos más de datos con estructura jerárquica? No seguí el ejemplo del mercado financiero.

— GeorgeOfTheRF

Seguro. cf. arxiv.org/pdf/cond-mat/9802256.pdf o simplemente la Figura 7 en arxiv.org/pdf/1506.00976.pdf que representa una matriz de correlación que tiene una estructura de bloques de correlación jerárquica (ruidosa): puede observar bloques en el principal diagonal, que se divide en más bloques, cada uno dividido en aún más bloques. Corresponde aproximadamente a una subdivisión en regiones (Europa, EE. UU., Asia, excepto Japón, Japón), luego cada región dividida por la calidad de los activos (por ejemplo, alta calidad frente a basura), luego dividida por los grandes sectores industriales (minorista, industria, medios), subdividir en (aeroespacial, auto ...)

— micrófono

3

+1. Sin embargo,

should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchy

no necesariamente. En la mayoría de los casos, más bien al contrario. La jerarquía de HC es más bien una historia del algoritmo que una estructura de los datos . Aún así, esta pregunta es, en última instancia, filosófica / lógica, no tan estadística.

— ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space. ¿Puedes escribir más sobre eso? Esto no está muy claro.

— ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means. ¿Quería decir contratación de espacio para enlace único?

— ttnphns

13

Escalabilidad

significa que es el claro ganador aquí. es mucho mejor que laescalabilidad (en algunos casos ) del agrupamiento jerárquico porque generalmente tanto como y son pequeños (desafortunadamente, tiende a crecer con , de modo haceno $k$ $O(n\cdot k\cdot d\cdot i)$ $O(n^3 d)$ $O(n^2 d)$ $k$ $i$ $d$ $i$ $n$ $O(n)$ por lo general espera). Además, el consumo de memoria es lineal, en oposición a cuadrático (por lo general, existen casos especiales lineales).

Flexibilidad

significa es extremadamente limitado en aplicabilidad. Se limita esencialmente a las distancias euclidianas (incluidas las euclidianas en los espacios del núcleo y las divergencias de Bregman, pero estas son bastante exóticas y nadie las usa realmente con medias). Peor aún, significa solo funciona con datos numéricos (que en realidad deberían ser continuos y densos para ser una buenaopciónpara medios). $k$ $k$ $k$ $k$

El agrupamiento jerárquico es el claro ganador aquí. Ni siquiera requiere una distancia: se puede usar cualquier medida, incluidas las funciones de similitud, simplemente prefiriendo valores altos a valores bajos. Datos categoriales? seguro solo usa, por ejemplo, Jaccard. ¿Instrumentos de cuerda? Prueba la distancia de Levenshtein. ¿Series de tiempo? seguro. Datos de tipo mixto? Gower distancia. Hay millones de conjuntos de datos en los que puede usar la agrupación jerárquica, pero en los que no puede usar significa. $k$

Modelo

No hay ganador aquí. significa puntajes altos porque produce una gran reducción de datos. Los centroides son fáciles de entender y usar. La agrupación jerárquica, por otro lado, produce un dendrograma. Un dendrograma también puede ser muy útil para comprender su conjunto de datos. $k$

— Anony-Mousse -Reinstate a Monica
fuente

¿Hierarchical falla como k significa cuando los grupos son 1) no esféricos 2) tienen diferentes radios 3) tienen diferentes densidades?

— GeorgeOfTheRF

2

Ambos pueden funcionar y ambos pueden fallar. Es por eso que cosas como los dendrogramas son útiles. Nunca confíes en que un resultado de agrupamiento sea "correcto", nunca.

— Anony-Mousse -Reinstalar a Monica el

La agrupación jerárquica puede proporcionar agrupaciones localmente optimizadas, ya que se basa en un enfoque codicioso, pero K significa que proporciona agrupaciones optimizadas globalmente. También he experimentado que la explicación de la agrupación jerárquica es relativamente fácil para la gente de negocios en comparación con K significa.

— Arpit Sisodia

7

Solo quería agregar un poco a las otras respuestas sobre cómo, en cierto sentido, hay una razón teórica fuerte para preferir ciertos métodos de agrupamiento jerárquico.

Una suposición común en el análisis de conglomerados es que los datos se muestrean a partir de alguna densidad de probabilidad subyacente que no tenemos acceso. Pero supongamos que tenemos acceso a él. ¿Cómo definiríamos los grupos de ? $f$ $f$

Un enfoque muy natural e intuitivo es decir que los grupos de son las regiones de alta densidad. Por ejemplo, considere la siguiente densidad de dos picos: $f$

Al dibujar una línea a través del gráfico, inducimos un conjunto de grupos. Por ejemplo, si dibujamos una línea en , obtenemos los dos grupos que se muestran. Pero si dibujamos la línea en , obtenemos un solo grupo. $\lambda_1$ $\lambda_3$

Para hacer esto más preciso, supongamos que tenemos un arbitrario . ¿Cuáles son los grupos de en el nivel ? Son el componente conectado del conjunto de supernivel . $\lambda > 0$ $f$ $\lambda$ $\{x : f(x) \geq \lambda \}$

Ahora, en lugar de elegir una arbitraria , podríamos considerar todas las , de modo que el conjunto de grupos "verdaderos" de son componentes conectados de cualquier conjunto de supernivel de . La clave es que esta colección de clústeres tiene una estructura jerárquica . $\lambda$ $\lambda$ $f$ $f$

Déjame hacer eso más preciso. Supongamos que está soportado en . Ahora dejemos que sea un componente conectado de , y sea un componente conectado de . En otras palabras, es un grupo en el nivel , y es un grupo en el nivel . Entonces sí $f$ $\mathcal X$ $C_1$ $\{ x : f(x) \geq \lambda_1 \}$ $C_2$ $\{ x : f(x) \geq \lambda_2 \}$ $C_1$ $\lambda_1$ $C_2$ $\lambda_2$ , entonces o . Esta relación de anidamiento es válida para cualquier par de clústeres en nuestra colección, por lo que lo que tenemos es unajerarquíade clústeres. Llamamos a esto elárbol de clúster. $\lambda_2 < \lambda_1$ $C_1 \subset C_2$ $C_1 \cap C_2 = \emptyset$

Así que ahora tengo algunos datos muestreados de una densidad. ¿Puedo agrupar estos datos de una manera que recupere el árbol del clúster? En particular, nos gustaría que un método sea consistente en el sentido de que a medida que recopilamos más y más datos, nuestra estimación empírica del árbol de clúster se acerca cada vez más al árbol de clúster verdadero.

Hartigan fue el primero en hacer tales preguntas, y al hacerlo definió con precisión lo que significaría para un método de agrupamiento jerárquico para estimar consistentemente el árbol de clúster. Su definición fue la siguiente: que y sean verdaderos grupos disjuntos de como se definió anteriormente, es decir, son componentes conectados de algunos conjuntos de supernivel. Ahora dibuje un conjunto de muestras iid de , y llame a este conjunto . Aplicamos un método de agrupación jerárquica a los datos , y recuperamos una colección de agrupaciones empíricas . Que sea el más pequeño $A$ $B$ $f$ $n$ $f$ $X_n$ $X_n$ $A_n$ grupo empírico que contiene todo , y sea el más pequeño que contenga todo . Entonces se dice nuestro método de agrupación para ser Hartigan consistente si como para cualquier par de grupos disjuntos y . $A \cap X_n$ $B_n$ $B \cap X_n$ $\Pr(A_n \cap B_n) = \emptyset \to 1$ $n \to \infty$ $A$ $B$

Esencialmente, la consistencia de Hartigan dice que nuestro método de agrupamiento debería separar adecuadamente las regiones de alta densidad. Hartigan investigó si sola vinculación agrupación podría ser consistentes, y se encontró que es no constante en las dimensiones> 1. La problema de encontrar un método general y consistente para estimar el árbol de racimo fue abierta hasta hace unos pocos años, cuando se introdujeron Chaudhuri y Dasgupta enlace único robusto , que es demostrablemente consistente. Sugeriría leer sobre su método, ya que es bastante elegante, en mi opinión.

Por lo tanto, para responder a sus preguntas, hay un sentido en el que el grupo jerárquico es lo "correcto" al intentar recuperar la estructura de una densidad. Sin embargo, tenga en cuenta las comillas de miedo alrededor de "correcto" ... En última instancia, los métodos de agrupación basados en la densidad tienden a funcionar mal en las dimensiones altas debido a la maldición de la dimensionalidad, y por lo tanto, aunque una definición de agrupación basada en grupos sea regiones de alta probabilidad es bastante limpio e intuitivo, a menudo se ignora a favor de los métodos que funcionan mejor en la práctica. Eso no quiere decir que un enlace único robusto no sea práctico: en realidad funciona bastante bien en problemas en dimensiones más bajas.

Por último, diré que la consistencia de Hartigan no está de acuerdo con nuestra intuición de convergencia. El problema es que la consistencia de Hartigan permite que un método de agrupamiento sobre-segmente en gran medida los clústeres de manera que un algoritmo pueda ser coherente con Hartigan, pero produzca agrupaciones que son muy diferentes al verdadero árbol de clústeres. Hemos producido trabajo este año sobre una noción alternativa de convergencia que aborda estos problemas. El trabajo apareció en "Más allá de la coherencia de Hartigan: métrica de distorsión de fusión para agrupamiento jerárquico" en COLT 2015.

— jme
fuente

Esta es una forma interesante de pensar sobre la agrupación jerárquica. Me parece que recuerda mucho a la agrupación por estimación de densidad no paramétrica ( pdf ), que se implementa Ren el paquete pdfCluster . (Lo discuto aquí .)

— Gung - Restablecer Mónica

HDBSCAN * utiliza un enfoque similar.

— Anony-Mousse -Reinstalar a Monica el

3

Una ventaja práctica adicional en el agrupamiento jerárquico es la posibilidad de visualizar resultados usando el dendrograma. Si no sabe de antemano qué número de grupos está buscando (como suele ser el caso ...), puede que el diagrama de dendrograma pueda ayudarlo a elegir $k$ sin necesidad de crear agrupaciones separadas. Dedrogram también puede brindar una gran visión de la estructura de datos, ayudar a identificar valores atípicos, etc. La agrupación jerárquica también es determinista, mientras que k-means con inicialización aleatoria puede brindarle resultados diferentes cuando se ejecuta varias veces en los mismos datos. En k-means, también puede elegir diferentes métodos para actualizar los medios de clúster (aunque el enfoque de Hartigan-Wong es, con mucho, el más común), que no es un problema con el método jerárquico.

EDITAR gracias a ttnphns: una característica que el clúster jerárquico comparte con muchos otros algoritmos es la necesidad de elegir una medida de distancia. Esto a menudo depende en gran medida de la aplicación y los objetivos particulares. Esto podría verse como una complicación adicional (otro parámetro para seleccionar ...), pero también como un activo: más posibilidades. Por el contrario, el algoritmo clásico de K-medias utiliza específicamente la distancia euclidiana.

— Jacek Podlewski
fuente

3

Supongo que el "problema" en su último párrafo sería visto positivamente como un activo. K-means, sin embargo, se basa implícitamente en la distancia euclidiana solamente .

— ttnphns

Many possible choices can be a problem as well as an asset, indeed :) Thanks for the comment on k-means, I'll improve that paragraph.

— Jacek Podlewski

@ttnphns Actually, "

k

$k$ -means " can be used with any Bregman divergences jmlr.org/papers/volume6/banerjee05b/banerjee05b.pdf ; I mean this is the case when considering that

k

$k$ -means is what results when considering the limiting case of Gaussian mixture models (from soft to hard), then by replacing Gaussian by another member of the exponential family, you replace the Euclidean distance by another Bregman divergence associated with the member of the family you picked. You end up with a similar algorithm scheme that aims to find a maximum likelihood with an expectation-maximization.

— mic

I believe the original question was made with regard to "classical' K-means and not a slightest intention to delve into Bregman divergences. Nice remark though, I'll check out this paper more thoroughly for sure.

— Jacek Podlewski

@mic nadie usa las divergencias de Bregman más allá de las variaciones de la distancia euclidiana ... es solo una clase diminuta. Pero a la gente le gustaría usar, por ejemplo, la distancia de Manhattan, Gower, etc., que no son divergencias de Bregman por lo que sé.

— Anony-Mousse -Reinstalar a Monica el