Comparación de agrupamientos: índice Rand versus variación de información


21

Me preguntaba si alguien tenía alguna idea o intuición detrás de la diferencia entre la variación de información y el índice Rand para comparar agrupaciones.

He leído el documento " Comparación de agrupamientos: una distancia basada en la información " de Marina Melia (Journal of Multivariate Analysis, 2007), pero, aparte de notar la diferencia en las definiciones, no entiendo qué es esa variación de información captura que el índice rand no captura.

Respuestas:


8

La diferencia entre los dos métodos es sutil. La mejor manera de pensarlo es considerar la red definida por la operación de fusión de división en agrupaciones. Ambas medidas se pueden reconstruir definiendo una función en una agrupación y luego definiendo la distancia entre dos agrupaciones mediante la fórmula:F

C C

re(do,do)=F(do)+F(do)-2F(dodo)
donde es la unión de los dos agrupamientos en la red.dodo

Ahora deje y deje. La configuración de produce el índice rand, y la configuración de produce VI.n i = | C i | f ( C ) = n 2 i f ( C ) = n i log n ido={do1,do2,...,dok}norteyo=El |doyoEl |F(do)=norteyo2F(do)=norteyoIniciar sesiónnorteyo


Gracias Suresh! ¿Sabe si (y cómo) la diferencia en estas fórmulas explica por qué el índice rand y la variación de información penalizan la consistencia (cuánto uno de los agrupamientos es un subgrupo del otro) entre agrupamientos de manera diferente? (según la respuesta de micans)
Amelio Vazquez-Reina

2
Como señala Micans, el índice Rand tiene un comportamiento cuadrático, por lo que es más sensible a los cambios en la contención que la función de entropía, que es casi lineal.
Suresh Venkatasubramanian

Lo sentimos, pero todavía no veo cómo la contención afecta los términos cuadráticos más que otros tipos de discrepancias entre agrupaciones. ¿Te importaría profundizar un poco más en esto?
Amelio Vazquez-Reina

@ user023472 Hola usuario023472. Estoy interesado en sus hallazgos, parece que hizo esta pregunta hace algún tiempo. ¿Has aprendido cuál es realmente la diferencia entre los dos métodos? Gracias.
Creatron

14

En mi opinión, hay grandes diferencias. El índice Rand se ve muy afectado por la granularidad de las agrupaciones en las que opera. En lo que sigue usaré la distancia de Mirkin, que es una forma ajustada del índice Rand (fácil de ver, pero vea, por ejemplo, Meila). También usaré la distancia de división / unión, que también se menciona en algunos de los documentos de Meila (descargo de responsabilidad: la distancia de división / unión fue propuesta por mí). Supongamos un universo de cien elementos. Usaré Top para denotar la agrupación con un solo clúster que contiene todos los elementos, Bottom para denotar la agrupación donde todos los nodos están en conjuntos de singleton separados, Izquierda para denotar la agrupación {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , y derecho para denotar la agrupación {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.

En mi opinión, Bottom y Top son grupos consistentes (de anidación), mientras que Left y Right son grupos con conflictos máximos. Las distancias de las métricas mencionadas para estas dos comparaciones por pares son las siguientes:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

De ello se deduce que Mirkin / Rand consideran el par superior-inferior consistente mucho más separado que el par izquierda-derecha máximamente conflictivo. Este es un ejemplo extremo para ilustrar el punto, pero Mirkin / Rand en general se ven muy afectados por la granularidad de las agrupaciones en las que opera. La razón subyacente es una relación cuadrática entre esta métrica y los tamaños de los conglomerados, explicada por el hecho de que está involucrado el conteo de pares de nodos. En efecto, la distancia de Mirkin es una distancia de Hamming entre conjuntos de bordes de uniones de gráficos completos inducidos por agrupaciones (creo que esta es la respuesta a su pregunta).

Con respecto a las diferencias entre la variación de la información y la división / unión, la primera es más sensible a ciertas situaciones de conflicto como lo demuestra Meila. Es decir, Split / Join solo considera la mejor coincidencia para cada clúster y no tiene en cuenta la fragmentación que podría ocurrir en la parte restante de ese clúster, mientras que la variación de información lo recogerá. Dicho esto, Split / Join es fácilmente interpretable como el número de nodos que deben moverse para obtener un clúster del otro , y en ese sentido su rango se entiende más fácilmente; En la práctica, el problema de la fragmentación tampoco es tan común.

Cada una de estas métricas se puede formar como la suma de dos distancias, es decir, las distancias desde cada uno de los dos agrupamientos hasta su mayor subclúster común. Siento que a menudo es beneficioso trabajar con esas partes separadas en lugar de solo su suma. La tabla anterior se convierte en:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

La relación de subsunción entre Arriba y Abajo se vuelve clara de inmediato. A menudo es bastante útil saber si dos agrupaciones son consistentes (es decir, una es (casi) una sub-agrupación de la otra) como una relajación de la cuestión de si están cerca . Una agrupación puede estar bastante distante de un estándar de oro, pero aún así ser consistente o casi consistente. En tal caso, puede que no haya razón para considerar que el agrupamiento es malo con respecto a ese estándar de oro. Por supuesto, los agrupamientos triviales Superior e Inferior serán consistentes con cualquier agrupación, por lo que esto debe tenerse en cuenta.

Finalmente, creo que las métricas como Mirkin, Variation of Information y Split / Join son las herramientas naturales para comparar agrupaciones. Para la mayoría de las aplicaciones, los métodos que intentan incorporar independencia estadística y corregir el azar son demasiado ingeniosos y confusos en lugar de aclarar.

Segundo ejemplo Considere los siguientes pares de agrupamientos: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} con C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

y C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} con {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Aquí C2 puede formarse a partir de C1 moviendo los nodos 9 y 10 y C3 puede formarse a partir de C3 moviendo los nodos 11 y 12. Ambos cambios son idénticos ("mover dos nodos") excepto por el hecho de que los tamaños de los grupos involucrados difieren . La tabla de métricas de agrupación para estos dos ejemplos es esta:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Se puede ver que Mirkin / Rand y la variación de la información se ven afectados por los tamaños de clúster (y Mirkin en mayor medida; esto será más pronunciado a medida que los tamaños de clúster diverjan), mientras que la distancia de división / unión no lo es (su valor es 4 ya que "mueve" los nodos de un clúster al otro siempre a través del subclúster común más grande). Esto puede ser un rasgo deseable dependiendo de las circunstancias. Vale la pena tener en cuenta la interpretación simple de Split / Join (número de nodos para mover) y su independencia del tamaño del clúster. Entre Mirkin y la variación de la información, creo que esta última es muy preferible.


Gracias micans, esto es muy perspicaz. No estoy seguro de haber entendido la segunda tabla. ¿Por qué hay dos números separados por una coma para cada entrada en la tabla? Además, ¿sabes cómo se relaciona este argumento con @ Suresh's?
Amelio Vazquez-Reina

1
Si A y B son agrupaciones, entonces d (A, B) se puede dividir como d (A, B) = d (A, X) + d (B, X), donde X es la agrupación más grande que es un subgrupo de ambos. En la notación de Suresh tenemos que d (A, B) = f (A) + f (B) -2f (X). Esto puede reescribirse como f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Arriba he escrito los dos componentes d (A, X) yd (B, X) separados por comas. La mayor diferencia entre los dos es, con diferencia, las características cuadráticas de Mirkin / Rand. Si observa los ejemplos Superior / Inferior e Izquierda / Derecha, la distancia Superior-Inferior es enorme; esto se debe completamente al tamaño de Top.
micans
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.