Supongamos que tenemos un conjunto de elementos E y una similitud ( no lejos ) la función SIM (ei, ej) entre dos elementos de la IE, EJ ∈ E .
¿Cómo podríamos (eficientemente) agrupar los elementos de E , usando sim ?
k- significa, por ejemplo, requiere una k dada , Canopy Clustering requiere dos valores umbral. ¿Qué pasa si no queremos esos parámetros predefinidos?
Tenga en cuenta que sim no es necesariamente una métrica (es decir, la desigualdad del triángulo puede o no ser válida). Además, no importa si los grupos son disjuntos (particiones de E ).
1-sim(ei, ej) = Distance
. Con la métrica de distancia puede aplicar, por ejemplo, agrupamiento jerárquico. Bajando desde la raíz, verá a qué nivel de grupos de granularidad tendría sentido para su problema particular.