Tengo un grupo de n conjuntos para los que necesito calcular una especie de valor de "unicidad" o "similitud". Me decidí por el índice Jaccard como una métrica adecuada. Desafortunadamente, el índice Jaccard solo opera en dos conjuntos a la vez. Para calcular la similitud entre todos los conjuntos, será necesario en el orden de n 2 cálculos Jaccard.
(Si ayuda, suele estar entre 10 y 10000, y cada conjunto contiene un promedio de 500 elementos. Además, al final, no me importa cuán similares sean dos conjuntos específicos; más bien, solo me importa cuál sea la similitud interna del grupo completo de conjuntos es. (En otras palabras, la media (o al menos una aproximación suficientemente precisa de la media) de todos los índices de Jaccard en el grupo))
Dos preguntas:
- ¿Hay alguna manera de seguir usando el índice Jaccard sin la complejidad ?
- ¿Existe una mejor manera de calcular la similitud / unicidad de un conjunto en un grupo de conjuntos que la que he sugerido anteriormente?