Jaccard La similitud viene dada por
sij=pp+q+r
dónde,
p = # de atributos positivos para ambos objetos
q = # de atributos 1 para i y 0 para j
r = # de atributos 0 para i y 1 para j
Mientras que, la similitud del coseno = A⋅B∥A∥∥B∥ donde A y B son vectores de objetos.
En pocas palabras, en similitud de coseno, el número de atributos comunes se divide por el número total de atributos posibles. Mientras que en Jaccard Similarity, el número de atributos comunes se divide por el número de atributos que existen en al menos uno de los dos objetos.
Y hay muchas otras medidas de similitud, cada una con sus propias excentricidades. Cuando decida cuál usar, trate de pensar en algunos casos representativos y determine qué índice le daría los resultados más útiles para lograr su objetivo.
El índice Coseno podría usarse para identificar plagio, pero no será un buen índice para identificar sitios espejo en Internet. Mientras que el índice Jaccard, será un buen índice para identificar sitios espejo, pero no tan bueno para atrapar copia plagio de pasta (dentro de un documento más grande).
Al aplicar estos índices, debe pensar detenidamente en su problema y descubrir cómo definir la similitud. Una vez que tenga una definición en mente, puede ir a comprar un índice.
Editar:
Anteriormente, tenía un ejemplo incluido en esta respuesta, que finalmente era incorrecto. Gracias a los varios usuarios que lo han señalado, he eliminado el ejemplo erróneo.