Existen muchos de estos coeficientes (la mayoría se expresan aquí ). Solo trate de meditar sobre cuáles son las consecuencias de las diferencias en las fórmulas, especialmente cuando calcula una matriz de coeficientes.
Imagine, por ejemplo, que los objetos 1 y 2 son similares, como lo son los objetos 3 y 4. Pero 1 y 2 tienen muchos de los atributos en la lista, mientras que 3 y 4 tienen pocos atributos. En este caso, Russell-Rao (proporción de co-atributos con respecto al número total de atributos bajo consideración) será alto para el par 1-2 y bajo para el par 3-4. Pero Jaccard (proporción de co-atributos con respecto al número combinado de atributos que tienen ambos objetos = probabilidad de que si un objeto tiene un atributo, ambos lo tengan) será alto para ambos pares 1-2 y 3-4.
Este ajuste para el nivel base de "saturación por atributos" hace que Jaccard sea tan popular y más útil que Russell-Rao , por ejemplo, en análisis de conglomerados o escalamiento multidimensional. En cierto sentido, puede refinar aún más el ajuste anterior seleccionando la medida Kulczynski-2, que es la probabilidad media aritmética de que si un objeto tiene un atributo, el otro objeto también lo tiene:
( aa + b+ aa + c) / 2
Aquí la base (o campo) de atributos para los dos objetos no se agrupa, como en Jaccard, sino que es propia de cada uno de los dos objetos. En consecuencia, si los objetos difieren mucho en el número de atributos que tienen, y todos sus atributos el objeto "más pobre" comparte con el "más rico", Kulczynski será alto mientras que Jaccard será moderado.
O podría preferir calcular la probabilidad media geométrica de que si un objeto tiene un atributo, el otro objeto también lo tenga, lo que produce la medida de Ochiai :
Debido a que el producto aumenta más débil que la suma cuando solo crece uno de los términos, Ochiai será realmente alto solo si las dos proporciones (probabilidades) son altas, lo que implica que para ser considerado similar por Ochiai los objetos deben compartir el gran acciones de sus atributos. En resumen, Ochiai frena similitud si y son desiguales. Ochiai es, de hecho, la medida de similitud de coseno (y Russell-Rao es la similitud del producto de punto).
unaa + bunaa + c---------√
sido
PD
¿Es solo porque para algunos conjuntos de datos, la ausencia simultánea de ambos atributos (d) no transmite ninguna información?
Hablando de medidas de similitud, uno no debe mezclar atributos dicotómicos nominales (por ejemplo, femenino, masculino) con atributos binarios (presente vs ausente). El atributo binario no es simétrico (en general), si usted y yo compartimos una característica, es la base para llamarnos similares; Si usted y yo perdemos la característica, puede o no considerarse la evidencia de similitud, dependiendo del contexto del estudio. Por lo tanto, el tratamiento divergente de es posible.re
Tenga en cuenta también que si desea calcular la similitud entre los objetos en base a los atributos nominales 1+ (dicotómicos o politómicos), vuelva a codificar cada una de esas variables en el conjunto de variables binarias ficticias. Entonces, la medida de similitud recomendada para calcular será Dice ( que , cuando se calcula para 1+ conjuntos de variables ficticias, es equivalente a Ochiai y Kulczynski-2).