Técnicamente, para calcular una medida dis (similitud) entre individuos en atributos nominales, la mayoría de los programas primero recodifican cada variable nominal en un conjunto de variables binarias ficticias y luego calculan alguna medida para las variables binarias. Aquí hay fórmulas de algunas medidas de similitud y disimilitud binarias de uso frecuente .
¿Qué son las variables ficticias (también llamadas one-hot)? A continuación hay 5 individuos, dos variables nominales (A con 3 categorías, B con 2 categorías). 3 muñecos creados en lugar de A, 2 muñecos creados en lugar de B.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(No es necesario eliminar una variable ficticia como "redundante", ya que normalmente lo haríamos en regresión con dummies. No se practica en agrupamiento, aunque en situaciones especiales podría considerar esa opción).
Hay muchas medidas para las variables binarias, sin embargo, no todas ellas se adaptan lógicamente a las variables binarias ficticias , es decir, las anteriores nominales. Usted ve, para una variable nominal, el hecho de que "los 2 individuos coinciden" y el hecho de que "los 2 individuos no coinciden" son de igual importancia. Pero considere la popular medida Jaccard , dondeunaa + b + c
- a - número de dummies 1 para ambos individuos
- b - número de dummies 1 para esto y 0 para eso
- c - número de tontos 0 para esto y 1 para eso
- d - número de dummies 0 para ambos
siCunauna2 a2 a + b + cdistancia. Mire cuántos sinónimos, ¡seguramente encontrará algo de eso en su software!
La validez intuitiva del coeficiente de similitud de dados proviene del hecho de que es simplemente la proporción de coincidencia (o acuerdo relativo ). Para el fragmento de datos anterior, tome la columna nominal A
y calcule la 5x5
matriz simétrica cuadrada con 1
(ambos individuos cayeron en la misma categoría) o 0
(no en la misma categoría). Calcule igualmente la matriz para B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Suma las entradas correspondientes de las dos matrices y divide por 2 (número de variables nominales): aquí estás con la matriz de coeficientes Dice. (Por lo tanto, en realidad no tiene que crear dummies para calcular Dice, con operaciones matriciales probablemente pueda hacerlo más rápido de la manera que se acaba de describir). Consulte un tema relacionado en Dice para la asociación de atributos nominales .
Aunque Dice es la medida más aparente para usar cuando se desea una función de (des) similitud entre los casos en que los atributos son categóricos, se podrían usar otras medidas binarias, si su fórmula satisface las consideraciones sobre sus datos nominales.
a + da + b + c + drereb + crere2= p ( 1 - SMETRO)pag
Pero ...
re
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Dado que en muchas aplicaciones de una matriz de proximidad, como en muchos métodos de análisis de conglomerados, los resultados no cambiarán o cambiarán sin problemas bajo una transformación lineal (y a veces incluso bajo monotónica) de las proximidades, parece que uno puede estar justificado a un gran número de medidas binarias además de dados para obtener resultados iguales o similares. Pero primero debe considerar / explorar cómo reacciona el método específico (por ejemplo, una vinculación en la agrupación jerárquica) a una transformación dada de proximidades.
Si su agrupación planificada o análisis de MDS es sensible a las transformaciones monótonas de distancias, es mejor que se abstenga de usar las medidas indicadas como "monótonas" en la tabla anterior (y, por lo tanto, sí, no es una buena idea usar la similitud de Jaccard o la distancia euclidiana no cuadrada con el maniquí) , es decir, atributos nominales anteriores).