¿Cuál es la función de distancia óptima para los individuos cuando los atributos son nominales?

No sé qué función de distancia entre individuos usar en caso de atributos nominales (categóricos no ordenados). Estaba leyendo un libro de texto y sugieren una función de coincidencia simple , pero algunos libros sugieren que debería cambiar los atributos nominales a binarios y usar el coeficiente Jaccard . Sin embargo, ¿qué sucede si los valores del atributo nominal no son 2? ¿Qué pasa si hay tres o cuatro valores en ese atributo?

¿Qué función de distancia debo usar para los atributos nominales?

— fulano de tal
fuente

Encontré esta publicación útil, en la estadística de V y Chi al cuadrado de Cramer.

— KarthikS

Técnicamente, para calcular una medida dis (similitud) entre individuos en atributos nominales, la mayoría de los programas primero recodifican cada variable nominal en un conjunto de variables binarias ficticias y luego calculan alguna medida para las variables binarias. Aquí hay fórmulas de algunas medidas de similitud y disimilitud binarias de uso frecuente .

¿Qué son las variables ficticias (también llamadas one-hot)? A continuación hay 5 individuos, dos variables nominales (A con 3 categorías, B con 2 categorías). 3 muñecos creados en lugar de A, 2 muñecos creados en lugar de B.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(No es necesario eliminar una variable ficticia como "redundante", ya que normalmente lo haríamos en regresión con dummies. No se practica en agrupamiento, aunque en situaciones especiales podría considerar esa opción).

Hay muchas medidas para las variables binarias, sin embargo, no todas ellas se adaptan lógicamente a las variables binarias ficticias , es decir, las anteriores nominales. Usted ve, para una variable nominal, el hecho de que "los 2 individuos coinciden" y el hecho de que "los 2 individuos no coinciden" son de igual importancia. Pero considere la popular medida Jaccard , donde $\frac{a}{a+b+c}$

a - número de dummies 1 para ambos individuos
b - número de dummies 1 para esto y 0 para eso
c - número de tontos 0 para esto y 1 para eso
d - número de dummies 0 para ambos

$b$ $c$ $a$ $a$ $\frac{2a}{2a+b+c}$ distancia. Mire cuántos sinónimos, ¡seguramente encontrará algo de eso en su software!

La validez intuitiva del coeficiente de similitud de dados proviene del hecho de que es simplemente la proporción de coincidencia (o acuerdo relativo ). Para el fragmento de datos anterior, tome la columna nominal Ay calcule la 5x5matriz simétrica cuadrada con 1(ambos individuos cayeron en la misma categoría) o 0(no en la misma categoría). Calcule igualmente la matriz para B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Suma las entradas correspondientes de las dos matrices y divide por 2 (número de variables nominales): aquí estás con la matriz de coeficientes Dice. (Por lo tanto, en realidad no tiene que crear dummies para calcular Dice, con operaciones matriciales probablemente pueda hacerlo más rápido de la manera que se acaba de describir). Consulte un tema relacionado en Dice para la asociación de atributos nominales .

Aunque Dice es la medida más aparente para usar cuando se desea una función de (des) similitud entre los casos en que los atributos son categóricos, se podrían usar otras medidas binarias, si su fórmula satisface las consideraciones sobre sus datos nominales.

$\frac{a+d}{a+b+c+d}$ $d$ $d$ $b+c$ $d$ $d^2 = p(1-SM)$ $p$

Pero ...

$d$

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Dado que en muchas aplicaciones de una matriz de proximidad, como en muchos métodos de análisis de conglomerados, los resultados no cambiarán o cambiarán sin problemas bajo una transformación lineal (y a veces incluso bajo monotónica) de las proximidades, parece que uno puede estar justificado a un gran número de medidas binarias además de dados para obtener resultados iguales o similares. Pero primero debe considerar / explorar cómo reacciona el método específico (por ejemplo, una vinculación en la agrupación jerárquica) a una transformación dada de proximidades.

Si su agrupación planificada o análisis de MDS es sensible a las transformaciones monótonas de distancias, es mejor que se abstenga de usar las medidas indicadas como "monótonas" en la tabla anterior (y, por lo tanto, sí, no es una buena idea usar la similitud de Jaccard o la distancia euclidiana no cuadrada con el maniquí) , es decir, atributos nominales anteriores).

— ttnphns
fuente

sí, tiene razón los valores ... entonces un atributo tiene tres valores posibles

— Jane Doe

supongamos que tengo dos valores del mismo atributo, "ball", "nall", "pall" y convertí esto a 11 01 y 00. Quiero medir la distancia Jaccard entre 11 y 00. En este caso, entonces es distancia 1? ya que a = 0 b = 2 c = 0 yd = 0? ¡Por favor hagamelo saber!

— Jane Doe

Extraño el punto de tu último comentario. Por favor pregunte claramente. O use mis datos de ejemplo anteriores con 5 personas y 2 atributos nominales y diga con qué individuo desea que compare y con qué medida de disimilitud.

— ttnphns