Estoy usando el Kappa de Cohen para calcular el acuerdo entre dos jueces.
Se calcula como:
donde es la proporción de acuerdo y la probabilidad de acuerdo por casualidad.
Ahora para el siguiente conjunto de datos, obtengo los resultados esperados:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Podemos ver que ambos jueces no han estado de acuerdo muy bien. Sin embargo, en el siguiente caso donde ambos jueces evalúan un criterio, kappa evalúa a cero:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Ahora puedo ver que el acuerdo por casualidad es obviamente 1, lo que lleva a que kappa sea cero, pero ¿cuenta esto como un resultado confiable? El problema es que normalmente no tengo más de dos juicios por criterio, por lo que todos estos nunca se evaluarán en un kappa mayor que 0, lo que creo que no es muy representativo.
¿Estoy en lo cierto con mis cálculos? ¿Puedo usar un método diferente para calcular el acuerdo mutuo?
Aquí podemos ver que kappa funciona bien para múltiples juicios:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
etiqueta aquí.