¿Se puede usar Cohen's Kappa solo para dos juicios?

Estoy usando el Kappa de Cohen para calcular el acuerdo entre dos jueces.

Se calcula como:

$\frac{P(A) - P(E)}{1 - P(E)}$

donde es la proporción de acuerdo y la probabilidad de acuerdo por casualidad. $P(A)$ $P(E)$

Ahora para el siguiente conjunto de datos, obtengo los resultados esperados:

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

Podemos ver que ambos jueces no han estado de acuerdo muy bien. Sin embargo, en el siguiente caso donde ambos jueces evalúan un criterio, kappa evalúa a cero:

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

Ahora puedo ver que el acuerdo por casualidad es obviamente 1, lo que lleva a que kappa sea cero, pero ¿cuenta esto como un resultado confiable? El problema es que normalmente no tengo más de dos juicios por criterio, por lo que todos estos nunca se evaluarán en un kappa mayor que 0, lo que creo que no es muy representativo.

¿Estoy en lo cierto con mis cálculos? ¿Puedo usar un método diferente para calcular el acuerdo mutuo?

Aquí podemos ver que kappa funciona bien para múltiples juicios:

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996

reliability information-retrieval

— slhck
fuente

Para la confiabilidad entre evaluadores con resultados binarios, creo que generalmente se usa el coeficiente tetracórico.

— shabbychef

¿Podrías dar más detalles sobre eso? Definitivamente no soy un experto cuando se trata de estadísticas y parece que no puedo encontrar un enfoque directo para calcular un coeficiente tetracórico.

— slhck

No creo que tengas razón en el primer cálculo. Si no me equivoco, el acuerdo por casualidad debería ser 0.5, dando un kappa de 0.

— para

Realmente no entiendo la information-retrievaletiqueta aquí.

— chl

No sé, estoy trabajando en una tarea de recuperación de información, donde las personas juzgan si los documentos son relevantes o no, de ahí la estadística kappa. Pero todos pueden volver a publicar publicaciones aquí, ¡así que siéntete libre de hacerlo! @onestop, siguiendo esta guía estándar, mis números son correctos, los márgenes agrupados son .75 y .25, respectivamente, y ambos al cuadrado y sumados entre sí equivalen a .625

— slhck

Respuestas:

La "corrección de probabilidad" en Cohen estima las probabilidades con las que cada evaluador elige las categorías existentes. La estimación proviene de las frecuencias marginales de las categorías. Cuando solo tiene 1 juicio para cada evaluador, esto significa que asume que la categoría elegida para este juicio único en general tiene una probabilidad de 1. Esto obviamente no tiene sentido ya que el número de juicios (1) es demasiado pequeño para estimar de manera confiable Las tasas base de todas las categorías. $\kappa$ $\kappa$

Una alternativa podría ser un modelo binomial simple: sin información adicional, podríamos suponer que la probabilidad de acuerdo entre dos evaluadores para un juicio es 0.5 ya que los juicios son binarios. Esto significa que asumimos implícitamente que ambos evaluadores seleccionan cada categoría con probabilidad 0.5 para todos los criterios. El número de acuerdos esperados por casualidad sobre todos los criterios sigue una distribución binomial con . $p=0.5$

— lince
fuente

Encuentro convincente la respuesta de Caracal, pero también creo que el Kappa de Cohen solo puede dar cuenta de una parte de lo que constituye la confiabilidad entre evaluadores. El porcentaje simple de calificaciones en el acuerdo representa otra parte, y la correlación entre calificaciones, una tercera. Se necesitan los tres métodos para obtener una imagen completa. Para más detalles, consulte http://pareonline.net/getvn.asp?v=9&n=4 :

"[...] la práctica general de describir la confiabilidad entre evaluadores como un concepto único y unificado es, en el mejor de los casos, imprecisa y, en el peor, potencialmente engañosa".

— rolando2
fuente