Fiabilidad entre evaluadores con muchos evaluadores no superpuestos

8

Tengo un conjunto de datos de más de 11,000 artículos distintos, cada uno de los cuales fue clasificado en una escala nominal por al menos 3 evaluadores diferentes en Mechanical Turk de Amazon .

88 evaluadores diferentes proporcionaron juicios para la tarea, y ningún evaluador completó más de 800 juicios. La mayoría proporcionó significativamente menos que eso.

Mi pregunta es esta:

Me gustaría calcular alguna medida de confiabilidad entre evaluadores para las calificaciones, algo mejor que simplemente mirar el consenso. Sin embargo, creo que Fleiss Kappa, que es la medida que mejor conozco, requeriría un grupo consistente de evaluadores para todo el conjunto de elementos, por lo que no puedo usar Fleiss Kappa para verificar la TIR con mis datos. ¿Es esto correcto? ¿Hay otro método que pueda usar?

¡Cualquier consejo sería muy apreciado!

reliability agreement-statistics cohens-kappa

— Judd Antin
fuente

1

Bienvenido al sitio! Se hicieron preguntas similares antes con estas etiquetas: ¿ha verificado si se puede encontrar una solución de trabajo entre estas?

— StasK

1

¡Gracias! Claro que lo comprobé. Solo encontré una pregunta directamente relevante , pero no ha recibido respuestas.

— Judd Antin

2

Si solo necesita convencerse a sí mismo (en lugar de informar un número para otra parte), puede ajustar un modelo jerárquico / mixto cruzado, con elementos y evaluadores que son dos efectos aleatorios. Entonces, la correlación intraclase para los evaluadores es [variación del efecto aleatorio de los evaluadores] / [variación del efecto aleatorio de los evaluadores + variación del efecto aleatorio de los ítems + (variación de la distribución logística = )] . Una implementación específica depende de la plataforma computacional que esté utilizando; el valor predeterminado en CV es R, por lo que lo usaría con él, pero puede tener algo diferente como SPSS o Stata. $\pi^2/3$ nlme

— StasK
fuente

2

Echa un vistazo al alfa de Krippendorff. Tiene varias ventajas sobre algunas otras medidas, como Kappa de Cohen, Kappa de Fleiss, alfa de Cronbach: es robusto a la falta de datos (lo que considero es la principal preocupación que tiene); es capaz de lidiar con más de 2 evaluadores; y puede manejar diferentes tipos de escalas (nominales, ordinales, etc.), y también explica los acuerdos casuales mejor que algunas otras medidas como la Kappa de Cohen.

El cálculo del alfa de Krippendorff es compatible con varios paquetes de software estadístico, incluidos R (por el paquete irr), SPSS, etc.

A continuación se presentan algunos documentos relevantes que analizan el alfa de Krippendorff, incluidas sus propiedades y su implementación, y lo comparan con otras medidas:

Hayes, AF y Krippendorff, K. (2007). Responder a la llamada para una medida de confiabilidad estándar para codificar datos. Métodos y medidas de comunicación, 1 (1), 77-89.
Krippendorff, K. (2004). Fiabilidad en el análisis de contenido: algunos conceptos erróneos y recomendaciones comunes. Investigación en comunicación humana, 30 (3), 411-433. doi: 10.1111 / j.1468-2958.2004.tb00738.x
Capítulo 3 en Krippendorff, K. (2013). Análisis de contenido: una introducción a su metodología (3ª ed.): Sage.

Hay algunos documentos técnicos adicionales en el sitio web de Krippendorff.

— ynagar
fuente