Tengo un conjunto de datos de más de 11,000 artículos distintos, cada uno de los cuales fue clasificado en una escala nominal por al menos 3 evaluadores diferentes en Mechanical Turk de Amazon .
88 evaluadores diferentes proporcionaron juicios para la tarea, y ningún evaluador completó más de 800 juicios. La mayoría proporcionó significativamente menos que eso.
Mi pregunta es esta:
Me gustaría calcular alguna medida de confiabilidad entre evaluadores para las calificaciones, algo mejor que simplemente mirar el consenso. Sin embargo, creo que Fleiss Kappa, que es la medida que mejor conozco, requeriría un grupo consistente de evaluadores para todo el conjunto de elementos, por lo que no puedo usar Fleiss Kappa para verificar la TIR con mis datos. ¿Es esto correcto? ¿Hay otro método que pueda usar?
¡Cualquier consejo sería muy apreciado!