¿Cómo realizar la confiabilidad entre evaluadores con múltiples evaluadores, diferentes evaluadores por participante y posibles cambios a lo largo del tiempo?

Los participantes fueron calificados dos veces, con las 2 clasificaciones separadas por 3 años. Para la mayoría de los participantes, las evaluaciones fueron hechas por diferentes evaluadores, pero para algunos (<10%) el mismo evaluador realizó ambas evaluaciones. Hubo 8 evaluadores en total, con 2 clasificaciones en ambos puntos de tiempo.

Ahora, dado que las calificaciones eran de un aspecto de habilidad con un valor hipotético "correcto", entonces el acuerdo absoluto entre los evaluadores es de interés, más que de consistencia. Sin embargo, dado que las clasificaciones se tomaron con 3 años de diferencia, podría haber (y probablemente hubo) algún cambio real en la capacidad.

¿Cuál sería la mejor prueba de fiabilidad en este caso?
Me estoy inclinando hacia una correlación intraclase, pero ¿es ICC1 lo mejor que puedo hacer con estos datos?

— Joyce
fuente

¿Cómo planea dar cuenta del hecho de que algunas calificaciones fueron realizadas por el mismo evaluador? Fuera de mi cabeza, no puedo pensar en ninguna medida que tenga eso en cuenta cuando no se hace de manera consistente. Después de todo, si compara el mismo evaluador dos veces, está buscando consistencia; si comparas dos evaluadores, estás buscando un acuerdo. Entonces, cuando dice que desea evaluar la "confiabilidad", no está totalmente claro lo que está tratando de evaluar.

Si cree que es probable que el nivel de habilidad de los sujetos haya cambiado, también es importante considerar cómo puede explicar ese hecho. ¿Tiene alguna medida estándar de oro para comparar a los evaluadores?

Entonces, en resumen, antes de que pueda evaluar qué tan confiables son los evaluadores, debe responder dos preguntas clave:

¿Cómo puede cuantificar y corregir el cambio entre los puntos de tiempo atribuidos a los cambios legítimos en la capacidad, en lugar de una mala consistencia en la calificación?
¿Está interesado principalmente en la frecuencia con la que los evaluadores están de acuerdo entre sí, o en qué tan consistentemente aplican las calificaciones?

— TARehman
fuente

Gracias por su respuesta, TARehman. Como dices, es una mezcla. Creo que tendré que dividir la muestra en aquellos que fueron calificados por el mismo evaluador y aquellos que no lo fueron. Luego, ejecutaré un análisis por separado en ambos (intra e inter confiabilidad, respectivamente). En cuanto al problema del cambio real, no creo que haya una manera

— Joyce

Me parece que si los divide, es posible que pueda agregar el puntaje final en una meta-confiabilidad, pero ese plan está lleno de desafíos metodológicos. Creo que ICC será tu mejor opción. ¿Cómo son sus números (cuántas calificaciones, individuos, etc., sabemos que tiene 8 evaluadores)?

— TARehman

Entonces, para cada individuo n = 800 hay 2 clasificaciones. Hubo 5 evaluadores en t1 y 5 en t2 (8 en total, con 2 en t1 y t2). 100 individuos fueron calificados por el mismo evaluador en ambos puntos de tiempo y 700 tenían diferentes evaluadores. No puedo entender qué ICC sería más apropiado aquí ...

— Joyce

Bueno, parece que puede abordar uno de los dos puntos anteriores ignorando a las 100 personas que fueron calificadas por el mismo evaluador en ambos puntos de tiempo. Eso al menos aborda la cuestión de lo que le interesa: con qué frecuencia están de acuerdo entre sí o con qué frecuencia aplican las calificaciones. Debido a que no tiene ninguna forma de controlar el cambio esperado en los valores con el tiempo, todavía no estoy seguro de cómo abordará el primer punto ...

— TARehman

Editado para agregar: Puede que la discusión de Wikipedia sobre este aspecto de la CPI sea ilustrativa: en.wikipedia.org/wiki/… . En particular, afirma que se puede "utilizar para evaluar la consistencia o conformidad de las mediciones realizadas por múltiples observadores que miden la misma cantidad". Dado que los evaluadores en este caso no miden la misma cantidad, es posible que el ICC no se adapte bien a su situación.

— TARehman