¿Qué hacer en caso de baja confiabilidad entre evaluadores (ICC)?


8

Antecedentes: Ocho médicos calificaron a los mismos 54 pacientes en una medida de persuasión (escala Likert 1-7). La puntuación media en la medida de persuasión eventualmente será la medida de resultado de mi experimento.

La fiabilidad entre evaluadores se cuantificó como el coeficiente de correlación intraclase (ICC), utilizando el modelo de efectos aleatorios bidireccionales con consistencia. Desafortunadamente, la confiabilidad entre los evaluadores de los ocho médicos fue baja (ICC = .350, medidas únicas). ¿Debo seguir ejecutando más análisis planificados con estos datos poco confiables? ¿O puede justificarse que solo incluya a los médicos (es decir, evaluadores) con la mayor confiabilidad entre evaluadores? Descubrí que hay dos médicos con una confiabilidad entre evaluadores más aceptable (ICC = .718, N = 2), pero no creo que sea razón suficiente para excluir a los otros médicos de los análisis. Realmente agradecería cualquier referencia a la literatura que aborde este problema.

Respuestas:


6

Prefiero responder sobre la base de la metodología en sí misma, en lugar de cómo "arreglar" la situación. En otro contexto, ayudé a trabajar en un sistema de clasificación y clasificación, y descubrí que el acuerdo entre evaluadores era decepcionantemente bajo. Se consideraron dos caminos

  1. Cambiar cómo se definieron los acuerdos de calificación e identificar a aquellos que parecían "entender" la tarea, o
  2. Refine las definiciones utilizadas, junto con la guía y ejemplos del proveedor de los evaluadores, para que puedan comprender más fácilmente cómo calificar las cosas.

En el primer escenario, toda la metodología y los resultados podrían convertirse en un desperdicio simplemente porque la confiabilidad entre evaluadores era baja. Indicaba que las definiciones originales eran malas o que los evaluadores recibían malas instrucciones. Si seguía ese camino, estaba seguro de tener problemas.

En el segundo caso, el acuerdo entre los evaluadores fue muy bueno. Dado que calificaron una gran cantidad de elementos, también podían dar retroalimentación cuando pensaban que las definiciones y orientación originales eran inadecuadas. Al final, la metodología fue muy reproducible.

En base a eso, todavía no modificaría su conjunto de evaluadores, sino que volvería a las definiciones y orientación originales. Cualquier retoque después de la calificación es un problema, aunque puede ser útil como un control de calidad. A veces hay evaluadores que van a hacer lo que quieran, sin importar la orientación dada. Con buenos métodos estadísticos, es fácil identificarlos y ponderar sus contribuciones adecuadamente.

Ahora, si me equivoco y no planea realizar una recopilación adicional, es decir, sus datos ya están recopilados y hechos, lo que puede hacer es PCA o algo así, y ver si puede tener una idea de cómo los diferentes grupo de médicos (o pacientes).

¿Los pacientes estuvieron expuestos a todos los médicos al mismo tiempo (por ejemplo, a través de una grabación de video) o estuvieron expuestos secuencialmente y tuvieron la oportunidad de modificar su presentación con cada interacción? Si esto último, entonces podría haber problemas con los pacientes, y no con los médicos.


3

Definitivamente, elegir el mejor valor de ICC de 28 pares posibles definitivamente NO es una buena idea, ya que esa estimación de ICC es ciertamente optimista.

El Manual de análisis de contenido de Neuendorf tiene una muy buena discusión sobre las opciones para lidiar con la poca confiabilidad en la codificación. La cita es:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

Hay un sitio web que lo acompaña .


Los enlaces ya no funcionan
Tom
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.