Fiabilidad entre evaluadores para datos ordinales o de intervalo


25

¿Qué métodos de confiabilidad entre evaluadores son los más apropiados para datos ordinales o de intervalo?

Creo que "Probabilidad conjunta de acuerdo" o "Kappa" están diseñados para datos nominales. Mientras que "Pearson" y "Spearman" pueden usarse, se usan principalmente para dos evaluadores (aunque pueden usarse para más de dos evaluadores).

¿Qué otras medidas son adecuadas para datos ordinales o de intervalo, es decir, más de dos evaluadores?

Respuestas:


29

El estadístico Kappa ( ) es un índice de calidad que compara el acuerdo observado entre 2 evaluadores en una escala nominal u ordinal con el acuerdo esperado solo por casualidad (como si los evaluadores estuvieran vomitando). Existen extensiones para el caso de evaluadores múltiples (2, págs. 284–291). En el caso de los datos ordinales , puede usar la κ ponderada , que básicamente se lee como de costumbre κ con elementos fuera de la diagonal que contribuyen a la medida del acuerdo. Fleiss (3) proporcionó pautas para interpretar los valores κ pero estas son meras reglas generales.κ κκκ

El estadístico es asintóticamente equivalente al ICC estimado a partir de un ANOVA de efectos aleatorios bidireccionales, pero las pruebas de significación y el SE que provienen del marco ANOVA habitual ya no son válidos con datos binarios. Es mejor usar bootstrap para obtener el intervalo de confianza (CI). Fleiss (8) discutió la conexión entre kappa ponderada y la correlación intraclase (ICC).κ

Cabe señalar que a algunos psicometristas no les gusta mucho porque se ve afectado por la prevalencia del objeto de medición, al igual que los valores predictivos se ven afectados por la prevalencia de la enfermedad en cuestión, y esto puede conducir a resultados paradójicos.κ

kWn>7k(n1)Wχ2(n1)nkFρWW

La correlación policórica (datos ordinales) también se puede utilizar como una medida de acuerdo entre evaluadores. De hecho, permiten

  • estimar cuál sería la correlación si las calificaciones se hicieran en una escala continua,
  • prueba de homogeneidad marginal entre evaluadores.

De hecho, se puede demostrar que es un caso especial de modelado de rasgos latentes, que permite relajar los supuestos de distribución (4).

Acerca de las mediciones continuas (más o menos supuestas), el ICC que cuantifica la proporción de varianza atribuible a la variación entre sujetos está bien. Nuevamente, se recomiendan los CI de arranque. Como dijo @ars, existen básicamente dos versiones, acuerdo y consistencia, que son aplicables en el caso de los estudios de acuerdo (5), y que difieren principalmente en la forma en que se calcula la suma de cuadrados; la "consistencia" ICC generalmente se estima sin considerar la interacción Ítem × Calificador. El marco ANOVA es útil con un diseño de bloque específico donde uno quiere minimizar el número de clasificaciones ( BIBD ); de hecho, esta fue una de las motivaciones originales del trabajo de Fleiss. También es la mejor manera de ir para múltiples evaluadores. La extensión natural de este enfoque se llama Teoría de la generalización . Se proporciona una breve descripción general en Rater Models: An Introduction ; de lo contrario, la referencia estándar es el libro de Brennan, revisado en Psychometrika 2006 71 (3) .

En cuanto a las referencias generales, recomiendo el capítulo 3 de Estadística en psiquiatría , de Graham Dunn (Hodder Arnold, 2000). Para un tratamiento más completo de los estudios de confiabilidad, la mejor referencia hasta la fecha es

Dunn, G. (2004). Diseño y análisis de estudios de confiabilidad . Arnold Vea la revisión en el International Journal of Epidemiology .

Una buena introducción en línea está disponible en el sitio web de John Uebersax, Correlación intraclase y métodos relacionados ; incluye una discusión de los pros y los contras del enfoque de la CPI, especialmente con respecto a las escalas ordinales.

Los paquetes R relevantes para la evaluación bidireccional (mediciones ordinales o continuas) se encuentran en la Vista de tareas de psicometría ; Generalmente uso los paquetes psy , psych o irr . También está la concordia paquete , pero nunca lo usé. Para tratar con más de dos evaluadores, el paquete lme4 es el camino a seguir, ya que permite incorporar fácilmente efectos aleatorios, pero la mayoría de los diseños de confiabilidad se pueden analizar utilizando aov()porque solo necesitamos estimar los componentes de la varianza.

Referencias

  1. J Cohen Kappa ponderada: acuerdo de escala nominal con provisión para escalas de desacuerdo de crédito parcial.Boletín psicológico , 70 , 213–220, 1968.
  2. S Siegel y Jr N John Castellan. Estadística no paramétrica para las ciencias del comportamiento . McGraw-Hill, Segunda edición, 1988.
  3. JL Fleiss. Métodos estadísticos para tasas y proporciones . Nueva York: Wiley, segunda edición, 1981.
  4. JS Uebersax. Los coeficientes de correlación tetracóricos y policóricos . Sitio web de Métodos estadísticos para el acuerdo del evaluador, 2006. Disponible en: http://john-uebersax.com/stat/tetra.htm . Consultado el 24 de febrero de 2010.
  5. PE Shrout y JL Fleiss. Correlación intraclase: Usos en la evaluación de la confiabilidad del evaluador . Boletín psicológico , 86 , 420-428, 1979.
  6. MG Kendall y B Babington Smith. El problema de las clasificaciones m . Anales de Estadística Matemática , 10 , 275–287, 1939.
  7. P Legendre. Coeficiente de concordancia . En NJ Salkind, editor, Enciclopedia de Diseño de la investigación . Publicaciones SAGE, 2010.
  8. JL Fleiss. La equivalencia de kappa ponderada y el coeficiente de correlación intraclase como medidas de fiabilidad . Medida educativa y psicológica , 33 , 613-619, 1973.

3
Tres referencias adicionales: 1. Más allá de Kappa: una revisión de las medidas de acuerdo entre evaluadores por Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney y Debajyoti Sinha 2. Fiabilidad entre evaluadores y acuerdo de calificaciones de desempeño: Una comparación metodológica por John W. Fleenor, Julie B. Fleenor y William F. Grossnickle
M. Tibbits

3. Métodos estadísticos para evaluar el error de medición (fiabilidad) en variables relevantes para la medicina deportiva. por Atkinson G y Nevill AM. La primera referencia es específica a los datos ordinales y analiza otras medidas más allá de kappa para los datos ordinales. El segundo y el tercero son específicos de los datos de intervalo.
M. Tibbits

(+1) ¡Muchas gracias M. Tibbits! Por lo general, proporciono muchas referencias y ejemplos durante mis clases de psicometría, incluido el primero que citó, pero no conocía a los otros dos.
chl

Como complemento, el paquete ordinal permite el modelado multinivel como lme4 pero con regresión ordinal.
John

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.