Coeficiente de correlación intraclase versus prueba F (ANOVA unidireccional)?


10

Estoy un poco confundido con respecto al coeficiente de correlación intraclase y el ANOVA unidireccional. Según tengo entendido, ambos le dicen cuán similares son las observaciones dentro de un grupo, en relación con las observaciones en otros grupos.

¿Podría alguien explicar esto un poco mejor y quizás explicar la situación en la que cada método es más ventajoso?


Por favor, tómese el tiempo para mirar la fiabilidad o las etiquetas entre evaluadores . El ICC se basa en una tabla ANOVA, pero la idea es simplemente analizar componentes de varianza en lugar de producir una estadística de prueba única con propiedades de distribución conocidas, como la prueba F. ¿Qué aplicación tienes en mente?
chl

@chl Estoy buscando analizar puntajes individuales para datos agrupados. He visto algunos documentos que examinan las diferencias entre los puntajes de los padres y los niños, utilizando el ICC para determinar si hubo una diferencia significativa en las respuestas de los padres frente a los niños. Creo que ICC es lo que quiero aquí, pero como mencioné, realmente no entiendo la diferencia entre los dos. Dudo en preguntar más, pero ¿conoce alguna buena referencia (básica)? Mi fondo de estadísticas se detuvo en una regresión lineal, y siento que estoy haciendo preguntas que no están bien formuladas. Gracias.
blep

Parece que tienes datos emparejados. Al considerar grupos separados (padres frente a sus hijos) y usar un ICC para informar la confiabilidad de los puntajes, tirará parte de la información, es decir, si las calificaciones de los padres y su pariente actúan de manera consistente. Sus dos ICC solo le dirán si ambas series de puntajes, que se supone que son independientes, son "confiables", en el sentido de que una parte significativa de la variación podría explicarse por el efecto del evaluador. (...)
chl

(...) En resumen, si desea mostrar que las calificaciones de los padres son más confiables que las de los niños, entonces usar ICC está bien; si, por otro lado, desea estudiar cómo las calificaciones de los padres se relacionan con las calificaciones de los niños, entonces podría recurrir a otro tipo de análisis (precisamente, análisis de datos diádicos).
chl

Respuestas:


17

Ambos métodos se basan en la misma idea, la de descomponer la varianza observada en diferentes partes o componentes. Sin embargo, existen diferencias sutiles en si consideramos los elementos y / o evaluadores como efectos fijos o aleatorios. Además de decir qué parte de la variabilidad total se explica por el factor entre (o cuánto se separa la varianza entre la varianza residual), la prueba F no dice mucho. Al menos esto es válido para un ANOVA unidireccional donde asumimos un efecto fijo (y que corresponde al ICC (1,1) descrito a continuación). Por otro lado, el ICC proporciona un índice acotado al evaluar la confiabilidad de la calificación para varios evaluadores "intercambiables", o la homogeneidad entre las unidades analíticas.

Por lo general, hacemos la siguiente distinción entre los diferentes tipos de ICC. Esto se desprende del trabajo seminal de Shrout y Fleiss (1979):

  • Modelo de efectos aleatorios unidireccionales , ICC (1,1): cada elemento es calificado por diferentes evaluadores que se consideran muestreados de un grupo más grande de evaluadores potenciales, por lo tanto, se tratan como efectos aleatorios; El ICC se interpreta como el% de la varianza total explicada por la varianza de los sujetos / ítems. Esto se llama la consistencia ICC.
  • Modelo de efectos aleatorios bidireccionales , ICC (2,1): ambos factores - evaluadores y elementos / sujetos - se consideran efectos aleatorios, y tenemos dos componentes de varianza (o cuadrados medios) además de la varianza residual; asumimos además que los evaluadores evalúan todos los ítems / materias; La CPI da en este caso el% de varianza atribuible a los evaluadores + ítems / sujetos.
  • Modelo mixto bidireccional , ICC (3,1): al contrario del enfoque unidireccional, aquí los evaluadores se consideran efectos fijos (sin generalización más allá de la muestra disponible) pero los ítems / sujetos se tratan como efectos aleatorios; la unidad de análisis puede ser la calificación individual o promedio.

Esto corresponde a los casos 1 a 3 en su Tabla 1. Se puede hacer una distinción adicional dependiendo de si consideramos que las calificaciones observadas son el promedio de varias calificaciones (se llaman ICC (1, k), ICC (2, k), e ICC (3, k)) o no.

En resumen, debe elegir el modelo correcto (unidireccional versus bidireccional), y esto se discute en gran parte en el artículo de Shrout y Fleiss. Un modelo unidireccional tiende a producir valores más pequeños que el modelo bidireccional; asimismo, un modelo de efectos aleatorios generalmente produce valores más bajos que un modelo de efectos fijos. Un ICC derivado de un modelo de efectos fijos se considera como una forma de evaluar la consistencia de los evaluadores (porque ignoramos la varianza del evaluador), mientras que para un modelo de efectos aleatorios hablamos de una estimación del acuerdo de los evaluadores (si los evaluadores son intercambiables o no). Solo los modelos de dos vías incorporan la interacción entre el evaluador y el sujeto, lo que puede ser de interés cuando se intenta desentrañar patrones de calificación atípicos.

La ilustración siguiente es fácilmente una copia / pasta de la ejemplo de ICC()en el psych paquete (datos provienen de Shrout y Fleiss, 1979). Los datos consisten en 4 jueces (J) que evalúan 6 sujetos u objetivos (S) y se resumen a continuación (supondré que se almacenan como una matriz R llamada sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Este ejemplo es interesante porque muestra cómo la elección del modelo puede influir en los resultados, por lo tanto, la interpretación del estudio de confiabilidad. Los 6 modelos ICC son los siguientes (esta es la Tabla 4 en el documento de Shrout y Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Como se puede ver, considerar a los evaluadores como efectos fijos (por lo tanto, no tratar de generalizar a un grupo más amplio de evaluadores) produciría un valor mucho más alto para la homogeneidad de la medición. (Se podrían obtener resultados similares con el paquete irr ( icc()), aunque debemos jugar con las diferentes opciones para el tipo de modelo y la unidad de análisis).

¿Qué nos dice el enfoque ANOVA? Necesitamos ajustar dos modelos para obtener los cuadrados medios relevantes:

  • un modelo unidireccional que considera solo el tema; esto permite separar los objetivos que se califican (entre grupos MS, BMS) y obtener una estimación del término dentro del error (WMS)
  • un modelo de dos vías que considera sujeto + evaluador + su interacción (cuando no hay repeticiones, este último término se confundirá con los residuos); esto permite estimar el efecto principal del evaluador (JMS) que se puede tener en cuenta si queremos usar un modelo de efectos aleatorios (es decir, lo agregaremos a la variabilidad total)

No es necesario mirar la prueba F, solo los MS son de interés aquí.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Ahora, podemos ensamblar las diferentes piezas en una tabla ANOVA extendida que se parece a la que se muestra a continuación (esta es la Tabla 3 en el documento de Shrout y Fleiss):


(fuente: mathurl.com )

donde las dos primeras filas provienen del modelo unidireccional, mientras que las dos siguientes provienen del ANOVA bidireccional.

Es fácil verificar todas las fórmulas en el artículo de Shrout y Fleiss, y tenemos todo lo que necesitamos para estimar la confiabilidad para una sola evaluación . ¿Qué pasa con la confiabilidad para el promedio de evaluaciones múltiples (que a menudo es la cantidad de interés en los estudios entre evaluadores)? Siguiendo a Hays y Revicki (2005), se puede obtener de la descomposición anterior simplemente cambiando el total de MS considerado en el denominador, excepto por el modelo de efectos aleatorios de dos vías para el que tenemos que reescribir la relación de MS.

  • En el caso de ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), la confiabilidad general se calcula como (BMS-WMS) /BMS=0.443.
  • Para el ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), la confiabilidad general es (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0.620.
  • Finalmente, para el ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), tenemos una confiabilidad de (BMS-EMS) /BMS=0.909.

Nuevamente, encontramos que la confiabilidad general es mayor cuando consideramos a los evaluadores como efectos fijos.

Referencias

  1. Shrout, PE y Fleiss, JL (1979). Correlaciones intraclase: usos en la evaluación de la confiabilidad del evaluador . Boletín psicológico , 86, 420-3428.
  2. Hays, RD y Revicki, D. (2005). Fiabilidad y validez (incluida la capacidad de respuesta). En Fayers, P. y Hays, RD (eds.), Evaluación de la calidad de vida en ensayos clínicos , 2ª ed., Págs. 25-39. Prensa de la Universidad de Oxford.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.