La estadística Kappa ( ) fue introducida en 1960 por Cohen [1] para medir el acuerdo entre dos evaluadores. Sin embargo, su variación había sido una fuente de contradicciones durante bastante tiempo.
Mi pregunta es sobre cuál es el mejor cálculo de varianza que se utilizará con muestras grandes. Me inclino a creer que la probada y verificada por Fleiss [2] sería la elección correcta, pero esta no parece ser la única publicada que parece ser correcta (y utilizada en la literatura bastante reciente).
En este momento tengo dos formas concretas de calcular su varianza de muestra grande asintótica:
- El método corregido publicado por Fleiss, Cohen y Everitt [2];
- El método delta que se puede encontrar en el libro de Colgaton, 2009 [4] (página 106).
Para ilustrar algo de esta confusión, aquí hay una cita de Fleiss, Cohen y Everitt [2], énfasis mío:
Muchos esfuerzos humanos han sido maldecidos con repetidos fracasos antes de lograr el éxito final. La escala del Monte Everest es un ejemplo. El descubrimiento del Pasaje del Noroeste es un segundo. La derivación de un error estándar correcto para kappa es un tercero .
Entonces, aquí hay un pequeño resumen de lo que sucedió:
- 1960: Cohen publica su artículo "Un coeficiente de acuerdo para escalas nominales" [1] presentando su medida de acuerdo corregida por azar entre dos evaluadores llamada . Sin embargo, publica fórmulas incorrectas para los cálculos de varianza.
- 1968: Everitt intenta corregirlos, pero sus fórmulas también eran incorrectas.
- 1969: Fleiss, Cohen y Everitt publican las fórmulas correctas en el documento "Errores estándar de muestra grande de Kappa y Kappa ponderado" [2].
- 1971: Fleiss publica otra estadística (pero diferente) con el mismo nombre, con fórmulas incorrectas para las variaciones.
- 1979: Fleiss Nee y Landis publican las fórmulas corregidas para Fleiss ' .
Al principio, considere la siguiente notación. Esta notación implica que el operador de suma debe aplicarse a todos los elementos en la dimensión sobre la cual se coloca el punto:
p . j = k ∑ i = 1 p i j
Ahora, uno puede calcular Kappa como:
En el cual
y bajo la hipótesis nula está dada por:
El método de Congalton parece estar basado en el método delta para obtener variaciones (Agresti, 1990; Agresti, 2002); sin embargo, no estoy seguro de cuál es el método delta o por qué debe usarse. La varianza , bajo este método, viene dada por:
en el cual
(Congalton usa un subíndice en lugar de a , Pero parece significar lo mismo. Además, supongo que debería ser una matriz de conteo, es decir, la matriz de confusión antes de dividirse por el número de muestras como relacionado por la fórmula )
Otra parte extraña es que el libro de Colgaton parece referir el artículo original de Cohen, pero no parece citar las correcciones a la variación de Kappa publicada por Fleiss et al, no hasta que continúa discutiendo Kappa ponderado. ¿Quizás su primera publicación fue escrita cuando la verdadera fórmula para kappa todavía estaba perdida en la confusión?
¿Alguien puede explicar por qué esas diferencias? ¿O por qué alguien usaría la variación del método delta en lugar de la versión corregida por Fleiss?
[1]: Fleiss, Joseph L .; Cohen, Jacob; Everitt, BS; Grandes errores estándar de muestra de kappa y kappa ponderada. Psychological Bulletin, Vol. 72 (5), noviembre de 1969, 323-327. doi: 10.1037 / h0028106
[2]: Cohen, Jacob (1960). Un coeficiente de acuerdo a las escalas nominales. Medida educativa y psicológica 20 (1): 37–46. DOI: 10.1177 / 001316446002000104.
[3]: Alan Agresti, Análisis de datos categóricos, segunda edición. John Wiley and Sons, 2002.
[4]: Russell G. Congalton y Green, K .; Evaluación de la precisión de los datos detectados remotamente: principios y prácticas, 2a edición. 2009