No tengo el libro de Fleiss a mano, así que todo esto es IIRC.
Respondiendo la pregunta de @ JohnMoeller en los comentarios por el momento: la pregunta original es IMHO sin respuesta tal como es.
Supongamos que tengo 30 muestras, y pruebo c1 y c2 en cada muestra, y registro la precisión de cada una en cada muestra.
haciendo esto, terminas con una tabla de contingencia 2 x 2 que da al clasificador 1 correcto / incorrecto contra el clasificador 2 correcto / incorrecto. Cuál es el punto de partida para la prueba de McNemar . Entonces, esto es para una comparación por pares, que es más poderosa que la comparación de proporciones "independientes" (que no son completamente independientes si provienen de la extracción aleatoria de la misma muestra finita).
No puedo buscar la "letra pequeña" de McNemar en este momento, pero 30 muestras no es mucho. Por lo tanto, es posible que deba cambiar de la prueba exacta de McNemar a la de Fisher [u otra cosa] que calcule las probabilidades binomiales.
Medios de proporciones:
no importa si prueba uno y el mismo clasificador 10x con 10 casos de prueba o una vez con todos esos 100 casos (la tabla 2 x 2 solo cuenta todos los casos de prueba).
Si las 10 estimaciones de precisión para cada clasificador en la pregunta original se obtienen por retención aleatoria o validación cruzada 10 veces o 10x fuera de arranque, la suposición es que los 10 modelos sustitutos calculados para cada clasificador son equivalentes (= tienen la misma precisión), por lo que los resultados de las pruebas se pueden agrupar *. Para una validación cruzada 10 veces, se supone que el tamaño de la muestra de prueba es igual al número total de muestras de prueba. Para los otros métodos, no estoy tan seguro: puede probar el mismo caso más de una vez. Según los datos / problemas / aplicaciones, esto no equivale a tanta información como probar un nuevo caso.
k
knortepags^= knorteσ2( p^) = σ2( knorte) = p ( 1 - p )norte