Hay muchas situaciones en las que puede entrenar varios clasificadores diferentes, o usar varios métodos de extracción de características diferentes. En la literatura, los autores a menudo dan el error de clasificación promedio sobre un conjunto de divisiones aleatorias de los datos (es decir, después de una validación cruzada doblemente anidada) y, a veces, también dan variaciones sobre el error sobre las divisiones. Sin embargo, esto por sí solo no es suficiente para decir que un clasificador es significativamente mejor que otro. He visto muchos enfoques diferentes para esto: usando pruebas de Chi-cuadrado, prueba t, ANOVA con pruebas post-hoc, etc.
¿Qué método debe usarse para determinar la significación estadística? La pregunta subyacente es: ¿Qué suposiciones debemos hacer sobre la distribución de los puntajes de clasificación?