Aplicando la respuesta de Erik a la de Michael :
Puede hacer el mismo tipo de pensamiento al que se refiere Erik al elegir la medida de rendimiento.
Encuentro útil referirme a diferentes medidas de este tipo según las preguntas que responden (aquí en el lenguaje de diagnóstico médico con el que estoy más familiarizado, pero tal vez pueda simplemente reemplazar al paciente por texto y la enfermedad por correo no deseado ;-)):
Sensibilidad: dado que el paciente realmente tiene la enfermedad, ¿qué posibilidades hay de que el clasificador se dé cuenta de eso?
Especificidad: dado que el paciente realmente no tiene la enfermedad, ¿qué posibilidades hay de que el clasificador se dé cuenta de eso?
Valor predictivo positivo: dado que el clasificador afirma que el paciente está enfermo, ¿qué tan probable es que el paciente realmente tenga la enfermedad?
Valor predictivo negativo: dado que el clasificador afirma que el paciente no está enfermo, ¿qué posibilidades hay de que el paciente realmente no tenga la enfermedad?
Como puede ver, los valores predictivos son lo que realmente interesan a los médicos y pacientes. Sin embargo, casi todos caracterizan su clasificador por su sensibilidad y especificidad. La razón es que los valores predictivos deben tener en cuenta la prevalencia de la enfermedad, y eso puede variar enormemente (¡órdenes de magnitud!) Para diferentes tipos de pacientes.
Más sobre el tema para su pregunta:
Apuesto a que tienes razón en preocuparte.
Tomando los dos escenarios de Erik en un ejemplo:
Aquí están las muestras de prueba independientes:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(tenga en cuenta que esta prueba fue bilateral, suponiendo que los dos clasificadores se hubieran publicado incluso si los resultados hubieran sido al revés ...)
Esta es la mejor situación posible: prueba emparejada, y el nuevo clasificador es el adecuado para todas las muestras, el anterior también, más 10 más:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(el valor p se mantiene por debajo del mágico 0.05 siempre que los dos clasificadores pronostiquen de manera diferente no más de 10 muestras de las 1000 ).
Incluso si los valores p son la respuesta correcta a la pregunta incorrecta, hay indicios de que es un lugar apretado.
Sin embargo, teniendo en cuenta la práctica científica habitual, es decir, se probó un número desconocido (inédito) de nuevas características, y solo se publicó la que funcionó un poco mejor, el lugar se vuelve aún más estrecho. Y luego, el clasificador del 80% puede ser el sucesor de un clasificador del 79% ...
Si te gusta leer alemán, hay algunos libros muy bonitos de Beck-Bornhold y Dubben. Si no recuerdo mal , Mit an Wahrscheinlichkeit grenzender Sicherheit tiene una muy buena discusión sobre estos problemas. (No sé si hay una edición en inglés, una traducción bastante literal del título es "Con una certeza cercana a la probabilidad")