Si un clasificador es "bueno" realmente depende de
- ¿Qué más hay disponible para su problema particular? Obviamente, desea que un clasificador sea mejor que las suposiciones aleatorias o ingenuas (por ejemplo, clasificar todo como perteneciente a la categoría más común) pero algunas cosas son más fáciles de clasificar que otras.
- El costo de diferentes errores (falsa alarma versus falsos negativos) y la tasa base. Es muy importante distinguir los dos y resolver las consecuencias, ya que es posible tener un clasificador con una precisión muy alta (clasificaciones correctas en alguna muestra de prueba) que es completamente inútil en la práctica (digamos que está tratando de detectar una enfermedad rara o alguna comportamiento malicioso poco común y plan para lanzar alguna acción tras la detección; Las pruebas a gran escala cuestan algo y la acción / tratamiento corrector también generalmente implica riesgos / costos significativos, por lo que teniendo en cuenta que la mayoría de los resultados serán falsos positivos, desde una perspectiva de costo / beneficio podría ser mejor no hacer nada).
Para comprender el vínculo entre el recuerdo / precisión por un lado y la sensibilidad / especificidad por el otro, es útil volver a una matriz de confusión:
Condition: A Not A
Test says “A” True positive (TP) | False positive (FP)
----------------------------------
Test says “Not A” False negative (FN) | True negative (TN)
La recuperación es TP / (TP + FN) mientras que la precisión es TP / (TP + FP). Esto refleja la naturaleza del problema: en la recuperación de información, desea identificar tantos documentos relevantes como sea posible (eso es recordar) y evitar tener que clasificar la basura (eso es precisión).
Usando la misma tabla, las métricas de clasificación tradicionales son (1) sensibilidad definida como TP / (TP + FN) y (2) especificidad definida como TN / (FP + TN). Por lo tanto, la recuperación y la sensibilidad son simplemente sinónimos, pero la precisión y la especificidad se definen de manera diferente (como la recuperación y la sensibilidad, la especificidad se define con respecto al total de la columna, mientras que la precisión se refiere al total de la fila). La precisión también se denomina a veces "valor predictivo positivo" o, raramente, la "tasa de falsos positivos" (pero vea mi respuesta a la Relación entre verdadero positivo, falso positivo, falso negativo y verdadero negativo con respecto a la confusión que rodea esta definición de falso positivo tarifa).
Curiosamente, las métricas de recuperación de información no implican el recuento "verdadero negativo". Esto tiene sentido: en la recuperación de información, no le importa clasificar correctamente las instancias negativas per se , simplemente no desea que muchas de ellas contaminen sus resultados (consulte también ¿Por qué no recordar tiene en cuenta los verdaderos negativos? ).
Debido a esta diferencia, no es posible pasar de la especificidad a la precisión o al revés sin información adicional, es decir, el número de negativos verdaderos o, alternativamente, la proporción general de casos positivos y negativos. Sin embargo, para el mismo conjunto de corpus / prueba, una mayor especificidad siempre significa una mejor precisión, por lo que están estrechamente relacionados.
En un contexto de recuperación de información, el objetivo suele ser identificar una pequeña cantidad de coincidencias de una gran cantidad de documentos. Debido a esta asimetría, de hecho es mucho más difícil obtener una buena precisión que una buena especificidad mientras se mantiene constante la sensibilidad / recuperación. Dado que la mayoría de los documentos son irrelevantes, tiene muchas más ocasiones para falsas alarmas que verdaderos positivos y estas falsas alarmas pueden afectar los resultados correctos incluso si el clasificador tiene una precisión impresionante en un conjunto de pruebas equilibrado (esto es, de hecho, lo que está sucediendo en los escenarios I mencionado en mi punto 2 arriba). En consecuencia, realmente necesita optimizar la precisión y no solo para garantizar una especificidad decente porque incluso las tasas de aspecto impresionante como el 99% o más a veces no son suficientes para evitar numerosas falsas alarmas.
Por lo general, existe una compensación entre sensibilidad y especificidad (o recuerdo y precisión). Intuitivamente, si proyecta una red más amplia, detectará documentos más relevantes / casos positivos (mayor sensibilidad / recuperación) pero también obtendrá más falsas alarmas (menor especificidad y menor precisión). Si clasifica todo en la categoría positiva, tiene un 100% de memoria / sensibilidad, una mala precisión y un clasificador mayormente inútil ("mayormente" porque si no tiene ninguna otra información, es perfectamente razonable suponer que no va a llueve en un desierto y actúa en consecuencia, por lo que quizás la producción no sea inútil después de todo; por supuesto, no necesitas un modelo sofisticado para eso).
Teniendo en cuenta todo esto, el 60% de precisión y el 95% de recuperación no suena tan mal, pero, una vez más, esto realmente depende del dominio y de lo que pretendes hacer con este clasificador.
Alguna información adicional sobre los últimos comentarios / ediciones:
Una vez más, el rendimiento que puede esperar depende de los detalles (en este contexto, esto sería cosas como el conjunto exacto de emociones presentes en el conjunto de entrenamiento, la calidad de la imagen / video, la luminosidad, la oclusión, los movimientos de la cabeza, los videos actuados o espontáneos, modelo dependiente o independiente de la persona, etc.), pero F1 sobre .7 suena bien para este tipo de aplicaciones, incluso si los mejores modelos pueden funcionar mejor en algunos conjuntos de datos [ver Valstar, MF, Mehu, M., Jiang, B., Pantic, M. y Scherer, K. (2012). Metaanálisis del primer desafío de reconocimiento de expresiones faciales. IEEE Transactions on Systems, Man, and Cybernetics, Parte B: Cybernetics, 42 (4), 966-979.]
Si dicho modelo es útil en la práctica es una pregunta completamente diferente y obviamente depende de la aplicación. Tenga en cuenta que la "expresión" facial es en sí misma un tema complejo y pasar de un conjunto de entrenamiento típico (expresiones planteadas) a cualquier situación de la vida real no es fácil. Esto es bastante fuera de tema en este foro, pero tendrá graves consecuencias para cualquier aplicación práctica que pueda contemplar.
Finalmente, la comparación directa entre modelos es otra cuestión. Mi opinión sobre los números que presentó es que no hay una diferencia dramática entre los modelos (si se refiere al artículo que cité anteriormente, el rango de puntajes F1 para modelos conocidos en esta área es mucho más amplio). En la práctica, los aspectos técnicos (simplicidad / disponibilidad de bibliotecas estándar, velocidad de las diferentes técnicas, etc.) probablemente decidirían qué modelo se implementa, excepto quizás si los costos / beneficios y la tasa general lo hacen favorecer fuertemente la precisión o el recuerdo.