¿Medidor de rendimiento que combina sensibilidad y especificidad?

Tengo datos etiquetados de 2 clases en los que estoy realizando la clasificación usando múltiples clasificadores. Y los conjuntos de datos están bien equilibrados. Al evaluar el rendimiento de los clasificadores, debo tener en cuenta cuán preciso es el clasificador para determinar no solo los verdaderos positivos, sino también los verdaderos negativos. Por lo tanto, si uso la precisión, y si el clasificador está sesgado hacia los positivos y clasifica todo como positivo, obtendré alrededor del 50% de precisión, a pesar de que no se pudo clasificar ningún negativo verdadero. Esta propiedad se extiende a la precisión y recuperación, ya que se centran en una sola clase y, a su vez, en la puntuación F1. (Esto es lo que entiendo incluso de este documento, por ejemplo, " Más allá de la precisión, el puntaje F y el ROC: una familia de medidas discriminatorias para la evaluación del desempeño ").

Por lo tanto, puedo usar la sensibilidad y la especificidad (TPR y TNR) para ver cómo se desempeñó el clasificador para cada clase, donde pretendo maximizar estos valores.

Mi pregunta es que estoy buscando una medida que combine ambos valores en una medida significativa . Investigué las medidas proporcionadas en ese documento, pero encontré que no era trivial. Y, según mi comprensión, me preguntaba por qué no podemos aplicar algo como el puntaje F, pero en lugar de utilizar la precisión y el recuerdo, ¿utilizaría la sensibilidad y la especificidad? Entonces la fórmula sería y mi objetivo sería maximizar esta medida. Me parece muy representativo. ¿Existe una fórmula similar ya? ¿Y esto tendría sentido o es matemáticamente sólido?

mi medida de rendimiento = \frac{2 * sensibilidad * especificidad}{sensibilidad + especificidad}

$\text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}$

— Kalaji
fuente

Respuestas:

Diría que puede que no haya ninguna medida particular o solo una que deba tener en cuenta.

La última vez que hice una clasificación probabilística tenía un paquete R ROCR y valores de costo explícitos para los falsos positivos y los falsos negativos.

Consideré todos los puntos de corte de 0 a 1 y utilicé muchas medidas, como el costo esperado al seleccionar este punto de corte. Por supuesto, ya tenía la medida AUC para la medida general de la precisión de clasificación. Pero para mí esta no era la única posibilidad.

Los valores para los casos de FP y FN deben estar fuera de su modelo particular, ¿tal vez los proporcione algún experto en la materia?

Por ejemplo, en el análisis de rotación de clientes, podría ser más costoso inferir incorrectamente que el cliente no está agitando, pero también que será costoso ofrecer una reducción general en los precios de los servicios sin precisarlos para dirigirlos a los grupos correctos.

-Analista

— Analista
fuente

En realidad para mi caso es algo similar. Porque los casos de FP y FN serán costosos en mi modelo. Finalmente terminé haciendo algo similar a lo que sugirió "usar múltiples medidas". Calculé el puntaje F para cada etiqueta de clase, y para evaluar los modelos utilizo ambos valores junto con alguna función de costo que usa precisión (para ambas clases) para calcular la ganancia y restar de ella la pérdida incurrida en casos de FP y FN.

— Kalaji

La precisión de la clasificación, la sensibilidad, la especificidad y cualquier combinación simple de ellas son reglas de puntuación incorrectas. Es decir, están optimizados por un modelo falso. Usarlos te hará elegir las características incorrectas, dar los pesos incorrectos y tomar decisiones subóptimas. Una de las muchas maneras en que las decisiones son subóptimas es la falsa confianza que se obtiene cuando las probabilidades predichas están cerca del umbral implícito por el uso de estas medidas. En resumen, todo lo que puede salir mal sale mal con estas medidas. Usarlos para comparar incluso dos modelos bien equipados lo engañará.

— Frank Harrell
fuente

Estoy de acuerdo en que cualquier modelo generado es un "modelo falso" como usted mencionó. Pero aún necesito una medida para evaluar su calidad, para elegir un modelo eventualmente. Suponiendo que mis características ya han sido seleccionadas (probando múltiples conjuntos de datos con diferentes conjuntos de características), y estoy usando la validación cruzada 5 veces para determinar si mis clasificadores están sobreajustando los datos, estas simples "reglas de puntuación" son las más ampliamente utilizado en la literatura. ¿Qué otras medidas sugerirías entonces? La mayoría de las medidas se basan en combinaciones de estos valores, incluidos LR +/-, ROC y AUC.

— Kalaji

R^{2}

$R^2$

Y

$Y$

Según mi lectura, esto se aplica en caso de que mis modelos generen probabilidades en lugar de valores discretos (es decir, una probabilidad de que una instancia pertenezca a la clase 0 o 1 en lugar de generar 0 o 1). Y a su vez, esto tenía que ver con la implementación de clasificadores, por ejemplo, se aplica a un clasificador Naive Bayes pero no a un clasificador 1-NN. Tenga en cuenta que no estoy implementando los clasificadores, estoy usando algunos clasificadores en Weka para generar mis modelos. Tal vez estoy un poco confundido aquí. Gracias.

— Kalaji

Si el método que está utilizando no ofrece probabilidades, sugiero encontrar otro método.

— Frank Harrell

Si hay disparidades bien entendidas entre el costo real de precisión y sensibilidad (no aplicable a la publicación original), ¿por qué evitarías usarlas? ¿Sería preferible un error de entropía cruzada sesgado (por ejemplo, la penalización del término (1-c) * log (1-p) se duplica)?

— Max Candocia