¿Por qué se prefiere la medida F para las tareas de clasificación?


8

¿Por qué la medida F se usa generalmente para tareas de clasificación (supervisadas), mientras que la medida G (o índice de Fowlkes-Mallows) se usa generalmente para tareas de agrupación (sin supervisión)?

La medida F es la media armónica de la precisión y el recuerdo .

La medida G (o índice de Fowlkes-Mallows) es la media geométrica de la precisión y el recuerdo .

A continuación se muestra una trama de los diferentes medios.

ingrese la descripción de la imagen aquí

F1 (armónico)=2precisionrecallprecision+recall

Geométrico=precisionrecall

Aritmética=precision+recall2

La razón por la que pregunto es que necesito decidir qué promedio usar en una tarea NLG, donde medí BLEU y ROUGE (donde BLEU es equivalente a precisión y ROUGE para recordar). ¿Cómo debo calcular la media de estos puntajes?


¡Tal vez es así como va la definición!
Aditya

1
@Aditya, tienes razón, solo fueron preguntas mal formuladas sobre la definición. Lo edité reformulando en algo más concreto.
Bruno Lubascher

Respuestas:


3

Se prefiere la puntuación Fı a la precisión de clasificación simple para contrarrestar el problema de los conjuntos de datos desequilibrados; Si la cosa que estás buscando ocurre muy raramente, entonces un clasificador ingenuo siempre puede decir que no y parece estar funcionando muy bien. Una variante de Fı es Fß, donde

Fß = (1 + ß²) × ​​[(P × R) ÷ ((ß² × P) + R)]

Varíe ß para equilibrar la precisión y la recuperación. En cuanto a por qué F o G, creo que es empírico: ¿no dice si está clasificando o agrupando en su propia aplicación?


1
Gracias por la respuesta, pero creo que extrañaste mi pregunta. No quiero comparar F1 versus precisión simple. , en cambio, me refiero a comparar las medias armónicas vs geométricas vs aritméticas . No estoy haciendo una clasificación o agrupación tradicional, tengo una tarea de NLG , que se mide en BLEU y ROUGE que podría promediarse con uno de los medios, pero no estoy seguro de cuál elegir.
Bruno Lubascher

-1

Si Precision and Recall son similares, F1 es una buena medida para comparar diferentes modelos.

Corto y dulce :)


No veo cómo incluso intentaste responder a mi pregunta ...
Bruno Lubascher
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.