¿Por qué la medida F es una media armónica y no una media aritmética de las medidas de precisión y recuperación?


86

Cuando calculamos la medida F considerando tanto la precisión como la recuperación, tomamos la media armónica de las dos medidas en lugar de una media aritmética simple.

¿Cuál es la razón intuitiva detrás de tomar la media armónica y no un promedio simple?


1
La intuición es equilibrar la precisión y el recuerdo (generalmente la mejor medida, pero en algún caso desea maximizar la precisión o el recuerdo, que es una historia diferente). No puede obtener una puntuación f alta si cualquiera de las dos es muy baja.
greeness

1
cse.unsw.edu.au/~teachadmin/info/harmonic3.html Este es un buen recurso para comprender HM
Sudip Bhandari

2
Corrija el enlace de arriba: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm o el original @ archive.org
stason

Respuestas:


16

Aquí ya tenemos algunas respuestas elaboradas, pero pensé que un poco más de información al respecto sería útil para algunos tipos que quieren profundizar (especialmente por qué medir F).

Según la teoría de la medición, la medida compuesta debe satisfacer las siguientes 6 definiciones:

  1. Conectividad (se pueden ordenar dos pares) y transitividad (si e1> = e2 y e2> = e3 entonces e1> = e3)
  2. Independencia: dos componentes aportan sus efectos de forma independiente a la eficacia.
  3. Condición de Thomsen: Dado que en una recuperación constante (precisión) encontramos una diferencia en la efectividad para dos valores de precisión (recuperación), esta diferencia no se puede eliminar ni revertir cambiando el valor constante.
  4. Solubilidad restringida.
  5. Cada componente es esencial: la variación en uno y dejar el otro constante da una variación en la efectividad.
  6. Propiedad de Arquímedes para cada componente. Simplemente asegura que los intervalos de un componente sean comparables.

Luego podemos derivar y obtener la función de la efectividad: ingrese la descripción de la imagen aquí

Y normalmente no usamos la efectividad sino la puntuación F mucho más simple porque :
ingrese la descripción de la imagen aquí

Ahora que tenemos la fórmula general de la medida F:

ingrese la descripción de la imagen aquí

donde podemos poner más énfasis en la recuperación o la precisión configurando beta, porque beta se define de la siguiente manera:

ingrese la descripción de la imagen aquí

Si ponderamos el recuerdo más importante que la precisión (se seleccionan todos los relevantes) podemos establecer beta como 2 y obtenemos la medida F2. Y si hacemos lo contrario y ponderamos la precisión más alta que la recuperación (la mayor cantidad de elementos seleccionados son relevantes, por ejemplo, en algunos escenarios de corrección de errores gramaticales como CoNLL ) simplemente establecemos beta en 0.5 y obtenemos la medida F0.5. Y obviamente podemos establecer beta en 1 para obtener la medida F1 más utilizada (media armónica de precisión y recuperación).

Creo que hasta cierto punto ya he respondido por qué no usamos la media aritmética.

Referencias:

  1. https://en.wikipedia.org/wiki/F1_score
  2. La verdad de la medida F
  3. Recuperación de información

99

Para explicarlo, considere, por ejemplo, cuál es el promedio de 30 mph y 40 mph? si conduce durante 1 hora a cada velocidad, la velocidad promedio durante las 2 horas es de hecho el promedio aritmético, 35 mph.

Sin embargo, si conduce la misma distancia a cada velocidad, digamos 10 millas, entonces la velocidad promedio de más de 20 millas es la media armónica de 30 y 40, aproximadamente 34.3 mph.

La razón es que para que el promedio sea válido, realmente necesita que los valores estén en las mismas unidades escaladas. Las millas por hora deben compararse durante el mismo número de horas; para comparar el mismo número de millas, necesita hacer un promedio de horas por milla, que es exactamente lo que significa el armónico.

Tanto la precisión como la memoria tienen verdaderos positivos en el numerador y diferentes denominadores. Para promediarlos, realmente solo tiene sentido promediar sus recíprocos, por lo tanto, la media armónica.


7
Gracias, ese es un buen argumento de por qué esto está respaldado por la teoría; mi respuesta fue más pragmática.
Ha SALIDO - Anony-Mousse

77

Porque castiga más los valores extremos.

Considere un método trivial (por ejemplo, siempre devolviendo la clase A). Hay infinitos elementos de datos de clase B y un solo elemento de clase A:

Precision: 0.0
Recall:    1.0

Al tomar la media aritmética, tendría 50% correcto. ¡A pesar de ser el peor resultado posible! Con la media armónica, la medida F1 es 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

En otras palabras, tener un alto F1, es necesario que ambos tienen una alta precisión y la recuperación.


Cuando la recuperación es 0.0, la precisión tiene que ser mayor que 0.0, ¿verdad? Pero entiendo el punto en tu ejemplo. Bien explicado - Gracias.
Chico de Londres

1
En su ejemplo, la precisión para la clase A es 0.5 en lugar de 0 y la recuperación de la clase A es 1; la precisión para la clase B es 0 y la recuperación de la clase B es 0 como lo haremos. Supongo que su clase equilibrada significa que las verdaderas etiquetas son A y B; cada uno se aplica al 50% de los datos.
greeness

Hagamos elementos infinitos de la clase B y un solo elemento de la clase A. No cambia la matemática detrás de F1.
Ha QUIT - Anony-Mousse

2
No es solo una heurística seleccionar más equilibrio. La media armónica es la única forma que tiene sentido dadas las unidades de estas relaciones. La media no tendría significado en comparación
Sean Owen

¿Dónde dice "heurístico" y dónde difiere su comentario de mi respuesta? Pero: La medida F es una heurística en el sentido de que asume que la precisión y el recuerdo son igualmente importantes. Es por eso que se debe elegir el término beta; heurísticamente, generalmente se usa beta = 1.
Ha SALIDO - Anony-Mousse

29

Las respuestas anteriores están bien explicadas. Esto es solo para una referencia rápida para comprender la naturaleza de la media aritmética y la media armónica con gráficos. Como puede ver en el gráfico, considere el eje X y el eje Y como precisión y recuperación, y el eje Z como la puntuación F1. Por lo tanto, a partir del gráfico de la media armónica, tanto la precisión como la recuperación deberían contribuir de manera uniforme para que la puntuación F1 aumente a diferencia de la media aritmética.

Esto es para la media aritmética.

ingrese la descripción de la imagen aquí

Esto es para la media armónica.

ingrese la descripción de la imagen aquí


Utilice herramientas de formato para editar y formatear correctamente su respuesta. La imagen debe mostrarse aquí, no es un hipervínculo.
Morse

26

La media armónica es el equivalente de la media aritmética para recíprocos de cantidades que deben promediarse mediante la media aritmética. Más precisamente, con la media armónica, transforma todos sus números a la forma "promediable" (tomando el recíproco), toma su media aritmética y luego transforma el resultado de nuevo a la representación original (volviendo a tomar el recíproco).

La precisión y el recuerdo son recíprocos "naturalmente" porque su numerador es el mismo y sus denominadores son diferentes. Las fracciones son más sensibles a promediar por media aritmética cuando tienen el mismo denominador.

Para mayor intuición, suponga que mantenemos constante el número de elementos positivos verdaderos. Luego, al tomar la media armónica de la precisión y la recuperación, implícitamente se toma la media aritmética de los falsos positivos y los falsos negativos. Básicamente significa que los falsos positivos y los falsos negativos son igualmente importantes para usted cuando los verdaderos positivos siguen siendo los mismos. Si un algoritmo tiene N más elementos positivos falsos pero N menos negativos falsos (mientras que tiene los mismos positivos verdaderos), la medida F permanece igual.

En otras palabras, la medida F es adecuada cuando:

  1. Los errores son igualmente malos, ya sean falsos positivos o falsos negativos.
  2. el número de errores se mide en relación con el número de verdaderos positivos
  3. los verdaderos negativos no son interesantes

El punto 1 puede ser cierto o no, existen variantes ponderadas de la medida F que se pueden usar si esta suposición no es cierta. El punto 2 es bastante natural ya que podemos esperar que los resultados escalen si clasificamos más y más puntos. Los números relativos deben permanecer iguales.

El punto 3 es bastante interesante. En muchas aplicaciones, los negativos son el valor predeterminado natural e incluso puede ser difícil o arbitrario especificar lo que realmente cuenta como un verdadero negativo. Por ejemplo, una alarma de incendio tiene un evento negativo verdadero cada segundo, cada nanosegundo, cada vez que pasa un tiempo de Planck, etc. Incluso un trozo de roca tiene estos eventos de detección de incendios negativos verdaderos todo el tiempo.

O en un caso de detección de rostros, la mayoría de las veces " no devuelve correctamente " miles de millones de áreas posibles en la imagen, pero esto no es interesante. Los casos son interesantes cuando no regrese una detección propuesto o cuando debe devolverlo.

Por el contrario, la precisión de la clasificación se preocupa por igual por los verdaderos positivos y los verdaderos negativos y es más adecuada si el número total de muestras (eventos de clasificación) está bien definido y es bastante pequeño.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.