Estás en el camino correcto.
F/ 2≤Io U≤ F
yoo U/ F= 1 / 2 + Io U/ 2
Pero hay una declaración más fuerte que se puede hacer para la aplicación típica de la clasificación a la máquina de aprendizaje. Para cualquier "verdad fundamental" fija, las dos métricas siempre están positivamente correlacionadas. Es decir que si el clasificador A es mejor que B bajo una métrica, también es mejor que el clasificador B bajo la otra métrica.
Es tentador concluir que las dos métricas son funcionalmente equivalentes, por lo que la elección entre ellas es arbitraria, ¡pero no tan rápida! El problema surge cuando se toma el puntaje promedio sobre un conjunto de inferencias . Entonces, la diferencia surge al cuantificar cuánto peor es el clasificador B que A para cualquier caso dado.
En general, la métrica IoU tiende a penalizar instancias individuales de mala clasificación más que la puntuación F cuantitativamente, incluso cuando ambos pueden estar de acuerdo en que esta instancia es mala. De manera similar a cómo L2 puede penalizar los errores más grandes más que L1, la métrica de IoU tiende a tener un efecto de "cuadratura" en los errores en relación con el puntaje F. Por lo tanto, la puntuación F tiende a medir algo más cercano al rendimiento promedio, mientras que la puntuación IoU mide algo más cercano al rendimiento en el peor de los casos.
Supongamos, por ejemplo, que la gran mayoría de las inferencias son moderadamente mejores con el clasificador A que B, pero algunas de ellas son significativamente peores con el clasificador A. Puede ser el caso entonces que la métrica F favorece al clasificador A mientras que la métrica IoU favorece clasificador B.
Sin duda, estas dos métricas son mucho más parecidas que diferentes. Pero ambos sufren de otra desventaja desde el punto de vista de tomar promedios de estos puntajes en muchas inferencias: ambos exageran la importancia de los conjuntos con conjuntos positivos de verdad real poco o nada real. En el ejemplo común de segmentación de imágenes, si una imagen solo tiene un solo píxel de alguna clase detectable, y el clasificador detecta ese píxel y otro píxel, su puntaje F es de 2/3 y la IoU es aún peor en 1 / 2) Errores triviales como estos pueden dominar seriamente el puntaje promedio tomado sobre un conjunto de imágenes. En resumen, pondera cada error de píxel de forma inversamente proporcional al tamaño del conjunto seleccionado / relevante en lugar de tratarlos por igual.
do0 0do1