En visión por computadora y detección de objetos, el método de evaluación común es mAP. ¿Qué es y cómo se calcula?
Respuestas:
Las citas son del artículo de Zisserman mencionado anteriormente - 4.2 Evaluación de resultados (página 11) :
Primero, un "criterio de superposición" se define como una intersección sobre unión mayor que 0.5. (por ejemplo, si un cuadro predicho satisface este criterio con respecto a un cuadro de verdad del terreno, se considera una detección). Luego, se hace una coincidencia entre los cuadros GT y los cuadros predichos utilizando este enfoque "codicioso":
Los resultados de las detecciones por un método se asignaron a los objetos de verdad del suelo que satisfacen el criterio de superposición en orden clasificado por el resultado de confianza (decreciente). Múltiples detecciones del mismo objeto en una imagen se consideraron detecciones falsas, por ejemplo, 5 detecciones de un solo objeto contadas como 1 detección correcta y 4 detecciones falsas
Por lo tanto, cada cuadro predicho es Verdadero Positivo o Falso Positivo. Cada cuadro de verdad fundamental es Verdadero Positivo. No hay verdaderos negativos.
Luego, la precisión promedio se calcula promediando los valores de precisión en la curva de recuperación de precisión donde la recuperación está en el rango [0, 0.1, ..., 1] (por ejemplo, promedio de 11 valores de precisión). Para ser más precisos, consideramos una curva PR ligeramente corregida, donde para cada punto de la curva (p, r), si hay un punto de la curva diferente (p ', r') tal que p '> p y r'> = r , reemplazamos p con el máximo p 'de esos puntos.
Lo que todavía no me queda claro es qué se hace con esas cajas GT que nunca se detectan (incluso si la confianza es 0). Esto significa que hay ciertos valores de recuperación que la curva de recuperación de precisión nunca alcanzará, y esto hace que el cálculo de precisión promedio anterior sea indefinido.
Editar:
Respuesta corta: en la región donde la recuperación es inalcanzable, la precisión cae a 0.
Una forma de explicar esto es asumir que cuando el umbral de confianza se acerca a 0, un número infinito de cuadros delimitadores predichos se iluminan en toda la imagen. La precisión luego pasa inmediatamente a 0 (ya que solo hay un número finito de cajas GT) y la recuperación sigue creciendo en esta curva plana hasta que llegamos al 100%.
mAP es la precisión media media.
Su uso es diferente en el campo de la recuperación de información (referencia [1] [2] ) y la configuración de clasificación de clases múltiples (detección de objetos).
Para calcularlo para la Detección de objetos, calcula la precisión promedio para cada clase en sus datos según las predicciones de su modelo. La precisión promedio está relacionada con el área bajo la curva de recuperación de precisión para una clase. Luego, tomar la media de estas precisión promedio de clase individual le da la precisión promedio promedio.
Para calcular la precisión media, consulte [3]
Para la detección, una forma común de determinar si una propuesta de objeto era correcta es Intersection over Union (IoU, IU). Esto toma el conjunto
A
de píxeles de objeto propuestos y el conjunto de píxeles de objeto verdaderosB
y calcula:
Por lo general, IoU> 0.5 significa que fue un éxito, de lo contrario, fue un error. Para cada clase, se puede calcular el
El mAP (precisión media media) es entonces:
Nota: Si uno quiere mejores propuestas, aumenta el IoU de 0.5 a un valor más alto (hasta 1.0 que sería perfecto). Se puede denotar esto con mAP @ p, donde p \ in (0, 1) es el IoU.
mAP@[.5:.95]
significa que el mAP se calcula sobre varios umbrales y luego se vuelve a promediar
Editar: para obtener información más detallada, consulte las métricas de evaluación de COCO
Creo que la parte importante aquí es vincular cómo la detección de objetos puede considerarse lo mismo que los problemas estándar de recuperación de información para los que existe al menos una descripción excelente de precisión promedio .
El resultado de algún algoritmo de detección de objetos es un conjunto de cuadros delimitadores propuestos y, para cada uno, una puntuación de confianza y clasificación (una puntuación por clase). Por ahora ignoremos las puntuaciones de clasificación y usemos la confianza como entrada para una clasificación binaria de umbral . Intuitivamente, la precisión promedio es una agregación de todas las opciones para el valor de umbral / corte. Pero espera; Para calcular la precisión, ¡necesitamos saber si una casilla es correcta!
Aquí es donde se vuelve confuso / difícil; a diferencia de los problemas típicos de recuperación de información, aquí tenemos un nivel adicional de clasificación. Es decir, no podemos hacer una coincidencia exacta entre cuadros, por lo que debemos clasificar si un cuadro delimitador es correcto o no. La solución es esencialmente hacer una clasificación codificada en las dimensiones de la caja; verificamos si se superpone lo suficiente con alguna verdad fundamental para ser considerado "correcto". El umbral de esta parte se elige con sentido común. El conjunto de datos en el que está trabajando probablemente definirá cuál es este umbral para un cuadro delimitador "correcto". La mayoría de los conjuntos de datos simplemente lo establecen en 0.5 IoU y lo dejan así (recomiendo hacer algunos cálculos manuales de IoU [no son difíciles] para tener una idea de cuán estricto es realmente IoU de 0.5).
Ahora que realmente hemos definido lo que significa ser 'correcto', podemos usar el mismo proceso para la recuperación de información.
Para encontrar la precisión promedio promedio (mAP), simplemente estratifique los cuadros propuestos en función del máximo de los puntajes de clasificación asociados con esos cuadros, luego promedie (tome la media) de la precisión promedio (AP) de las clases.
TLDR; hacer la distinción entre determinar si una predicción del cuadro delimitador es 'correcta' (nivel adicional de clasificación) y evaluar qué tan bien la confianza del cuadro le informa de una predicción del cuadro delimitador 'correcta' (completamente análoga al caso de recuperación de información) y las descripciones típicas de mAP tendrá sentido.
Vale la pena señalar que el área bajo la curva Precisión / Recuperación es lo mismo que la precisión promedio , y esencialmente estamos aproximando esta área con la regla trapezoidal o de la mano derecha para aproximar integrales.
Definición: mAP → Media Precisión Media
En la mayoría de los concursos de detección de objetos, hay muchas categorías para detectar, y la evaluación del modelo se realiza en una categoría específica cada vez, el resultado de la evaluación es el AP de esa categoría.
Cuando se evalúa cada categoría, la media de todos los AP se calcula como el resultado final del modelo, que es mAP.
Intersection Over Union (IOU) es una medida basada en el índice Jaccard que evalúa la superposición entre dos cuadros delimitadores. Requiere un cuadro delimitador de verdad del terreno y un cuadro delimitador predicho Al aplicar el IOU podemos saber si una detección es válida (Positivo verdadero) o no (Positivo falso) .IOU viene dado por el área de superposición entre el cuadro delimitador predicho y el terreno cuadro delimitador de verdad dividido por el área de unión entre ellos.