Explicación de la función de pérdida de Yolo

16

Estoy tratando de entender la función de pérdida Yolo v2:

\begin{aligned} λ_{C o o r re} \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{o si j} [(X_{yo} - {\hat{X}}_{yo})^{2} + (y_{yo} - {\hat{y}}_{yo})^{2}] \\ + λ_{C o o r re} \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{o si j} [(\sqrt{w_{yo}} - \sqrt{{\hat{w}}_{yo}})^{2} + (\sqrt{h_{yo}} - \sqrt{{\hat{h}}_{yo}})^{2}] \\ + \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{o si j} (C_{yo} - {\hat{C}}_{yo})^{2} + λ_{norte o o si j} \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{norte o o si j} (C_{yo} - {\hat{C}}_{yo})^{2} \\ + \sum_{yo = 0 0}^{S^{2}} 1_{yo}^{o si j} \sum_{C \in C l un s s mi s} ({pag}_{yo} (C) - {\hat{pag}}_{yo} (C))^{2} \end{aligned}

$\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align}$

Si alguna persona puede detallar la función.

— Kamel BOUYACOUB
fuente

55

nadie puede ayudarte sin contexto ... al menos dinos de qué papel es esto.

— bdeonovic

1

"No entiendo" y "detallar la función" son demasiado amplios. Intenta identificar preguntas particulares. Tenga en cuenta que hay numerosas cuestiones relativas a Yolo ya , algunos de los cuales le puede proporcionar al menos parte de lo que busca

— Glen_b -Reinstate Monica

1

Añadiría mi respuesta si señalara lo que no está claro en esta excelente explicación: medium.com/@jonathan_hui/…

— Aksakal

1

En este blog aquí hay una explicación gráfica detallada de yolo y yolov2. Responde la pregunta sobre la función de pérdida. Es muy útil para principiantes y usuarios más avanzados.

— MBoaretto

18

Explicación de los diferentes términos:

Las constantes 3 son solo constantes para tener en cuenta más un aspecto de la función de pérdida. En el artículo es la más alta con el fin de tener la mayor importancia en el primer mandato $\lambda$ $\lambda_{coord}$
La predicción de YOLO es un vector : predicciones bbox para cada celda de cuadrícula y predicción de clase para cada celda de cuadrícula (donde es el número de clases). Las 5 salidas de bbox de la caja j de la celda i son coordenadas del centro tte de la bbox , altura , ancho y un índice de confianza $S*S*(B*5+C)$ $B$ $C$ $C$ $x_{ij}$ $y_{ij}$ $h_{ij}$ $w_{ij}$ $C_{ij}$
Me imagino que los valores con sombrero son los reales leídos de la etiqueta y los que no tienen sombrero son los predichos. Entonces, ¿cuál es el valor real de la etiqueta para la puntuación de confianza para cada Bbox ? Es la intersección sobre la unión del cuadro delimitador predicho con el de la etiqueta. $\hat{C}_{ij}$
escuando hay un objeto en la celdayen otra parte $\mathbb{1}_{i}^{obj}$ $1$ $i$ $0$
"denota que elésimo predictor del cuadro delimitador en la celdaes responsable de esa predicción". En otras palabras, es igual asi hay un objeto en la celday la confianza de lospredictoresde esta celda es la más alta entre todos los predictores de esta celda. es casi lo mismo, excepto que valora 1 cuando NO hay objetos en la celda $\mathbb{1}_{ij}^{obj}$ $j$ $i$ $1$ $i$ $j$ $\mathbb{1}_{ij}^{noobj}$ $i$

Tenga en cuenta que utilicé dos índices y para cada predicción de bbox, este no es el caso en el artículo porque siempre hay un factor o por lo que no hay una interpretación ambigua: la elegida es la que corresponde al puntaje de confianza más alto en esa celda. $i$ $j$ $\mathbb{1}_{ij}^{obj}$ $\mathbb{1}_{ij}^{noobj}$ $j$

Explicación más general de cada término de la suma:

este término penaliza la mala localización del centro de las células
este término penaliza el cuadro delimitador con una altura y ancho imprecisos. La raíz cuadrada está presente de modo que los errores en los cuadros delimitadores pequeños son más penalizadores que los errores en los cuadros delimitadores grandes.
este término intenta hacer que el puntaje de confianza sea igual al IOU entre el objeto y la predicción cuando hay un objeto
Intenta hacer un puntaje de confianza cercano a cuando no hay ningún objeto en la celda $0$
Esta es una pérdida de clasificación simple (no explicada en el artículo)

— usuario7573566
fuente

1

¿Se supone que es el segundo punto B*(5+C)? Al menos ese es el caso de YOLO v3.

— sachinruk

@sachinruk esto refleja cambios en el modelo entre el YOLO original y sus versiones v2 y v3.

— David Refaeli

12

\begin{aligned} λ_{C o o r re} \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{o si j} [(X_{yo} - {\hat{X}}_{yo})^{2} + (y_{yo} - {\hat{y}}_{yo})^{2}] \\ + λ_{C o o r re} \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{o si j} [(\sqrt{w_{yo}} - \sqrt{{\hat{w}}_{yo}})^{2} + (\sqrt{h_{yo}} - \sqrt{{\hat{h}}_{yo}})^{2}] \\ + \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{o si j} (C_{yo} - {\hat{C}}_{yo})^{2} + λ_{norte o o si j} \sum_{yo = 0 0}^{S^{2}} \sum_{j = 0 0}^{si} 1_{yo j}^{norte o o si j} (C_{yo} - {\hat{C}}_{yo})^{2} \\ + \sum_{yo = 0 0}^{S^{2}} 1_{yo}^{o si j} \sum_{C \in C l un s s mi s} ({pag}_{yo} (C) - {\hat{pag}}_{yo} (C))^{2} \end{aligned}

$\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align}$

¿La función de pérdida YOLOv2 no da miedo? En realidad no lo es! Es una de las funciones de pérdida más audaces e inteligentes.

Primero veamos lo que la red realmente predice.

Si resumimos, YOLOv2 predice las detecciones en un mapa de características de 13x13, por lo que en total, tenemos 169 mapas / celdas.

Tenemos 5 cajas de anclaje. Para cada cuadro de anclaje que necesitamos Score objetualidad-confianza (si se ha encontrado ningún objeto?), 4 coordenadas ( $t_x, t_y, t_w,$ y $t_h$ ) para la caja de anclaje, y 20 clases principales. Esto se puede ver como 20 coordenadas, 5 puntajes de confianza y 100 probabilidades de clase para las 5 predicciones de cuadro de anclaje juntas.

Tenemos algunas cosas de las que preocuparse:

$x_i, y_i$ , que es la ubicación del centroide de la caja de anclaje
$w_i, h_i$ , que es el ancho y la altura de la caja de anclaje
$C_i$ , que es laObjetividad, es decir, la puntuación de confianza de si hay un objeto o no, y
$p_i(c)$ , que es la pérdida de clasificación.
No solo necesitamos entrenar a la red para detectar un objeto si hay un objeto en una celda, también necesitamos castigar la red, si predice un objeto en una celda, cuando no había ninguno. Cómo hacemos esto? Usamos una máscara ( $𝟙_{i}^{obj}$ y $𝟙_{i}^{noobj}$ ) para cada celda. Si originalmente había un objeto $𝟙_{i}^{obj}$ es 1 y otras celdas sin objeto son 0. $𝟙_{i}^{noobj}$ es simplemente inverso de $𝟙_{i}^{obj}$ , donde es 1 si no había ningún objeto en la celda y 0 si lo había.
Necesitamos hacer esto para las 169 celdas, y
Necesitamos hacer esto 5 veces (para cada caja de anclaje).

Todas las pérdidas son errores de media cuadrática , excepto la pérdida de clasificación, que utiliza la función de entropía cruzada .

Ahora, rompamos el código en la imagen.

Necesitamos calcular las pérdidas para cada caja de anclaje (5 en total)
- $\sum_{j=0}^B$ representa esta parte, donde B = 4 (5 - 1, ya que el índice comienza desde 0)
Necesitamos hacer esto para cada una de las celdas 13x13 donde S = 12 (ya que comenzamos el índice desde 0)
- $\sum_{i=0}^{S^2}$ representa esta parte.
$𝟙_{ij}^{obj}$ es 1 cuando hay un objeto en la celda $i$ , de lo contrario 0.
$𝟙_{ij}^{noobj}$ es 1 cuando no hay ningún objeto en la celda $i$ , de lo contrario 0.
$𝟙_{i}^{obj}$ es 1 cuando se predice una clase particular, de lo contrario 0.
Las λ son constantes. λ es más alto para las coordenadas con el fin de enfocarse más en la detección (recuerde, en YOLOv2, primero lo entrenamos para el reconocimiento y luego para la detección, penalizar mucho por el reconocimiento es una pérdida de tiempo, ¡en lugar de enfocarnos en obtener los mejores cuadros delimitadores!)
También podemos notar que $w_i, h_i$ están bajo raíz cuadrada. Esto se hace para penalizar los cuadros delimitadores más pequeños, ya que necesitamos una mejor predicción en objetos más pequeños que en objetos más grandes (llamada del autor). Consulte la tabla a continuación y observe cómo se castigan más los valores más pequeños si seguimos el método de "raíz cuadrada" (observe el punto de inflexión cuando tenemos 0.3 y 0.2 como valores de entrada) (PS: he mantenido la relación de var1 y var2 igual solo para explicación):

var1 | var2 | (var1 - var2) ^ 2 | (sqrtvar1 - sqrtvar2) ^ 2

0,0300 | 0,020 | 9,99e-05 | 0.001

0,0330 | 0,022 | 0,00012 | 0.0011

0,0693 | 0,046 | 0,000533 | 0.00233

0,2148 | 0,143 | 0,00512 | 0.00723

0,3030 | 0,202 | 0,01 | 0,01

0,8808 | 0,587 | 0,0862 | 0,0296

4,4920 | 2,994 | 2,2421 | 0,1512

No es tan aterrador, ¿verdad?

Lea AQUÍ para más detalles.

— RShravan
fuente

1

¿Deberían i y j en \ sum comenzar desde 1 en lugar de 0?

— webbertiger

1

Sí, eso es correcto webertiger, he actualizado la respuesta en consecuencia. ¡Gracias!

— RShravan

1_{i j}^{o b j}

$\mathbb{1}_{ij}^{obj}$

1

S^{2} - 1

$S^2 -1$

3

@RShravan, usted dice: "Todas las pérdidas son errores de media cuadrática, excepto la pérdida de clasificación, que utiliza la función de entropía cruzada". ¿Podrías explicar? En esta ecuación, también se ve como MSE. Gracias de antemano

— Julian

3

Su función de pérdida es para YOLO v1 y no para YOLO v2. También estaba confundido con la diferencia en las dos funciones de pérdida y parece que muchas personas lo están: https://groups.google.com/forum/#!topic/darknet/TJ4dN9R4iJk

El documento de YOLOv2 explica la diferencia en arquitectura de YOLOv1 de la siguiente manera:

Eliminamos las capas completamente conectadas de YOLO (v1) y usamos cuadros de anclaje para predecir cuadros delimitadores ... Cuando nos movemos a cuadros de anclaje, también desacoplamos el mecanismo de predicción de clase de la ubicación espacial y, en su lugar, predecimos clase y objetividad para cada cuadro de anclaje.

$p_i(c)$ $i$ $c$ $j$

Intento adivinar la función de pérdida de YOLOv2 y discutirlo aquí: https://fairyonice.github.io/Part_4_Object_Detection_with_Yolo_using_VOC_2012_data_loss.html

— HadaOnIce
fuente

1

Aquí está mi nota de estudio

Función de pérdida: error de suma cuadrada

$λ_{C o o r re} = 5 5$ $\lambda_{coord} = 5$ $\lambda_{noobj}$
Solo un cuadro delimitador debe ser responsable de cada objeto. Asignamos un predictor para que sea responsable de predecir un objeto en función del cual la predicción tiene el IOU actual más alto con la verdad fundamental.

a. Pérdida de la coordenada del cuadro delimitador (x, y) Tenga en cuenta que la pérdida proviene de un cuadro delimitador de una celda de la cuadrícula. Incluso si obj no está en la celda de la cuadrícula como verdad fundamental.

{\begin{cases} λ_{C o o r re} \sum_{yo = 0 0}^{S^{2}} [(X_{yo} - {\hat{X}}_{yo})^{2} + (y_{yo} - \hat{y_{yo}})^{2}] & cuadro delimitador responsable \\ 0 0 & otro \end{cases}

$\begin{cases} \lambda_{coord} \sum^{S^2}_{i=0} [(x_i - \hat{x}_i)^2 + (y_i - \hat{y_i})^2] &\text{responsible bounding box} \\ 0 &\text{ other} \\ \end {cases}$

si. Pérdida de ancho w y altura h. Tenga en cuenta que la pérdida proviene de un cuadro delimitador de una celda de la cuadrícula, incluso si el objeto no está en la celda de la cuadrícula como verdad fundamental.

{\begin{cases} λ_{C o o r re} \sum_{yo = 0 0}^{S^{2}} [(\sqrt{w_{yo}} - \sqrt{{\hat{w}}_{yo}})^{2} + (\sqrt{h_{yo}} - \sqrt{{\hat{h}}_{yo}})^{2}] & cuadro delimitador responsable \\ 0 0 & otro \end{cases}

$\begin {cases} \lambda_{coord} \sum^{S^2}_{i=0} [(\sqrt{w_i} - \sqrt{\hat{w}_i})^2 + (\sqrt{h_i} - \sqrt{\hat{h}_i})^2] &\text{responsible bounding box} \\ 0 &\text{ other} \\ \end {cases}$

C. Pérdida de la confianza en cada cuadro encuadernado. No es que la pérdida provenga de un cuadro delimitador de una celda de la cuadrícula, incluso si el objeto no está en la celda de la cuadrícula como verdad fundamental.

{\begin{cases} \sum_{yo = 0 0}^{S^{2}} (C_{yo} - {\hat{C}}_{yo})^{2} & obj en celda de cuadrícula y cuadro delimitador responsable \\ λ_{norte o o si j} \sum_{yo = 0 0}^{S^{2}} (C_{yo} - {\hat{C}}_{yo})^{2} & obj no en celda de cuadrícula y cuadro delimitador responsable \\ 0 0 & otro \end{cases}

$\begin {cases} \sum^{S^2}_{i=0}(C_i - \hat{C}_i)^2 &\text{obj in grid cell and responsible bounding box} \\ \lambda_{noobj} \sum^{S^2}_{i=0}(C_i - \hat{C}_i)^2 &\text{obj not in grid cell and responsible bounding box} \\ 0 &\text{other} \end {cases}$

{\begin{cases} \sum_{yo = 0 0}^{S^{2}} \sum_{C \in C l un s s mi s} ({pag}_{yo} (C) - {\hat{pag}}_{yo} (C))^{2} & obj en celda de cuadrícula \\ 0 0 & otro \end{cases}

$\begin {cases} \sum^{S^2}_{i=0} \sum_{c \in classes} (p_i(c) - \hat{p}_i(c))^2 &\text{obj in grid cell}\\ 0 &\text{other} \\ \end {cases}$

La función de pérdida solo penaliza la clasificación si obj está presente en la celda de la cuadrícula. También penaliza la coordenada del cuadro delimitador si ese cuadro es responsable del cuadro de tierra (mayor IOU)

— Roy
fuente

Pregunta sobre 'C', en el documento, la confianza es el valor de objeto o no objeto emitido multiplicado por el pagaré; ¿Es solo para el tiempo de prueba o también se usa para la función de costo de capacitación? Pensé que solo restamos el valor C de la salida y la etiqueta (al igual que lo hicimos con los valores de la cuadrícula), pero ¿eso es incorrecto?

— moondra

0

La fórmula de pérdida que escribió es la pérdida de papel original de YOLO , no la pérdida v2 o v3.

Hay algunas diferencias importantes entre las versiones. Sugiero leer los documentos o verificar las implementaciones del código. Artículos: v2 , v3 .

Algunas diferencias importantes que noté:

La probabilidad de clase se calcula por cuadro delimitador (por lo tanto, la salida ahora es S ∗ S ∗ B * (5 + C) en lugar de S S (B * 5 + C))
Las coordenadas del cuadro delimitador ahora tienen una representación diferente
En v3 usan 3 cajas en 3 "escalas" diferentes

Puede intentar entrar en los detalles esenciales de la pérdida, ya sea mirando la implementación de python / keras v2 , v3 (busque la función yolo_loss) o directamente en la implementación de c v3 (busque delta_yolo_box y delta_yolo_class).

— David Refaeli
fuente