¿Cuál es la diferencia entre detección de objetos, segmentación semántica y localización?

23

He leído esas palabras en muchas publicaciones y me gustaría tener algunas definiciones agradables para esos términos que aclaren cuál es la diferencia entre la detección de objetos frente a la segmentación semántica frente a la localización. Sería bueno si pudiera dar fuentes para sus definiciones.

terminology computer-vision

— Martin Thoma
fuente

1

Vea

— Shatu

18

Leí muchos artículos sobre Detección de objetos, Reconocimiento de objetos, Segmentación de objetos, Segmentación de imágenes y Segmentación de imágenes semánticas y aquí están mis conclusiones que podrían no ser ciertas:

Reconocimiento de objetos: en una imagen determinada, debe detectar todos los objetos (una clase restringida de objetos depende de su conjunto de datos), localizarlos con un cuadro delimitador y etiquetar ese cuadro delimitador con una etiqueta. En la imagen de abajo verá una salida simple de un reconocimiento de objetos de última generación.

reconocimiento de objetos

Detección de objetos: es como el reconocimiento de objetos, pero en esta tarea solo tiene dos clases de clasificación de objetos, lo que significa cuadros delimitadores de objetos y cuadros delimitadores sin objetos. Por ejemplo, detección de automóviles: debe detectar todos los automóviles en una imagen determinada con sus cuadros delimitadores.

Detección de objetos

Segmentación de objetos: al igual que el reconocimiento de objetos, reconocerá todos los objetos en una imagen, pero su salida debe mostrar este objeto clasificando los píxeles de la imagen.

segmentación de objetos

Segmentación de imagen: en la segmentación de imagen segmentará regiones de la imagen. su salida no etiquetará los segmentos y la región de una imagen que deben ser coherentes entre sí en el mismo segmento. Extraer superpíxeles de una imagen es un ejemplo de esta tarea o segmentación de primer plano y fondo.

Segmentación de imagen

Segmentación semántica: en la segmentación semántica, debe etiquetar cada píxel con una clase de objetos (automóvil, persona, perro, ...) y no objetos (agua, cielo, carretera, ...). En otras palabras, en Segmentación semántica, etiquetará cada región de la imagen.

segmentación semántica

— e_soroush
fuente

buena respuesta. Notaré que cs231n.stanford.edu/slides/winter1516_lecture8.pdf slide 8 usa una definición diferente de detección de objetos que detecta múltiples clases y múltiples instancias dentro de la misma clase (no sé si hay una sola definición aceptada o no, así que esto puede deberse solo a la ambigüedad).

— Keith

1

segmentación de instancias, como segmentación semántica, pero hay que etiquetar a las vacas como separadas

— titus

2

Las diapositivas del primer comentario están aquí ahora: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

— Shatu

5

Dado que este problema aún no está del todo claro incluso ahora en 2019, y podría ayudar a los nuevos aprendices de ML a elegir, aquí hay una muy buena imagen que muestra las diferencias:

(la localización es el cuadro delimitador alrededor de la clase "oveja", después de que se haya hecho una clasificación de la imagen) fuente: Towardsdatascience.com

— fogx
fuente

3

Creo que solo "localización" significa "clasificación de objeto único + localización usando un cuadro delimitador 2D o 3D".

"Detección de objetos" es localizar + clasificar todas las instancias de clases de objetos conocidas en cuestión.

La segmentación semántica es básicamente una clasificación por píxel.

También wrt involucraba métricas (fuente: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

La precisión es la relación entre los objetos identificados con precisión y el número total de objetos predichos (relación entre los verdaderos positivos y los verdaderos positivos más los falsos positivos).

La recuperación es la relación entre los objetos identificados con precisión y el número total de objetos reales en las imágenes (relación entre verdaderos positivos y verdaderos positivos más verdaderos negativos).

mAP: un puntaje promedio de precisión promedio simplificado basado en el producto de la precisión y recuperación de DetectNet. Es una buena medida combinada de cuán sensible es la red a los objetos de interés y qué tan bien evita las falsas alarmas.

— Andrei Pokrovsky
fuente

2

El término localización no está claro. Por lo tanto, discutiré los términos detección de objetos y segmentación semántica.

En la detección de objetos, cada píxel de la imagen se clasifica si pertenece a una clase particular (por ejemplo, cara) o no. En la práctica, esto se simplifica al agrupar los píxeles para formar cuadros delimitadores, lo que reduce el problema de decidir si el cuadro delimitador se ajusta perfectamente al objeto. Como los píxeles pueden pertenecer a múltiples objetos (por ejemplo, cara, ojo), pueden contener múltiples etiquetas al mismo tiempo.

Por otro lado, la segmentación semántica implica asignar etiquetas de clase a cada píxel de la imagen. Si bien permiten una mejor precisión de localización ya que no incorporan la simplificación del cuadro delimitador, imponen estrictamente una sola etiqueta por píxel.

— detector de caras
fuente

-2

Segmentación semántica: es la tarea de agrupar partes de imágenes que pertenecen a la misma clase de objeto. por ejemplo: detectar señales de tráfico

— Gan
fuente

2

Pero detectar señales de tráfico es detectar objetos. Puedes explicar la diferencia?

— reinierpost