Las respuestas anteriores son realmente geniales, me gustaría señalar algunas adiciones más:
Segmentación de objetos
una de las razones por las que esto ha caído en desgracia en la comunidad investigadora es porque es problemáticamente vago. La segmentación de objetos solía significar simplemente encontrar un número único o pequeño de objetos en una imagen y dibujar un límite alrededor de ellos, y para la mayoría de los propósitos, aún puede asumir que significa esto. Sin embargo, también comenzó a usarse para referirse a la segmentación de manchas que podrían ser objetos, la segmentación de objetos desde el fondo. (más comúnmente ahora llamado sustracción de fondo o segmentación de fondo o detección de primer plano), e incluso en algunos casos se usa indistintamente con el reconocimiento de objetos usando cuadros delimitadores (esto se detuvo rápidamente con el advenimiento de los enfoques de redes neuronales profundas para el reconocimiento de objetos, pero de antemano el reconocimiento de objetos también podría significa simplemente etiquetar una imagen completa con el objeto en ella).
¿Qué hace que la "segmentación" sea "semántica"?
Simpy, a cada segmento, o en el caso de los métodos profundos, a cada píxel se le asigna una etiqueta de clase basada en una categoría. La segmentación en general es solo la división de la imagen por alguna regla. La segmentación por desplazamiento de medios , por ejemplo, desde un nivel muy alto divide los datos según los cambios en la energía de la imagen. Corte de gráficoDe manera similar, la segmentación basada no se aprende, sino que se deriva directamente de las propiedades de cada imagen por separado del resto. Los métodos más recientes (basados en redes neuronales) utilizan píxeles que están etiquetados para aprender a identificar las características locales que están asociadas con clases específicas, y luego clasifican cada píxel según la clase que tiene la mayor confianza para ese píxel. De esta manera, "etiquetado de píxeles" es en realidad un nombre más honesto para la tarea, y el componente de "segmentación" es emergente.
Segmentación de instancias
Podría decirse que el significado más difícil, relevante y original de la segmentación de objetos, "segmentación de instancias" significa la segmentación de los objetos individuales dentro de una escena, independientemente de si son del mismo tipo. Sin embargo, una de las razones por las que esto es tan difícil es porque desde una perspectiva de visión (y de alguna manera filosófica) lo que hace que una instancia de "objeto" no esté del todo claro. ¿Son objetos las partes del cuerpo? ¿Deberían estos "objetos parciales" estar segmentados por un algoritmo de segmentación de instancias? ¿Deberían segmentarse solo si se ven separados del todo? ¿Qué pasa con los objetos compuestos si dos cosas claramente contiguas pero separables deben ser un objeto o dos (una piedra pegada a la parte superior de un palo es un hacha, un martillo o simplemente un palo y una piedra a menos que esté hecha correctamente?). Además, no es t aclare cómo distinguir instancias. ¿Es un testamento una instancia separada de las otras paredes a las que está unido? ¿En qué orden deben contarse las instancias? ¿Como aparecen? ¿Proximidad al mirador? A pesar de estas dificultades, la segmentación de objetos sigue siendo un gran problema porque, como humanos, interactuamos con los objetos todo el tiempo, independientemente de su "etiqueta de clase" (usando objetos aleatorios a tu alrededor como pisapapeles, sentados en cosas que no son sillas), y algunos conjuntos de datos intentan abordar este problema, pero la razón principal por la que aún no se presta mucha atención al problema es porque no está lo suficientemente bien definido.
Análisis de escenas / etiquetado de escenas
Scene Parsing es el enfoque estrictamente de segmentación para etiquetar escenas, que también tiene algunos problemas de vaguedad propios. Históricamente, el etiquetado de escenas significaba dividir toda la "escena" (imagen) en segmentos y darles a todos una etiqueta de clase. Sin embargo, también se usó para significar dar etiquetas de clase a áreas de la imagen sin segmentarlas explícitamente. Con respecto a la segmentación, "segmentación semántica" no implica dividir toda la escena. Para la segmentación semántica, el algoritmo está destinado a segmentar solo los objetos que conoce y será penalizado por su función de pérdida por etiquetar píxeles que no tienen ninguna etiqueta. Por ejemplo, el conjunto de datos MS-COCO es un conjunto de datos para la segmentación semántica donde solo se segmentan algunos objetos.