Algoritmos de visión por computadora (¿cómo es esto posible?)

Recientemente me topé con una compañía que ha creado lo que parece ser una tecnología de visión por computadora que es capaz de detectar el robo en tiendas automáticamente y alertar a sus usuarios.

ENLACE

Ver algunos de los videos y ejemplos proporcionados por la compañía me ha dejado completamente desconcertado y asombrado de cómo pueden haber logrado esta funcionalidad.

Entiendo que nadie aquí podrá decirme exactamente cómo se pudo haber logrado esto, pero alguien lo sabe, y podría señalarme, investigar en este campo o, alternativamente, tal vez proporcionar detalles sobre cómo podría implementarse algo como esto. guía de donde uno podría comenzar?

Comprendí que los algoritmos de visión por computadora estaban a muchos años de ser tan sofisticados. ¿Es realmente posible este tipo de aplicación? ¿Alguien dispuesto a arriesgarse a adivinar cómo lograron esto?

algorithms computer-vision

— Maxim Gershkovich
fuente

Esto no parece tan difícil. Los juegos detectan colisiones todo el tiempo entre objetos; ¿por qué no pudiste detectar colisiones entre una persona y un estante de artículos y luego dar la alarma cuando esa persona caminaba hacia la puerta sin pagar?

— Robert Harvey

Exactamente. Es solo reconocimiento de objetos y detección de colisiones. A menos que lo conecten al escáner, se supera fácilmente moviendo los objetos sobre el escáner, pero un poco por encima. El objeto parece haber chocado con el escáner, pero de hecho no lo hizo.

— Andrew T Finnell

De todos modos, ninguno de los mecanismos de detección descritos en el sitio web (cariño, pérdida de cesta y autopago) requieren algo remotamente tan sofisticado. Verifican en un área muy confinada (el mostrador del cajero) y pueden verificar los artículos que se ven en la canasta contra lo que el escáner de códigos de barras dice que en realidad se escaneó.

— Robert Harvey

Lo siento, estoy confundido. Tomemos el ejemplo sudoroso. Tengo dos artículos, uno de bajo costo, uno de alto. Puse el artículo de bajo costo debajo del de alto costo y escaneo. En ese momento, podemos comparar lo que se escaneó en el sistema POS con lo que es visible en la cámara en la mano del cajero, pero eso requiere que el sistema sea capaz de "comprender lo que se pone en la bolsa" frente a cientos de miles de posibles artículos a través de una cámara de calidad marginal. Esto parece extremadamente complicado. ¿Qué me estoy perdiendo?

— Maxim Gershkovich

Creo que estás asumiendo demasiado sobre qué tan bien funciona esto. Apuesto a que hay una tasa de error decente, y es muy fácil jugar con el sistema. Veo esto como más un sistema de denuncia de irregularidades, donde solo identifica lugares potenciales en el video que necesitan revisión humana. Como tal, la imprecisión es bien tolerada.

— Chris

Estás mal informado sobre el estado del arte. Hace varios años trabajé para una compañía que construyó tales sistemas para una variedad de propósitos. Uno de ellos era un sistema de control de salida de aeropuerto extremadamente exitoso, que podía distinguir fácilmente la diferencia entre una persona que caminaba por el pasillo de salida equivocada y cosas como pelotas en movimiento o personas que se dirigían en la dirección correcta. Reconocer objetos en una escena en tiempo real no es fácil, pero lo estábamos haciendo en CPU integradas, no en supercomputadoras.

No vi nada allí que no fuera creíble hace unos años.

— Ross Patterson
fuente

En realidad, esta empresa utiliza un híbrido de visión por computadora y revisión manual en India. No es pura visión por computadora, especialmente para elementos como el amor. De hecho, conozco a un minorista que tiene un gran problema con este sistema no debido al rendimiento del sistema que almaceno, sino al video de envío de ancho de banda a la India. Esta codificación manual es cómo reducen los errores y es una investigación técnica típica con algunos proveedores ahora.

— Mike MacMillan
fuente