Precisión de algoritmos de visión por computadora

Digamos que la tarea es determinar la posición del elemento en la imagen. Primero, lo más importante es la detección correcta del objeto, luego se utilizan algunos algoritmos de cálculo de la posición (para un análisis de blobs exacto). Todo depende de múltiples cosas (corrección de detección, algoritmos utilizados, etc.)

Supongamos que tenemos una imagen calibrada y sabemos el error dado por la calibración. ¿Cuáles son los métodos para calcular con precisión la precisión de los algoritmos de visión por computadora (y máquina)? ¿Se puede hacer analíticamente o solo mediante experimentos y pruebas?

La pregunta aborda casos cuando detectamos la posición del elemento y también otros problemas de visión por computadora.

Quiero obtener referencias a problemas relacionados con la visión por computadora / máquina, especialmente la detección de posición de elementos, y presentar algunos cálculos de corrección, ya sea analítica o experimental, para mostrar esta precisión.

También se agradecen sugerencias sobre cómo mejorar esta pregunta.

image-processing computer-vision reference-request

— krzych
fuente

Respuestas:

Por ejemplo, Hartley y Zisserman sugieren usar el preacondicionamiento antes de la estimación de la homografía, porque tomar la matriz directa inversa puede conducir a grandes errores o inestabilidades. Esto se aplica a cualquier método numérico que trabaje con matriz inversa.

Los algoritmos de detección de características a menudo usan una aproximación subpíxel de la ubicación del punto de interés.

La mayoría de los libros que discuten métodos numéricos también se ocupan de su análisis de estabilidad.

A veces necesita hacer algunas estadísticas para analizar la precisión y exactitud de su estimador (ya sea un estimador de mínimos cuadrados o un estimador de máxima verosimilitud). Esto es útil en algoritmos como RANSAC , que tratan con valores atípicos. También le gustaría saber qué tan bien la transformación estimada se ajusta a sus datos y posiblemente descartar resultados que son demasiado inexactos.

Cuando se trabaja con diferenciación finita o se realiza un filtrado, se realiza un ligero desenfoque gaussiano para eliminar el ruido, que de lo contrario causaría grandes errores en las segundas derivadas.

Algunos problemas en la visión por computadora están mal planteados. Es necesario un método de regularización (como la regularización de Tikchonov) para resolverlos. Los ejemplos donde esto es necesario incluyen la computación de difusión anisotrópica.

— Libor
fuente

Esto se aplica cuando hemos detectado algunas características y las combinamos con las características del modelo con estadísticas (y esta coincidencia da un error que podemos calcular). ¿Qué hay de los errores de detección de características informáticas? Por ejemplo, si las características se extraen blobs por umbral?

— krzych

Creo que no se puede calcular el "error de detección" dada solo la imagen. Debe haber algún contexto en el que pueda decir que la función es errónea.

— Libor

Exactamente pero qué contexto. ¿Cómo diseñar algunas pruebas para determinar la corrección de detección de características?

— krzych

Como H&Z señaló en su libro: "Este es un problema de huevo y gallina ..." No podemos decir qué características son "buenas" y cuáles son "malas" sin hacerlas coincidir primero. Hay algunos desarrollos en el diseño de descriptores de características para que coincidan bien con conjuntos de datos más grandes. Dada la medición de la "calidad" de un descriptor, puede discriminar características que probablemente no coincidan.

— Libor

Pero debe haber algún método para evaluar la corrección de todo el sistema. Creo que es muy importante para las aplicaciones de visión artificial, especialmente cuando hablamos de posicionamiento de elementos. Como dije en cuestión, también estoy interesado en algunas formas de probar esta corrección.

— krzych

Esto no responde a toda la pregunta, pero aborda parte de lo que pregunta el OP.

Solo se puede hacer experimentalmente. Hacerlo analíticamente requeriría información sobre lo que el algoritmo debería haber devuelto. Pero para saber eso, necesita un algoritmo de visión por computadora siempre correcto y conocido para comparar (así como descripciones analíticas detalladas de la imagen que se está probando). Las soluciones analíticas requieren el conocimiento de una verdad fundamental que es analítica en lugar de generada a mano caso por caso. Pero no tenemos una forma analítica de generar una verdad básica, eso es lo que estamos tratando de desarrollar.

Dado que solo se puede hacer de forma experimental, es posible que desee consultar Google Académico. Si busca la ubicación de personas, habrá muchos documentos dedicados a localizar a una persona, o partes de una persona, como una cabeza o manos. La ubicación del automóvil también tendrá mucha atención especializada. Otros objetos solo querrán algoritmos genéricos.

— John Robertson
fuente

Algunas referencias podrían mejorar esta respuesta.

— krzych 01 de