¿Qué distancia métrica puedo usar para comparar imágenes?

Por lo general, uso el error cuadrático medio (MSE) o la relación señal / ruido pico (PSNR) para comparar dos imágenes, pero esto no es lo suficientemente bueno. Necesito encontrar una fórmula que devuelva una gran distancia entre una imagen A y su versión B pixelada (o borrosa), pero no sé cómo proceder. ¿Cuál sería una buena métrica para mis necesidades?

image-processing distance-metrics

— lezebulon
fuente

¿Está diciendo que tendrá 2 imágenes que provienen de la misma fuente, 1 será alterada y luego otra borrosa, y luego desea poder detectar cuál está borrosa?

— Kellenjb

¿Cuál es la naturaleza de la pixelación / desenfoque? ¿Se debe a malas condiciones de captura (ruido de píxeles y desenfoque) o manipulación digital?

— rwong

Lo siguiente no pretende ser una respuesta, pero es una estadística que nos ayudará a elegir una técnica de comparación de imágenes adecuada en función de las características de las imágenes que está analizando.

El primer paso es trazar un "histograma delta" de la siguiente manera:

for (x,y) in [0, width] x [0, height] begin
    delta = abs( SecondImage(x, y) - FirstImage(x, y) )
    hist[delta] += 1
end

Dada una gráfica de este histograma, sabremos un poco más sobre la "magnitud" de los cambios que está buscando y haremos mejores recomendaciones.

(Alternativamente, publique algunas imágenes de muestra. Recuerde que si las imágenes de muestra no son representativas de las diferencias de imagen que le interesan, podríamos hacer recomendaciones inferiores).

También puede probar la similitud estructural (SSIM) en su conjunto de imágenes y publicar sus resultados aquí. Recuerde que SSIM está diseñado para imitar la capacidad del ser humano de reconocer la obstrucción de la degradación de la imagen, por lo que detectaría la pixelación, pero tal vez no se desenfoque.

Si sus imágenes no son imágenes fotográficas (o son imágenes científicas que no son temas ordinarios de fotografía), publique también ejemplos de su autocorrelación 2D, adecuadamente recortadas y escaladas.

El reconocimiento facial es un tema demasiado grande para ser discutido en una sola pregunta. El borrado surge en múltiples contextos en el reconocimiento facial: puede ser un problema de calidad de datos o puede hacerse intencionalmente como un paso intermedio en el procesamiento de datos.

En el reconocimiento de rostros queremos detectar la identidad de los rostros, por lo tanto, debemos ignorar las diferencias de imagen que no son causadas por las diferencias de identidad. La categoría básica de las diferencias que se deben ignorar en el reconocimiento facial son: pose, iluminación y expresión facial.

Un enfoque general para ignorar las diferencias irrelevantes se llama normalización , que intenta aplicar varias operaciones y se transforma en la imagen de entrada para obtener una imagen "canónica" o "preprocesada", que a su vez puede usarse para identificación.

Un segundo enfoque es extraer características de las imágenes que son altamente invariables de los factores irrelevantes.

La calidad de una imagen facial está sujeta al dispositivo de captura y al entorno donde fue capturada. Cuando se captura una imagen de la cara sin la cooperación del sujeto (como la de una cámara de seguridad), la mala calidad de la imagen es una consecuencia inevitable y el software debe corregirla para no obstaculizar la identificación.

En la captura cooperativa, una medida computarizada de la calidad de la imagen es buena: se puede notificar al operador de los problemas de calidad y se puede volver a tomar la imagen.

El desenfoque también puede ser un ejemplo de manipulación maliciosa de la biometría para evadir la detección (junto con la oclusión y el disfraz). Si la imagen está codificada digitalmente, una suma de verificación digital y una firma criptográfica son suficientes para resolver el problema por completo. Si un imitador envía la imagen borrosa en forma física, se puede usar una medida computarizada de la calidad de la imagen facial para rechazar tales presentaciones.

La falta de características localizables en 2D o puntos de interés en una determinada parte de la imagen facial puede ser un signo de desenfoque intencional.

Sin embargo, la amplia categoría de manipulación de imágenes digitales (por un usuario experto de software de edición de imágenes) solo puede tratarse con análisis forense de imágenes digitales que compara las estadísticas de píxeles con los modelos de cámara conocidos.

— rwong
fuente

Ok, miraré tus enlaces. Las imágenes que estoy trabajando son imágenes de la cara, y estoy tratando de encontrar una métrica que me dan buenos resultados cuando 2 imágenes de la cara son similares (borrando las características por lo tanto debe dar una mala puntuación)

— lezebulon

@lezebulon, probablemente desee una métrica de distancia ajustada al contenido, por ejemplo, en.wikipedia.org/wiki/Eigenface

— datageist