Estoy tratando de "combinar" pequeños parches cuadrados en una imagen. A primera vista, parece razonable simplemente hacer una comparación de estilo de distancia euclidiana de dos de estos conjuntos para obtener una medida de "similitud". Esto funciona bien en muchos casos (el "mejor" parche (valor más bajo) de acuerdo con esta métrica se parece mucho al parche de consulta). Sin embargo, hay muchos casos en los que esto produce una muy mala coincidencia. Por ejemplo, tome estos dos pares de parches:
Dos parches de una pared de ladrillos, puntaje 134 (esta es la suma de los componentes de la diferencia de píxeles absoluta promedio):
Un parche de una pared de ladrillos, un parche de hierba, ¡puntaje 123!
Para un humano, "claramente" la hierba no coincide con el ladrillo, pero esta métrica dice lo contrario. El problema está solo en la variación estadística local.
Si uso algo así como una comparación de histograma, pierdo completamente toda la información espacial, por ejemplo, si un parche es hierba en la parte superior y ladrillo en la parte inferior, coincidiría exactamente con un parche con hierba en la parte inferior y ladrillo en la parte superior (nuevamente , otro partido "obviamente equivocado").
¿Existe una métrica que de alguna manera combine ambas ideas en un valor razonable que se evalúe como "similar" para el Par 1 anterior, pero que no sea similar para mi ejemplo de un parche y su espejo vertical?
Cualquier sugerencia es apreciada!