¿Cómo evaluar la similitud de dos histogramas?

33

Dados dos histogramas, ¿cómo evaluamos si son similares o no?

¿Es suficiente simplemente mirar los dos histogramas? El mapeo simple uno a uno tiene el problema de que si un histograma es ligeramente diferente y ligeramente cambiado, no obtendremos el resultado deseado.

¿Alguna sugerencia?

histogram image-processing

— Mew 3.4
fuente

2

¿Qué significa "similar"? La prueba de chi cuadrado y la prueba de KS, por ejemplo, prueban si dos histogramas son casi idénticos. Pero "similar" podría significar "tener la misma forma", ignorando cualquier diferencia de ubicación y / o escala. ¿Podrías aclarar tu intención?

— whuber

8

Un artículo reciente que puede valer la pena leer es:

Cao, Y. Petzold, L. Limitaciones de precisión y medición de errores en la simulación estocástica de sistemas de reacción química, 2006.

Aunque el objetivo de este trabajo es comparar algoritmos de simulación estocástica, esencialmente la idea principal es cómo comparar dos histogramas.

Puede acceder al pdf desde la página web del autor.

— csgillespie
fuente

Hola, su papel agradable, gracias por dar pdf link .. Yo seguramente va a ir a través de este trabajo ..

— Mew 3.4

12

En lugar de proporcionar una referencia, sería bueno si resumiera los puntos principales del documento. Los enlaces mueren, por lo que en el futuro su respuesta podría ser inútil para los no suscriptores de esta revista (y la gran mayoría de la población humana son los no suscriptores).

— Tim

28

Hay muchas medidas de distancia entre dos histogramas. Puede leer una buena categorización de estas medidas en:

K. Meshgi y S. Ishii, "Ampliando el histograma de colores con cuadrícula para mejorar la precisión de seguimiento", en Proc. de MVA'15, Tokio, Japón, mayo de 2015.

Las funciones de distancia más populares se enumeran aquí para su conveniencia:

$L_0$ 　o Distancia Hellinger

$D_{L0} = \sum\limits_{i} h_1(i) \neq h_2(i)$

$L_1$ , Manhattan o distancia de la cuadra de la ciudad

$D_{L1} = \sum_{i}\lvert h_1(i) - h_2(i) \rvert$

$L=2$ o distancia euclidiana

$D_{L2} = \sqrt{\sum_{i}\left( h_1(i) - h_2(i) \right) ^2 }$

L o Chybyshev Distancia $_{\infty}$

$D_{L\infty} = max_{i}\lvert h_1(i) - h_2(i) \rvert$

L o Distancia fraccional (parte de la familia de distancia Minkowski) $_p$

$D_{Lp} = \left(\sum\limits_{i}\lvert h_1(i) - h_2(i) \rvert ^p \right)^{1/p}$ y $0<p<1$

Intersección de histograma

$D_{\cap} = 1 - \frac{\sum_{i} \left(min(h_1(i),h_2(i) \right)}{min\left(\vert h_1(i)\vert,\vert h_2(i) \vert \right)}$

Distancia cosenoidal

$D_{CO} = 1 - \sum_i h_1(i)h2_(i)$

Distancia Canberra

$D_{CB} = \sum_i \frac{\lvert h_1(i)-h_2(i) \rvert}{min\left( \lvert h_1(i)\rvert,\lvert h_2(i)\rvert \right)}$

Coeficiente de correlación de Pearson

$D_{CR} = \frac{\sum_i \left(h_1(i)- \frac{1}{n} \right)\left(h_2(i)- \frac{1}{n} \right)}{\sqrt{\sum_i \left(h_1(i)- \frac{1}{n} \right)^2\sum_i \left(h_2(i)- \frac{1}{n} \right)^2}}$

Divergancia Kolmogorov-Smirnov

$D_{KS} = max_{i}\lvert h_1(i) - h_2(i) \rvert$

Distancia de partido

$D_{MA} = \sum\limits_{i}\lvert h_1(i) - h_2(i) \rvert$

Cramer-von Mises Distancia

$D_{CM} = \sum\limits_{i}\left( h_1(i) - h_2(i) \right)^2$

$\chi^2$ Estadísticas

$D_{\chi^2} = \sum_i \frac{\left(h_1(i) - h_2(i)\right)^2}{h_1(i) + h_2(i)}$

Bhattacharyya Distancia

$D_{BH} = \sqrt{1-\sum_i \sqrt{h_1(i)h_2(i)}}$ y hellinger

Acorde Cuadrado

$D_{SC} = \sum_i\left(\sqrt{h_1(i)}-\sqrt{h_2(i)}\right)^2$

Divergancia Kullback-Liebler

$D_{KL} = \sum_i h_1(i)log\frac{h_1(i)}{m(i)}$

Divergencia de Jefferey

$D_{JD} = \sum_i \left(h_1(i)log\frac{h_1(i)}{m(i)}+h_2(i)log\frac{h_2(i)}{m(i)}\right)$

Distancia del transportador de tierra (este es el primer miembro de las distancias de transporte que integran la información de agrupación $A$ en la distancia, para obtener más información, consulte el documento mencionado anteriormente o la entrada de Wikipedia .

$D_{EM} = \frac{min_{f_{ij}}\sum_{i,j}f_{ij}A_{ij}}{sum_{i,j}f_{ij}}$ $\sum_j f_{ij} \leq h_1(i) , \sum_j f_{ij} \leq h_2(j) , \sum_{i,j} f_{ij} = min\left( \sum_i h_1(i) \sum_j h_2(j) \right)$ y $f_{ij}$ representa el flujo de $i$ a $j$

Distancia cuadrática

$D_{QU} = \sqrt{\sum_{i,j} A_{ij}\left(h_1(i) - h_2(j)\right)^2}$

Distancia cuadrática de chi

$D_{QC} = \sqrt{\sum_{i,j} A_{ij}\left(\frac{h_1(i) - h_2(i)}{\left(\sum_c A_{ci}\left(h_1(c)+h_2(c)\right)\right)^m}\right)\left(\frac{h_1(j) - h_2(j)}{\left(\sum_c A_{cj}\left(h_1(c)+h_2(c)\right)\right)^m}\right)}$ $\frac{0}{0} \equiv 0$

Una implementación de Matlab de algunas de estas distancias está disponible en mi repositorio de GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance. También puede buscar personas como Yossi Rubner, Ofir Pele, Marco Cuturi y Haibin Ling más distancias de vanguardia.

Actualización: la explicación alternativa de las distancias aparece aquí y allá en la literatura, así que las enumero aquí por razones de integridad.

Distancia Canberra (otra versión)

$D_{CB}=\sum_i \frac{|h_1(i)-h_2(i)|}{|h_1(i)|+|h_2(i)|}$

$D_{L0}$

$D_{BC} = 1 - \frac{2 \sum_i h_1(i) = h_2(i)}{\sum_i h_1(i) + \sum_i h_2(i)}$

Distancia Jaccard (es decir, intersección sobre unión, otra versión)

$D_{IOU} = 1 - \frac{\sum_i min(h_1(i),h_2(i))}{\sum_i max(h_1(i),h_2(i))}$

— Kourosh Meshgi
fuente

¡Bienvenido a nuestro sitio! Gracias por este aporte.

— whuber

Aquí está el enlace de papel: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf

— Neves

Gracias, una lista es maravillosa, aunque no permite crear un operador de comparación para el histograma, por ejemplo, decir esohist1 < hist2

— Olha Pavliuk

22

La respuesta estándar a esta pregunta es la prueba de ji cuadrado . La prueba KS es para datos no enlazados, no para datos agrupados. (Si tiene los datos no enlazados, entonces utilice una prueba de estilo KS, pero si solo tiene el histograma, la prueba KS no es apropiada).

— David Wright
fuente

Tiene razón en que la prueba KS no es apropiada para histogramas cuando se entiende como una prueba de hipótesis sobre la distribución de los datos subyacentes, pero no veo ninguna razón por la cual la estadística KS no funcionaría bien como una medida de igualdad de dos histogramas

— whuber

Sería útil una explicación de por qué la prueba de Kolmogorov-Smirnov no es apropiada con datos agrupados.

— naught101

Esto puede no ser tan útil en el procesamiento de imágenes como en la evaluación estadística de ajuste. A menudo, en el procesamiento de imágenes, se usa un histograma de datos como descriptor para una región de una imagen, y el objetivo es que la distancia entre histogramas refleje la distancia entre parches de imagen. Es posible que se conozca poco, o posiblemente nada en absoluto, sobre las estadísticas generales de población de los datos de imagen subyacentes utilizados para obtener el histograma. Por ejemplo, las estadísticas de población subyacentes cuando se usan histogramas de gradientes orientados diferirían considerablemente en función del contenido real de las imágenes.

— ely

1

Stochtastic respondió a la pregunta de naught101: stats.stackexchange.com/a/108523/37373

— Lapis

10

Estás buscando la prueba de Kolmogorov-Smirnov . No olvide dividir las alturas de las barras por la suma de todas las observaciones de cada histograma.

Tenga en cuenta que la prueba KS también informa una diferencia si, por ejemplo, las medias de las distribuciones se desplazan entre sí. Si la traducción del histograma a lo largo del eje x no tiene sentido en su aplicación, es posible que primero desee restar la media de cada histograma.

— Jonas
fuente

1

Restar la media cambia la distribución nula de la estadística KS. @David Wright plantea una objeción válida a la aplicación de la prueba KS a los histogramas de todos modos.

— whuber

7

Como señala la respuesta de David, la prueba de ji cuadrado es necesaria para los datos agrupados, ya que la prueba KS supone distribuciones continuas. Con respecto a por qué la prueba KS es inapropiada (comentario de naught101), ha habido una discusión sobre el tema en la literatura de estadística aplicada que vale la pena plantear aquí.

P (x) = \frac{1}{9}, (0 \leq x \leq 9)

$P(x) = \frac{1}{9},\ (0 \leq x \leq 9)$

P (x) = \frac{1}{10} \sum_{j = 0}^{9} δ (x - j)

$P(x) = \frac{1}{10}\sum_{j=0}^9 \delta(x-j)$

— Estocástico
fuente

-1

Puede calcular la correlación cruzada (convolución) entre ambos histogramas. Eso tendrá en cuenta ligeras traducciones.

— Juan Manuel Tonello
fuente

1

Esto se marca automáticamente como de baja calidad, probablemente porque es muy corto. En la actualidad es más un comentario que una respuesta según nuestros estándares. ¿Puedes ampliarlo? También podemos convertirlo en un comentario.

— gung - Restablece a Monica

Dado que los histogramas son representaciones de datos bastante inestables , y también porque no representan probabilidades usando solo la altura (usan el área ), uno podría cuestionar razonablemente la aplicabilidad, generalidad o utilidad de este enfoque a menos que se proporcione una guía más específica.

— whuber