El significado de esa fórmula es realmente bastante simple. Imagine que toma dos áreas pequeñas del mismo tamaño de una imagen, la azul y la roja:
La función de ventana es igual a 0 fuera del rectángulo rojo (por simplicidad, podemos suponer que la ventana es simplemente constante dentro del rectángulo rojo). Por lo tanto, la función de ventana selecciona los píxeles que desea ver y asigna pesos relativos a cada píxel. (La más común es la ventana gaussiana, porque es rotacionalmente simétrica, eficiente para calcular y enfatiza los píxeles cerca del centro de la ventana). El rectángulo azul se desplaza por (u, v).
Luego calcula la suma de la diferencia al cuadrado entre las partes de la imagen marcadas en rojo y azul, es decir, las resta píxel por píxel, cuadra la diferencia y suma el resultado (suponiendo, por simplicidad, que la ventana = 1 en el área que estamos buscando a). Esto le da un número por cada posible (u, v) -> E (u, v).
Veamos qué sucede si calculamos eso para diferentes valores de u / v:
Primero mantenga v = 0:
Esto no debería sorprendernos: la diferencia entre las partes de la imagen es menor cuando el desplazamiento (u, v) entre ellas es 0. A medida que aumenta la distancia entre los dos parches, la suma de las diferencias al cuadrado también aumenta.
Manteniendo u = 0:
El diagrama se ve similar, pero la suma de las diferencias al cuadrado entre las dos partes de la imagen es mucho más pequeña cuando desplaza el rectángulo azul en la dirección del borde.
Una trama completa de E (u, v) se ve así:
La trama se parece un poco a un "cañón": solo hay una pequeña diferencia si cambia la imagen en la dirección del cañón. Esto se debe a que este parche de imagen tiene una orientación dominante (vertical).
Podemos hacer lo mismo para un parche de imagen diferente:
Aquí, la gráfica de E (u, v) se ve diferente:
No importa en qué forma cambie el parche, siempre se ve diferente.
Entonces, la forma de la función E (u, v) nos dice algo sobre el parche de imagen
- si E (u, v) está cerca de 0 en todas partes, no hay textura en el parche de imagen que está viendo
- Si E (u, v) tiene "forma de cañón", el parche tiene una orientación dominante (esto podría ser un borde o una textura)
- si E (u, v) tiene "forma de cono", el parche tiene textura, pero no tiene orientación dominante. Ese es el tipo de parche que busca un detector de esquinas.
Muchas referencias dicen que es la magnitud por la cual la ventana 'w' cambió ... entonces, ¿cuánto cambia la ventana? Un píxel ... dos píxeles?
Normalmente, no calculas E (u, v) en absoluto. Solo le interesa la forma en el vecindario de (u, v) = (0,0). Entonces, solo desea la expansión Taylor de E (u, v) cerca de (0,0), que describe completamente la "forma" de la misma.
¿La suma sobre las posiciones de píxeles está cubierta por la ventana?
Matemáticamente hablando, es más elegante dejar que la suma se extienda sobre todos los píxeles. Prácticamente hablando, no tiene sentido sumar píxeles donde la ventana es 0.