Procesamiento de imagen y la transformación de Fourier

Estoy tratando de entender cómo y por qué la transformación de Fourier se usa en el procesamiento de imágenes / visión por computadora. A continuación se muestra lo que he reunido hasta ahora. ¿Sería correcto entenderlo? Si no es así, ¿podría alguien explicármelo en inglés simple y sencillo? O, ¿alguien tiene algo que agregar? Por último, pero no menos importante, ¿podría alguien explicar la "transformada discreta de Fourier"?

La transformada de Fourier descompone una imagen en sus componentes seno y coseno. En pocas palabras, el seno y el coseno son ondas que comienzan en un mínimo y un máximo, respectivamente. En el mundo real, no podemos decir si una ola que observamos comenzó en un punto máximo o mínimo, y por lo tanto, no podemos distinguir realmente entre los dos. Por lo tanto, seno y coseno se conocen simplemente como sinusoides.

Cuando aplicamos el FT a una imagen, lo transformamos de su dominio espacial en un "dominio de frecuencia", que en esencia es la imagen representada en términos de su variación de color y brillo a lo largo del tiempo (bueno, no tiempo, sino espacio). es decir, en varios píxeles).

EDITAR: ¿Por qué usaría la Transformada de Fourier? ¿Y cuáles son sus beneficios sobre otros métodos? Por ejemplo, una aplicación en la literatura es en reconocimiento de forma o eliminación de ruido. En términos básicos, ¿cómo podría uno hacer un reconocimiento de forma usando el FT?

image-processing computer-vision

Aquí hay una aplicación del mundo real (aunque un poco anticuada): use la FFT para calcular de manera eficiente la correlación cruzada normalizada entre un patrón y una imagen, utilizada en el seguimiento (o cómo consiguieron que Tom Hanks chatee con LBJ en "Forrest" Gump "): idiom.com/~zilla/Papers/nvisionInterface/nip.html

Mhh, lo siento, ¿podrías explicarlo? No entiendo completamente :)

Usted preguntó: "¿Por qué usaría la Transformada de Fourier?", Le di un ejemplo de palabras reales donde la Transformada rápida de Fourier se usa para acelerar el cálculo de la correlación cruzada normalizada para el seguimiento de características en una secuencia de película. Ese algoritmo se utilizó por primera vez en la producción de "Forrest Gump", lea el documento para más detalles.

Esto podría ser de utilidad para usted.

— Spacey

Realmente, la transformada de Fourier divide una señal en exponenciales complejos, por lo que puede medir la magnitud y la fase en cada punto, pero tal vez esto sea más confuso que útil. : D dsp.stackexchange.com/a/449/29

— endolito

A nivel conceptual, la Transformada de Fourier le dice lo que está sucediendo en la imagen en términos de las frecuencias de esas sinusoides. Por ejemplo, si tiene una imagen de un muro plano, los valores de los píxeles cambian muy poco a medida que avanza de izquierda a derecha o de arriba a abajo. En el dominio de la frecuencia, eso significa que su imagen contiene frecuencias bajas, pero no frecuencias altas.

Por otro lado, si tiene una imagen de una cerca de piquete, los valores de los píxeles cambian todo el tiempo a medida que avanza de izquierda a derecha. Entonces, en el dominio de Fourier, tiene altas frecuencias en la dirección X, pero no en la dirección Y.

Finalmente, si tiene una imagen de un tablero de ajedrez, los valores de los píxeles cambian mucho en ambas direcciones. Por lo tanto, la transformada de Fourier de la imagen tendrá altas frecuencias tanto en X como en Y.

Debido a que la transformación de Fourier le dice lo que está sucediendo en su imagen, a menudo es conveniente describir las operaciones de procesamiento de imágenes en términos de lo que hacen a las frecuencias contenidas en la imagen. Por ejemplo, la eliminación de altas frecuencias difumina la imagen. Eliminar las bajas frecuencias te da aristas. Y mejorar las frecuencias altas mientras se mantienen las frecuencias bajas agudiza la imagen.

FFT se usa ampliamente en el procesamiento de imágenes y la visión por computadora. Por ejemplo, la convolución, una operación fundamental de procesamiento de imágenes, se puede hacer mucho más rápido usando el FFT. El filtro de Wiener, utilizado para la eliminación de imágenes borrosas, se define en términos de la transformada de Fourier. Pero lo más importante, incluso cuando la transformación de Fourier no se usa directamente, proporciona un marco muy útil para razonar sobre las operaciones de procesamiento de imágenes.

Steve Eddins, uno de los autores de "Procesamiento digital de imágenes con MATLAB", tiene toda una serie de publicaciones de blog sobre la transformación de Fourier y cómo se utiliza en el procesamiento de imágenes.

— Dima
fuente