Estoy tratando de entender cómo y por qué la transformación de Fourier se usa en el procesamiento de imágenes / visión por computadora. A continuación se muestra lo que he reunido hasta ahora. ¿Sería correcto entenderlo? Si no es así, ¿podría alguien explicármelo en inglés simple y sencillo? O, ¿alguien tiene algo que agregar? Por último, pero no menos importante, ¿podría alguien explicar la "transformada discreta de Fourier"?
La transformada de Fourier descompone una imagen en sus componentes seno y coseno. En pocas palabras, el seno y el coseno son ondas que comienzan en un mínimo y un máximo, respectivamente. En el mundo real, no podemos decir si una ola que observamos comenzó en un punto máximo o mínimo, y por lo tanto, no podemos distinguir realmente entre los dos. Por lo tanto, seno y coseno se conocen simplemente como sinusoides.
Cuando aplicamos el FT a una imagen, lo transformamos de su dominio espacial en un "dominio de frecuencia", que en esencia es la imagen representada en términos de su variación de color y brillo a lo largo del tiempo (bueno, no tiempo, sino espacio). es decir, en varios píxeles).
EDITAR: ¿Por qué usaría la Transformada de Fourier? ¿Y cuáles son sus beneficios sobre otros métodos? Por ejemplo, una aplicación en la literatura es en reconocimiento de forma o eliminación de ruido. En términos básicos, ¿cómo podría uno hacer un reconocimiento de forma usando el FT?