Hay varias ideas clave que necesita para comprender cómo DFT le permite cambiar una imagen.
Primero, el teorio de Fourier: probablemente sea más fácil mirar primero el caso continuo (es decir, analógico). Imagine que tiene alguna función, llámela g (t). Para simplificar, digamos que g (t) es una grabación de audio analógica, por lo que es una función unidimensional, que es continua y representa la presión instantánea en función del tiempo.
Ahora, g (t) es una forma de representar nuestra grabación de audio. Otro es G (f). G (f) es la transformada de Fourier de g (t). Entonces, G (f) == FT (g (t)). G (f) tiene la misma información que g (t), pero representa esa información en el dominio de la frecuencia en lugar del dominio del tiempo. Hay algunos detalles quisquillosos sobre las transformadas de Fourier, que no mencionaré.
Puede pensar en G (f) como la "distribución de frecuencias" contenida en g (t). Entonces, si g (t) es una onda sinusoidal (es decir, un tono puro), entonces G (f) será cero en todas partes, excepto en la frecuencia de ese tono. Este es probablemente un buen punto para mencionar que G (f) es, en general, una función compleja, es decir, que devuelve números complejos, que se puede pensar que tienen un componente real e imaginario o una magnitud y fase.
δ(w)δ
Ok, ahora tenemos FT's continuos en nuestro haber.
Aquí está la segunda idea: una Transformada de Fourier discreta es una Transformada de Fourier como una señal muestreada es una señal analógica. En este caso, el "discreto" se refiere a la cuantificación del dominio de la función (tiempo o frecuencia), no su rango. (La señal digital muestreada que obtiene de su tarjeta de sonido se cuantifica tanto en el dominio como en el rango).
El flujo de bytes digital que obtiene de su tarjeta de sonido contiene "muestras" de la señal original continua (analógica) del micrófono. Si tomamos el DFT de nuestra muestra g (t), todavía obtenemos una G (f). G (f), recuerde, es solo una forma diferente de representar la información contenida en g (t). Si obedecemos el teorio de Nyquist , la señal muestreada g (t) contiene toda la "inteligencia" de la señal continua original, por lo que nuestra discreta G (f) debe contener toda la información de nuestra señal continua original. Entre paréntesis, G (f) sigue siendo una función compleja.
Aquí es donde entra en juego la magia del desplazamiento de subpíxeles, pero en este caso voy a escribir sobre cambiar la señal de audio a tiempo en menos de una muestra, ya que es lo mismo.
eiπ2
Eso significa que podemos cambiar nuestra grabación de audio a tiempo (en cualquier cantidad que elijamos, incluida una fracción del tiempo de muestra) simplemente modificando la fase de G (t). En realidad, esa declaración es quizás demasiado informal. Para una señal muestreada no cuantificada, la fase se puede ajustar arbitrariamente (esto es parte de la razón por la que hice la distinción entre la cuantificación del dominio y el rango anterior). Sin embargo, para una señal muestreada cuantificada (nuestro flujo de bytes de audio, por ejemplo), el tamaño del paso de cuantización (es decir, el número de bits) determina la resolución con la que podemos ajustar la fase. Cuando invertimos la Transformada de Fourier G (f) (o la DIFT, para esta señal muestreada), el nuevo conjunto de muestras g '(t) = DIFT (G (F)) se desplazará en el tiempo por la cantidad que escojamos.
Aplicar esto a sus píxeles simplemente significa usar un FT bidimensional en lugar del FT unidimensional discutido aquí.