¿Podría usarse una DCT para un espectro de magnitud de audio en lugar de DFT?

Por lo que entiendo, el DCT tiene la mitad del tamaño del depósito que un DFT del mismo tamaño N. El DFT también incluye información de fase, pero a menudo esto no es necesario cuando solo se desea el espectro de magnitud.

¿Se podría usar el DCT para proporcionar un espectro de magnitud con el doble de densidad (la mitad del espacio del depósito) del DFT o se perdería información desfasada?
¿Qué tal con una superposición del 50%?

dct dft

— Jacob
fuente

Creo que el DCT también incluye información de fase, simplemente no usa números complejos. El "FFT real" también usa la mitad de la memoria y la mitad del tiempo de cálculo para la misma información, al desechar las frecuencias negativas idénticas. "la parte real de una FFT de doble longitud es la misma que la DCT, excepto por el cambio de fase de media muestra en las funciones de base sinusoidal"

— endolito

De hecho, como mínimo, el signo de un coeficiente se puede considerar como la fase de un hombre pobre

— Laurent Duval

Respuestas:

Sí, DCT se puede usar para proporcionar un espectro de magnitud con el doble de densidad. No entiendo la superposición, pero supongo que dado que DCT cubre menos, pensaste que habría una superposición. Para proporcionar una respuesta elegible a la pregunta, permítame hacer una revisión rápida del uso de DCT principalmente en el procesamiento de imágenes.

Primero, necesitamos hacer algunas suposiciones. Para usar DCT, debe tener una señal real. Esto es por definición. Mientras dices, DCT tiene la mitad del tamaño de la papelera en comparación con DFT en tamaño N, estás asumiendo que la señal es de baja frecuencia. De lo contrario, no tanto.

Para el uso de DCT en compresión, dado que DFT de la imagen será simétrica, produce información redundante (un espejo lateral será suficiente para reproducir la señal). Por lo tanto, el núcleo de DCT se usa para producir información más densa en comparación con DFT. Esto también es cierto para las señales de audio de baja frecuencia, se puede usar de la misma manera. Si bien lo hace más denso, los coeficientes se hacen más grandes, ya que el núcleo de DCT cubre ambos lados (partes reales e imaginarias) de la señal.

Mi especialidad es el procesamiento de imágenes, así que traté de mapear los conceptos y explicaciones de DCT y DFT en el procesamiento de imágenes. Sin embargo, una diferencia entre imagen y audio podría ser el tamaño. En el procesamiento de imágenes, conoce los tamaños (filas y columnas para FFT y otros fines de procesamiento). Supongo que necesita dividir el vector de datos de audio de alguna manera para poder seguir procesándolo. Sin conocer los datos, esto podría ser problemático (no estoy seguro).

Aquí hay una imagen tomada de la web, pero no la escribí donde la tomé, podría ser wikipedia .;

Procesamiento de imágenes

Como puede ver, la imagen transformada se representa en DCT por espectro de magnitud sin problema. De una manera más compacta y más densa, y observe la magnitud de los coeficientes. Es más grande que dos veces de DFT. DFT es simétrico, podría dividirlo en dos. Una parte es redundante. Y una cosa más, DCT puede almacenar la información no es solo la mitad de DFT sino casi la cuarta parte de DFT. Ese es generalmente el caso de DCT superando a DFT en imágenes.

— Hefesto
fuente

¿No se puede dividir el FFT en cuartos, porque es redundante en las dimensiones X e Y?

— Endolith

¿Por qué parece que la FFT contiene más información y la DCT contiene más ceros?

— Endolith

Primera pregunta, no entiendo del todo, ¿qué quieres decir con dimensiones X e Y? Para la segunda pregunta, se debe a la diferencia en sus núcleos. No parece que DCT contenga más ceros, en realidad contiene más ceros que la Transformada de Fourier (DFT) normal. Esto se debe nuevamente a su diferencia en sus núcleos.

— Hephaestus

Quiero decir que la imagen es una señal real, por lo que el FFT contiene información redundante. La mitad negativa de la FFT es solo un espejo de la mitad positiva, en ambas dimensiones.

— Endolith

¿Qué tal con una superposición del 50%?

A partir de esta pregunta, entiendo que está pensando en realizar un procesamiento de bloque localizado, en forma de deslizamiento de Fourier o espectrograma.

¿Se podría usar el DCT para proporcionar un espectro de magnitud con el doble de densidad (la mitad del espacio del depósito) del DFT o se perdería información desfasada?

Si habla sobre el espectro de magnitud, por supuesto, parte de la fase (ya sea el argumento de un coeficiente de Fourier complejo o el signo de un coeficiente DCT) se perderá de todos modos .

Entonces, por supuesto, puede conectar muchos núcleos en reemplazo de la transformada de Fourier en ventana dentro de la formulación de Fourier a corto plazo solo para análisis. Las diversas razas de DCT, sus versiones superpuestas (LOT, MDCT), con buenas propiedades ortogonales y de ventana, incluso pueden invertirse (síntesis).

En audio, DCT (no complejo) o versiones superpuestas se usan a menudo para análisis, inicio y detección de tono (separación de fuente ciega), por ejemplo, la caja de herramientas STFT, MDCT e inversas Matlab de A. Liutkus. La caja de herramientas de análisis de frecuencia a largo plazo (LTFAT) también posee:

Transformaciones rápidas TF con una escala lineal de frecuencia de tiempo: Gabor (STFT), Wilson y MDCT con ventana

Escasa regresión en el dominio Gabor y WMDCT

No conozco muy bien el audio. Sin embargo, una superposición del 50% o 75% es muy común, y muy pocas personas usan otras configuraciones. Sin embargo, es muy común usar al menos dos tamaños de ventana , uno largo de parte estacionaria, uno corto para transitorios, para ayudar a superar la limitación de frecuencia de tiempo de "una ventana".

— Laurent Duval
fuente