¿Cuándo debo calcular PSD en lugar del espectro de magnitud FFT simple?

12

Tengo una señal de voz de treinta segundos que se muestreó a 44,1 kHz. Ahora, me gustaría mostrar qué frecuencias tiene el discurso. Sin embargo, no estoy seguro de cuál sería la mejor manera de hacerlo. Parece que a veces se calcula el valor absoluto de una transformada de Fourier y, a veces, la densidad espectral de potencia. Si entiendo correctamente, este último funciona para que divida mi señal en partes, haga FFT parte por parte y de alguna manera las sume. Las funciones de la ventana están involucradas de alguna manera. ¿Puedes aclararme esto un poco? Soy nuevo en DSP.

— Spede
fuente

1

Romper la señal en segmentos, encontrar el espectro de cada uno y luego promediar los espectros puede ayudar a reducir el ruido, pero también reduce la resolución. ver en.wikipedia.org/wiki/Welch%27s_method

— endolith

8

Ahora, me gustaría mostrar qué frecuencias tiene el discurso. Sin embargo, no estoy seguro de cuál sería la mejor manera de hacerlo. Parece que a veces se calcula el valor absoluto de una transformada de Fourier y, a veces, la densidad espectral de potencia.

Si desea asignar un significado físico a su análisis, vaya con la densidad espectral de potencia (PSD). Esto se debe a que esto simplemente le dará el poder de su señal, en cada banda de frecuencia. Por otro lado, si no quiere / no le importa un significado físico, pero quiere saber cómo varían las amplitudes de Fourier de cada banda entre sí, puede apegarse a la magnitud absoluta.

$x[n]$ $X(f)$ $|X(f)|$ $|X(f)|^2$

Si entiendo correctamente, este último funciona para que divida mi señal en partes, haga FFT parte por parte y de alguna manera las sume. Las funciones de la ventana están involucradas de alguna manera. ¿Puedes aclararme esto un poco? Soy nuevo en DSP.

No, esto no es verdad. Lo que está hablando aquí se refiere a la Transformada de Fourier de corto tiempo (STFT). Esto es simplemente cortar su señal de dominio de tiempo, viudarla y luego tomar la forma trnas de Fourier. Al final del día, aún tendrá una matriz compleja. Si elige tomar su magnitud absoluta, tendrá una matriz de transformación de Fourier de magnitud absoluta. Si toma su magnitud absoluta al cuadrado, tendrá una matriz de densidad espectral de potencia.

— Tarin Ziyaee
fuente

3

Lo importante que debe entenderse acerca de algo como una señal de voz es que sus componentes de frecuencia varían en el tiempo . Para representar el habla en el dominio de la frecuencia, usualmente tomamos una ventana lo suficientemente corta de la señal dentro de la cual podemos suponer que el espectro del habla no varía significativamente (típicamente 10 ms). Por lo tanto, calculamos el espectro de potencia para cada ventana sucesiva de 10 ms utilizando el STFT (a menudo con cierta superposición entre ventanas) y tratamos cada espectro sucesivo como una "instantánea" de los componentes de frecuencia del discurso en ese momento en particular. A menudo, los espectros sucesivos se trazan en una trama 3D, como un espectrograma, con el tiempo en el eje X, la frecuencia en el eje Y y la magnitud graficada como un color falso o intensidad de escala de grises en cada ubicación X, Y.

— Paul R
fuente