La razón por la que ve la transformación de Fourier aplicada dos veces en el proceso de extracción de características es que las características se basan en un concepto llamado cepstrum. Cepstrum es un juego sobre el espectro de palabras: esencialmente, la idea es transformar una señal en un dominio de frecuencia mediante la transformación de Fourier y luego realizar otra transformación como si el espectro de frecuencia fuera una señal.
Mientras que el espectro de frecuencia describe la amplitud y la fase de cada banda de frecuencia, cepstrum caracteriza las variaciones entre las bandas de frecuencia. Se encuentra que las características derivadas del cepstrum describen mejor el habla que las características tomadas directamente del espectro de frecuencia.
Hay un par de definiciones ligeramente diferentes. Originalmente, la transformación cepstrum se definió como la transformación de Fourier -> logaritmo complejo -> transformación de Fourier [1]. Otra definición es la transformada de Fourier -> logaritmo complejo -> transformada inversa de Fourier [2]. La motivación para la última definición está en su capacidad de separar señales convolucionadas (el habla humana a menudo se modela como la convolución de una excitación y un tracto vocal).
Una opción popular que se ha demostrado que funciona bien en los sistemas de reconocimiento de voz es aplicar un banco de filtros no lineal en el dominio de la frecuencia (el binning de mel al que se refiere) [3]. El algoritmo particular se define como transformada de Fourier -> cuadrado de magnitud -> banco de filtros mel -> logaritmo real -> transformada discreta de coseno.
Aquí se puede seleccionar DCT como la segunda transformación, porque para la entrada de valor real, la parte real de la DFT es un tipo de DCT. La razón por la que se prefiere DCT es que la salida está aproximadamente relacionada con la decoración. Las características relacionadas con la decoración se pueden modelar eficientemente como una distribución gaussiana con una matriz de covarianza diagonal.
[1] Bogert, B., Healy, M. y Tukey, J. (1963). El análisis de quefrency alan de series temporales para ecos: cepstrum, pseudo-autocovarianza, cross-cepstrum y saphe cracking. En Actas del simposio sobre análisis de series temporales, p. 209-243.
[2] Oppenheim, A. y Schafer, R. (1968). Análisis homomórfico del habla. En IEEE Transactions on Audio and Electroacoustics 16, p. 221-226.
[3] Davis, S. y Mermelstein, P. (1980). Comparación de representaciones paramétricas para el reconocimiento de palabras monosilábicas en oraciones continuamente habladas. En IEEE Transactions on Acoustics, Speech and Signal Processing 28, p. 357-366.