Puede pensar en el DCT como un paso de compresión. Por lo general, con los MFCC, tomará el DCT y luego conservará solo los primeros coeficientes. Esta es básicamente la misma razón por la que el DCT se usa en la compresión JPEG. Los DCT se eligen porque sus condiciones de contorno funcionan mejor en este tipo de señales.
Comparemos la DCT con la transformada de Fourier. La transformada de Fourier está compuesta de sinusoides que tienen un número entero de ciclos. Esto significa que todas las funciones básicas de Fourier comienzan y terminan en el mismo valor; no hacen un buen trabajo al representar señales que comienzan y terminan en valores diferentes. Recuerde que la transformación de Fourier asume una extensión periódica: si imagina su señal en una hoja de papel, la transformación de Fourier quiere enrollar esa hoja en un cilindro para que los lados izquierdo y derecho se encuentren.
Piense en un espectro que tiene forma más o menos como una línea con pendiente negativa (que es bastante típico). La transformada de Fourier tendrá que usar muchos coeficientes diferentes para ajustarse a esta forma. Por otro lado, el DCT tiene cosenos con números de ciclos de medio entero. Hay, por ejemplo, una función base DCT que se parece vagamente a esa línea con pendiente negativa. No asume una extensión de período (en cambio, una extensión uniforme), por lo que hará un mejor trabajo al ajustar esa forma.
Entonces, vamos a armar esto. Una vez que ha calculado el espectro de frecuencia Mel, tiene una representación del espectro que es sensible de una manera similar a cómo funciona la audición humana. Algunos aspectos de esta forma son más relevantes que otros. Por lo general, la forma espectral más grande y más amplia es más importante que los detalles finos y ruidosos en el espectro. Puede imaginarse dibujando una línea suave para seguir la forma espectral, y que la línea suave que dibuje podría decirle lo mismo sobre la señal.
Cuando toma el DCT y descarta los coeficientes más altos, está tomando esta forma espectral y solo conserva las partes que son más importantes para representar esta forma suave. Si usara la transformación de Fourier, no sería un buen trabajo mantener la información importante en los coeficientes bajos.
Si piensa alimentar los MFCC como características a un algoritmo de aprendizaje automático, estos coeficientes de orden inferior serán buenos, ya que representan algunos aspectos simples de la forma espectral, mientras que los coeficientes de orden superior que descarta son más similares al ruido y no son importantes para entrenar. Además, el entrenamiento en las magnitudes del espectro Mel probablemente no sería tan bueno porque la amplitud particular a diferentes frecuencias es menos importante que la forma general del espectro.