¿Cómo interpreto el paso DCT en el proceso de extracción de MFCC?

20

En la mayoría de las tareas de procesamiento de audio, una de las transformaciones más utilizadas es MFCC (coeficientes cepstrales de frecuencia de Mel) .

Principalmente conozco las matemáticas que están detrás del MFCC: entiendo tanto el paso del banco de filtros como la escala de frecuencia de Mel.

Lo que no entiendo es el paso DCT (Transformación discreta del coseno): ¿Qué tipo de información obtengo en este paso? ¿Cuál es una buena representación visual de este paso?

filters mfcc cepstral-analysis

— Andrea Spadaccini
fuente

1

Agregaría una breve explicación de MFCC, o al menos un enlace: en.wikipedia.org/wiki/Mel-frequency_cepstral_coefficient

— algún tipo de robot

16

Puede pensar en el DCT como un paso de compresión. Por lo general, con los MFCC, tomará el DCT y luego conservará solo los primeros coeficientes. Esta es básicamente la misma razón por la que el DCT se usa en la compresión JPEG. Los DCT se eligen porque sus condiciones de contorno funcionan mejor en este tipo de señales.

Comparemos la DCT con la transformada de Fourier. La transformada de Fourier está compuesta de sinusoides que tienen un número entero de ciclos. Esto significa que todas las funciones básicas de Fourier comienzan y terminan en el mismo valor; no hacen un buen trabajo al representar señales que comienzan y terminan en valores diferentes. Recuerde que la transformación de Fourier asume una extensión periódica: si imagina su señal en una hoja de papel, la transformación de Fourier quiere enrollar esa hoja en un cilindro para que los lados izquierdo y derecho se encuentren.

Piense en un espectro que tiene forma más o menos como una línea con pendiente negativa (que es bastante típico). La transformada de Fourier tendrá que usar muchos coeficientes diferentes para ajustarse a esta forma. Por otro lado, el DCT tiene cosenos con números de ciclos de medio entero. Hay, por ejemplo, una función base DCT que se parece vagamente a esa línea con pendiente negativa. No asume una extensión de período (en cambio, una extensión uniforme), por lo que hará un mejor trabajo al ajustar esa forma.

Entonces, vamos a armar esto. Una vez que ha calculado el espectro de frecuencia Mel, tiene una representación del espectro que es sensible de una manera similar a cómo funciona la audición humana. Algunos aspectos de esta forma son más relevantes que otros. Por lo general, la forma espectral más grande y más amplia es más importante que los detalles finos y ruidosos en el espectro. Puede imaginarse dibujando una línea suave para seguir la forma espectral, y que la línea suave que dibuje podría decirle lo mismo sobre la señal.

Cuando toma el DCT y descarta los coeficientes más altos, está tomando esta forma espectral y solo conserva las partes que son más importantes para representar esta forma suave. Si usara la transformación de Fourier, no sería un buen trabajo mantener la información importante en los coeficientes bajos.

Si piensa alimentar los MFCC como características a un algoritmo de aprendizaje automático, estos coeficientes de orden inferior serán buenos, ya que representan algunos aspectos simples de la forma espectral, mientras que los coeficientes de orden superior que descarta son más similares al ruido y no son importantes para entrenar. Además, el entrenamiento en las magnitudes del espectro Mel probablemente no sería tan bueno porque la amplitud particular a diferentes frecuencias es menos importante que la forma general del espectro.

— schnarf
fuente

Interesante leer esta respuesta a una pregunta relacionada también.

— Eric Platon

8

La clave para entender MFCC está en el comienzo de la oración en el artículo vinculado:

Se derivan de un tipo de representación cepstral del clip de audio ...

Los MFCC son como un espectro de espectro de registro , el cepstrum .

$x(t)$

do (z) = F^{- 1} (Iniciar sesión (El | F (X (t)) {El |}^{2})

$C(z) = {\cal F}^{-1}(\log(|{\cal F}(x(t))|^2)$

${\cal F}$ ${\cal F}^{-1}$

La razón por la que el cepstrum está limpio es porque la operación de logaritmo interpuesto significa que las convoluciones de la señal original se muestran como simples adiciones en el cepstrum .

Esa ventaja se transfiere a los MFCC , aunque el levantamiento no es tan directo como con el cepstrum estándar.

Donde el MFCC difiere es en el uso de la transformada discreta del coseno (DCT) como la transformación final en lugar de la transformada inversa de Fourier.

La ventaja que tiene DCT sobre la transformación de Fourier es que los coeficientes resultantes tienen un valor real , lo que facilita el procesamiento y el almacenamiento posteriores.

— Peter K.
fuente