Normalización cepstral media

¿Alguien puede explicar sobre la normalización de la media cepstral, cómo la propiedad de equivalencia de convolución afecta esto? ¿Es necesario hacer CMN en el reconocimiento de altavoces basado en MFCC? ¿Por qué la propiedad de convolución es la necesidad fundamental de MFCC?

Soy muy nuevo en este procesamiento de señales. Por favor ayuda

mfcc

— mun
fuente

¿Sin el uso del banco de filtros, la conversión de la frecuencia directamente a escala de milésimas funcionará en el proceso MFCC?

— morado

Solo para aclarar las cosas: esta propiedad no es fundamental sino importante . Es la diferencia fundamental cuando se trata de usar DCT en lugar de DFT para el cálculo del espectro.

¿Por qué hacemos normalización cepstral media?

En el reconocimiento de los altavoces, queremos eliminar cualquier efecto de canal (respuesta de impulso del tracto vocal, ruta de audio, sala, etc.). Siempre que la señal de entrada sea y la respuesta al impulso del canal esté dada por , la señal grabada es una convolución lineal de ambos: $x[n]$ $h[n]$

y [norte] = X [norte] ⋆ h [norte]

$y[n] = x[n] \star h[n]$

Al tomar la Transformada de Fourier obtenemos:

Y [F] = X [F] \cdot H [F]

$Y[f] = X[f]\cdot H[f]$

debido a la propiedad de equivalencia de convolución-multiplicación de FT, es por eso que es una propiedad tan importante de FFT en este paso .

El siguiente paso en el cálculo del cepstrum es tomar el logaritmo del espectro:

Y [q] = Iniciar sesión Y [F] = Iniciar sesión (X [F] \cdot H [F]) = X [q] + H [q]

$Y[q] = \log Y[f] = \log \left( X[f] \cdot H[f]\right) = X[q] + H[q]$

porque: . Obviamente, es la quefrency . Como se puede notar, al tomar el cepstrum de convolución en el dominio del tiempo, terminamos con la adición en el dominio cepstral (quefrency). $\log(ab) = \log a +\log b$ $q$

¿Qué es la normalización cepstral media?

Ahora sabemos que en el dominio cepstral cualquier distorsión convolucional está representada por la suma. Supongamos que todos ellos son estacionarios (lo cual es una suposición sólida ya que el tracto vocal y la respuesta del canal no cambian) y la parte estacionaria del habla es insignificante. Podemos observar que para cada marco i-ésimo verdadero es:

Y_{yo} [q] = H [q] + X_{yo} [q]

$Y_i[q] = H[q] + X_i[q]$

Al tomar el promedio sobre todos los cuadros obtenemos

\frac{1}{norte} \sum_{yo} Y_{yo} [q] = H [q] + \frac{1}{norte} \sum_{yo} X_{yo} [q]

$\dfrac{1}{N}\sum_{i} Y_i[q] = H[q] + \dfrac{1}{N}\sum_{i} X_i[q]$

Definiendo la diferencia:

\begin{matrix} R_{yo} [q] & = Y_{yo} [q] - \frac{1}{norte} \sum_{j} Y_{j} [q] \\ = H [q] + X_{yo} [q] - (H [q] + \frac{1}{norte} \sum_{j} X_{j} [q]) \\ = X_{yo} [q] - \frac{1}{norte} \sum_{j} X_{j} [q] \end{matrix}

$\begin{array} &R_i[q] &= Y_i[q] - \dfrac{1}{N}\sum_{j} Y_j[q]\\ & = H[q] + X_i[q] - \left(H[q] + \dfrac{1}{N}\sum_{j} X_j[q]\right) \\ & = X_i[q] - \dfrac{1}{N}\sum_{j} X_j[q]\\ \end{array}$

Terminamos con nuestra señal con distorsiones de canal eliminadas. Poniendo todas las ecuaciones anteriores en inglés simple:

Calcular cepstrum
Resta el promedio de cada coeficiente
Opcionalmente, divida por varianza para realizar la normalización de la media cepstral en lugar de la resta.

¿Es necesaria la normalización cepstral media?

No es obligatorio, especialmente cuando intentas reconocer a un orador en un solo entorno. De hecho, incluso puede deteriorar sus resultados, ya que es propenso a errores debido al ruido aditivo:

y [norte] = X [norte] ⋆ h [norte] + w [norte]

$y[n] = x[n] \star h[n] + w[n]$

Y [F] = X [F] \cdot H [F] + W [F]

$Y[f] = X[f]\cdot H[f] + W[f]$

Iniciar sesión Y [F] = Iniciar sesión [X [F] (H [F] + \frac{W [F]}{X [F]})] = Iniciar sesión X [F] + Iniciar sesión (H [F] + \frac{W [F]}{X [F]})

$\log Y[f] = \log \left[X[f]\left(H[f]+\dfrac{W[f]}{X[f]} \right) \right] = \log X[f] +\log \left(H[f]+\color{red}{\dfrac{W[f]}{X[f]}} \right)$

En condiciones pobres de SNR, el término marcado puede superar la estimación.

Aunque cuando se realiza CMS, generalmente puede ganar un porcentaje extra. Si agrega a ese rendimiento una ganancia de derivados de coeficientes, entonces obtiene un impulso real de su tasa de reconocimiento. La decisión final depende de usted, especialmente de que hay muchos otros métodos utilizados para mejorar los sistemas de reconocimiento de voz.

— jojek
fuente

@mun: Me alegra que haya ayudado. ¿Por qué no marcar las respuestas a sus preguntas como aceptadas para poder eliminar las restricciones de nuevos usuarios?

— jojek

@mun: ¡Felicidades! Ahora publica más enlaces, vota preguntas y respuestas + marca publicaciones.

— jojek

gracias @jojek ... Soy muy nuevo en todo esto, pero me alegro de haber resuelto mi problema.

— mun

@mun: Entonces definitivamente te sugiero que hagas un recorrido

— jojek

En la última respuesta, no puedo entender lo que realmente significa "agregar a esa ganancia de rendimiento de derivados de coeficientes". ¿Puedes dar alguna explicación simple? Muchas gracias

— Shuai Wang