¿Qué entrada usar para un modelo AR de un sonido vocal?

8

Grabé una pronunciación de 2 segundos de un sonido vocal. Los primeros 0,12 segundos de la señal se muestran a continuación.

Ahora, he construido un modelo de 8º orden autorregresivo (AR) para comprimir esta señal. (En realidad, solo estoy modelando 160 muestras o 0.02 segundos a la vez). La arfunción en la Caja de herramientas de identificación del sistema de Matlab puede estimar los parámetros para un ajuste de espectro "óptimo".

Mi problema es elegir la entrada estocástica para el filtro del modelo. Supongo que hay algo mejor que el ruido blanco. La periodicidad (14 períodos por 0,02 segundos) me lleva a pensar que un tren de impulsos con el mismo período sería adecuado.

Si es así, ¿cómo elegiría la amplitud y cómo encontraría la periodicidad? Las estimaciones de ACF y PSD son bastante ruidosas. ¿Estoy incluso en el camino correcto?

ingrese la descripción de la imagen aquí

digital-communications autoregressive-model speech

— Andreas
fuente

1

Para su información, terminé escalando el tren de impulsos de modo que su energía de señal (medida en el dominio del tiempo) fuera la misma que la de la señal grabada.

— Andreas

5

Un estimador de tono se usa comúnmente para encontrar la periodicidad vocal. Los estimadores de tono comunes incluyen análisis cepstrum / cepstral, espectro de productos armónicos y algoritmos compuestos, como YAAPT .

— hotpaw2
fuente

Gracias. ¿Cómo debo elegir la amplitud de impulso?

— Andreas

4

Creo que su mejor opción es el detector de tono "YIN", descrito en este documento: http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf . Es bastante simple y funciona muy bien. Lo presentan en pasos o mejoras sobre la idea anterior, e incluso la implementación de los primeros pasos debería ser suficiente.

La mayoría de los detectores de tono que están en uso están relacionados con la autocorrelación. El mayor problema con la mayoría de los algoritmos de detección de tono es el de los errores de octava, ya sea detectar un tono más bajo o más alto. Es interesante que diga que su función de autocorrelación es ruidosa. Debería ver un montón de ruido, con picos en múltiplos enteros y divisores de la frecuencia fundamental. Con suerte, el desfase de tono correspondiente a la frecuencia fundamental tiene el mayor valor, pero a menudo estará en una sub octava (porque las señales no son perfectamente periódicas), o en una octava más alta (debido a que un formante fuerte causa una de las frecuencias más altas). armónicos para ser realmente ruidoso). Recomendaría un tamaño de ventana que sea aproximadamente tan grande como dos de los períodos de tono más bajos posibles.

Esa señal también parece tener un componente de frecuencia muy baja: el habla generalmente no se agita de esa manera. Podría recomendar procesarlo con, por ejemplo, un filtro de paso alto de 24 dB / oct a unos 50 Hz.

— schnarf
fuente

Gracias a los dos, revisaré esos detectores de tono. Cuando se estima el período, ¿cómo puedo encontrar qué amplitud es apropiada para el tren de impulsos?

— Andreas