¿Se puede usar un formador de haz de banda estrecha para la separación del habla?

7

En mi tesis de maestría estoy tratando de implementar un formador de vigas.

Ya hice la parte de suma de retraso hace 1 año. Me han dicho:

en el filtrado FIR podemos hacer

FFT -> nulo el bin de frecuencia no deseado -> IFFT.

Podemos hacer lo mismo en formadores de vigas. Si conocemos la salida de interferencia DOA (como 0 en el ángulo 25 y 1 en cualquier otro lugar entre -90 y 90) podemos ---> IFFT y usar los pesos en los elementos de separación.

Lo que sea que intenté no funcionó. Cuando empiezo a leer libros, sorprendentemente no pude encontrar el método que me dijo mi asesor. En cambio, descubrí métodos como MVDR, LCMV. Ahora estoy tratando de usar el método matlab lcmvweights para obtener los pesos correctos para cada elemento y aplicarlo en mi formador de haces de retardo. Incluso si logro usar este método, tengo curiosidad por saber si los formadores de haz de banda estrecha podrían usarse en señales complejas como el habla.

beamforming

— Kadir Erdem Demir
fuente

5

Si se trata de, digamos, 8 kHz para un ancho de banda de voz nominal de 4kHz, es decir, 0 Hz - 4 kHz, entonces la voz es esencialmente una señal de banda ancha. Por lo tanto, la formación de haces de banda estrecha no funcionará muy bien. Su patrón de haz estará bien para la frecuencia particular de interés, pero una vez que comience a alejarse de esa frecuencia, sus patrones de haz se deteriorarán.

Lo que está buscando es la formación de haces de banda ancha, que utiliza retrasos de tiempo reales (o cambios de fase lineales a través de la frecuencia en el dominio de frecuencia) en lugar de solo cambios de fase.

Por lo general, las técnicas como LCMV y MVDR se desarrollan para señales de banda estrecha. Hay un par de formas de abordar el problema de la banda ancha:

Use una línea de retardo girada en cada canal. Si tienes canales y $n$ $m$ toques por canal, entonces su matriz de correlación es $mn$ X $mn$ . Entonces los sistemas de ecuaciones se vuelven muy grandes.
Use un montón de formadores de haz de banda estrecha. En este caso tendrías $m$ formadores de vigas ( $m$ frecuencias) cada una teniendo $n$ canales Ahora cada formador de vigas tiene un $n$ X $n$ matriz de correlación, pero tienes $m$ de ellos. Por lo tanto, conduce a una reducción en la complejidad del caso anterior.
Puedes formar un conjunto de $b$ haces convencionales (usando retardo de tiempo en lugar de solo multiplicador de fase) y luego realiza el procesamiento adaptativo en los haces.

La mejor referencia que se me ocurre es Van Trees: Optimum Array Processing. Tenga en cuenta que a veces se encuentra con ligeras diferencias en la terminología: algunos textos denotarán que MVDR usa la matriz de correlación de señal, mientras que otros usan la matriz de correlación de señal más ruido. Solo tenga cuidado con cuál está mirando. Sé que Van Trees hace una distinción entre los dos casos. La mayoría de los otros textos no usan y solo usan una formulación y la llaman MVDR.

— David
fuente

¿Debo sumergirme en las cosas de la matriz de correlación? Me falta fondo teórico, estoy leyendo pero no puedo entender exactamente. ¿Qué crees que puedo usar directamente la función lcmvweights en matlab? Que usarlos directamente en mi beamformer de suma de retraso que ya implementé.

— Kadir Erdem Demir

@KadirErdemDemir Si estaba usando la opción 2 (desde arriba), entonces sí, podría usar los pesos lcmv. No estoy familiarizado con los pesos mcmv de Matlab: a menos que maneje la formación de haces de banda ancha, no podrá usar las salidas en un verdadero generador de haces de suma de retardo (opción 1) (a diferencia de una implementación de cambio de fase)

— David

5

El trabajo de Darren Ward, Rod Kennedy y Bob Williamson investigó cómo diseñar filtros aplicados a un formador de haces de retardo y suma que permitiera la adquisición de señal de banda ancha.

Como puede ver en su figura 2, un formador de haz de banda estrecha no funciona bien ya que la frecuencia cambia con respecto a la frecuencia de diseño.

La elección adecuada de filtros en las rutas del formador de haz de retardo y suma permite que se forme una respuesta de matriz menos dependiente de la frecuencia (figura 4 de su artículo a continuación).

Un artículo posterior que hice con Darren y Bob muestra que es posible tener un diseño invariante de frecuencia y posicionar un valor nulo exacto en una dirección dada (por ejemplo, ese documento tiene 20 años este año).

— Peter K.
fuente