Factorización de matriz no negativa para la separación de audio: ¿por qué funciona?

La factorización de matriz no negativa tiene como objetivo factorizar una matriz en el producto de dos matrices, , donde representa un conjunto de vectores base y sus activaciones o pesos. Aplicado a la separación de la fuente de audio, es el espectrograma (que conocemos), y es la base de los espectros no negativos, son sus activaciones temporales. $\mathbf V$ $\mathbf V = \mathbf W\mathbf H$ $\mathbf W$ $\mathbf H$ $\mathbf V$ $\mathbf W$ $\mathbf H$

Parece que soy capaz de expresar un espectrograma como una suma de diferentes intervalos de frecuencia y sus magnitudes, lo que ayudaría a filtrar o separar diferentes tonos (¿aparentemente haciendo el trabajo de un filtro de paso de banda normal?). No entiendo cómo esto realmente separaría, por ejemplo, un piano y un cantante cantando el mismo tono o un tono similar.

audio source-separation

— Samyukta Ramnath
fuente

para notas musicales con armónicos, quizás un banco de filtros de peine sería mejor que un banco de filtros de paso de banda que solo sintonizaría el fundamental (o quizás otro armónico). el diente de frecuencia más baja de los filtros de peine se giraría a la misma frecuencia que los BPF. entonces el espectrograma podría considerarse como la suma de diferentes frecuencias de tono con sus armónicos. habría alguna superposición.

— robert bristow-johnson

Respuestas:

Recordemos que las columnas de $\mathbf{W}$ puede considerarse como vectores "básicos" (o elementos de un diccionario, los componentes básicos de cualquier señal) y elementos en cada columna en $\mathbf{H}$ dar los pesos correspondientes (que varían con el tiempo). Esto nos permite descomponer el espectrograma basado no solo en componentes de frecuencia sino también en información de inicio temporal; por lo tanto, hace más de lo que haría un simple filtro de paso de banda o filtro de peine.

La factorización matricial no negativa de un espectrograma no separará mágicamente un piano y un cantante que cantan en el mismo tono. Sin embargo, proporciona una aproximación útil en términos de una suma de vectores base ponderados que (con suerte) se pueden dividir en contribuciones de diferentes fuentes porque es poco probable que cada fuente ocupe exactamente el mismo intervalo de frecuencia exactamente en el mismo instante de tiempo.

Más concretamente, dejemos $\mathbf{V}$ ser $M\times N$ , $\mathbf{W}$ ser $M \times K$ y $\mathbf{H}$ ser $K \times N$ . Entonces tenemos $M$ contenedores de frecuencia, $N$ muestras de tiempo y $K$ Componentes descompuestos. Si $\mathbf{w}_i$ son las columnas de $\mathbf{W}$ y $\mathbf{h}_i$ son las filas de $\mathbf{H}$ podemos escribir:

V \approx \sum_{yo = 1}^{K} w_{yo} h_{yo}^{T} .

$\mathbf{V} \approx \sum_{i=1}^K \mathbf{w}_i \mathbf{h}_i^T.$ Si sabemos que solo hay dos fuentes en la grabación (piano y cantante), podemos intentar dividir sus contribuciones eligiendo subconjuntos de las columnas de

W

$\mathbf{W}$ y el subconjunto correspondiente de las filas de

H

$\mathbf{H}$ . Así que si

S \subset {1, \dots, K}

$S \subset \{1,\ldots,K\}$ entonces la parte aportada por el piano se puede denotar por:

V_{piano} = \sum_{yo \in S} w_{yo} h_{yo}^{T}

$\mathbf{V}_{\mbox{piano}} = \sum_{i \in S} \mathbf{w}_i \mathbf{h}_i^T$ y la parte aportada por el cantante es:

V_{cantante} = \sum_{yo \in {1, ..., K} ∖ S} w_{yo} h_{yo}^{T}

$\mathbf{V}_{\mbox{singer}} = \sum_{i \in \{1,\ldots,K\}\setminus S} \mathbf{w}_i \mathbf{h}_i^T$

En realidad, es probable que terminemos con una descomposición que nunca logre esta separación exactamente. Es decir, habrá $\mathbf{w}_i$ Los que tienen contribuciones tanto del cantante como del piano hacen que sea difícil separarlos.

Aquí hay un cuaderno de Python que muestra este procedimiento para una mezcla de batería y guitarra: http://nbviewer.jupyter.org/gist/ingle/93de575aac6a4c7fe9ee5f3d5adab98f (O si eso no funciona, aquí: https://gist.github.com / ingle / 93de575aac6a4c7fe9ee5f3d5adab98f )

Tenga en cuenta que el algoritmo NMF solo genera una descomposición. No puede seleccionar subconjuntos de $\{\mathbf{w}_i\}$ correspondiente a cada fuente. En el ejemplo de Python, hay un paso manual para descubrir qué $\mathbf{w}_i$ Suena más como el tambor de guitarra v / s. Tal vez se pueda automatizar este paso observando que el tambor $\mathbf{w}_i$ los vectores tienen más cosas en frecuencias más bajas.

Analizar cada columna (cuadro) del espectrograma utilizando un banco de filtros de paso de banda es otra forma de descomponer el espectrograma. Sin embargo, tenga en cuenta que la descomposición generada por NMF es de bajo rango, es decir, parsimoniosa. En el ejemplo de Python, fue mucho más fácil seleccionar manualmente subconjuntos de 16 columnas de $\mathbf{W}$ correspondiente a las dos fuentes. Con un banco de filtros de paso de banda habríamos tenido que girar muchos más mandos (# filtros, ubicaciones de bandas de paso para cada cuadro) y el número de combinaciones de parámetros puede crecer muy rápidamente.

Referencias

https://ccrma.stanford.edu/~njb/teaching/sstutorial/part2.pdf

http://musicinformationretrieval.com/nmf.html

— Atul Ingle
fuente

El enlace del cuaderno Pyhton no funciona

— soultrane

cuando el cantante y el piano están cantando la misma nota (misma clase de tono y la misma octava), ¿cómo es ese conjunto

S

$S$ y establezca el conjunto correspondiente para el cantante (que está denotando como

{1, \dots, K} ∖ S

$\{1,\ldots,K\} \setminus S$ ) sería diferente?

— robert bristow-johnson

@ robertbristow-johnson, tienes razón, en ese caso mi descripción no es precisa. Sin embargo, asumí que es muy poco probable que el cantante y el piano estuvieran cantando exactamente la misma nota exactamente al mismo tiempo, con un inicio instantáneo / idéntico. Así que hay esperanza de que podamos dividirlo en subconjuntos disjuntos. Si no, habrá

w_{i}

$\mathbf{w}_i$ 's que tendrán contribuciones de ambas fuentes.

— Atul Ingle

Enlace @soultrane fijo.

— Atul Ingle

Es diferente porque usar un banco de filtros de paso de banda producirá una descomposición "más densa", mientras que NMF produce una descomposición "más dispersa". La descomposición generada por NMF es de bajo rango y parsimoniosa. En el ejemplo de Python, fue mucho más fácil seleccionar manualmente subconjuntos de 16 columnas de

W

$\mathbf{W}$ correspondiente a las dos fuentes. Con un banco de filtros de paso de banda habríamos tenido que girar muchos más mandos (# filtros, ubicaciones de bandas de paso para cada cuadro) y el número de combinaciones de parámetros puede crecer muy rápidamente.

— Atul Ingle

Objetivo: buena aproximación de separar un cantante de un piano. Ahora, algunas reflexiones sobre los requisitos para una separación precisa de las fuentes de sonido dado que es poco probable que tenga TODA la información de entrada requerida para hacer una separación precisa (posiblemente sus "vectores base"):
- para cada volumen de cada nota del piano, el resultado distribución de frecuencia muestreada en el tiempo (cuando ataca y luego se desvanece). - para cada nota X volumen X fonema de los cantantes expresan la distribución de frecuencia (y su variación con varios niveles de vibrato). - para todo lo anterior se debe considerar el efecto de reverberación. - la letra de la canción (para que coincida con los fonemas del cantante)

También hay restricciones en el dominio del tiempo, como cada nota de piano debe comenzar con el ataque y los efectos del pedal de sostenido del piano (amortiguación súbita casi simultánea de notas que estaban "sonando" aunque se habían liberado las teclas correspondientes)

Dado lo anterior, la búsqueda es la suma de "mejor ajuste" de un conjunto de espectros de notas de piano y el espectro de un solo fonema de volumen de nota de cantante para aproximar el sonido resultante.

— Bgr967dhr
fuente