¿Cómo lidiar con los bajos fundamentales cuando se usa AMDF para la extracción de tono?

Estoy usando la función de diferencia de magnitud promedio para estimar la frecuencia fundamental de una señal de audio cuasi periódica. El AMDF se define como

D_{n} = \frac{1}{N - n} \sum_{k = n}^{N - 1} | S_{k} - S_{k - n} |

$D_n = \frac{1}{N-n}\sum_{k=n}^{N-1}|S_k - S_{k-n}|$

donde $N$ es la longitud de la señal. Esta función exhibe un mínimo cuando la señal se desplaza en una cantidad igual a su período.

Este es el código que estoy usando para extraer el tono (en Matlab):

 a = amdf(f);
 a = a/max(a);
 [p l] = findpeaks(-a, 'minpeakprominence', 0.6);
 pitch = round(sample_freq/l(1);

Sin embargo, estoy tratando con una señal de audio donde la frecuencia fundamental es muy baja:

Como consecuencia, surge un problema de duplicación de tono: el mínimo detectado corresponde a la mitad del período de la señal (es decir, el segundo armónico):

Traté de extraer el pico más grande y no solo el primero, pero a veces este problema persiste. ¿Cómo puedo mejorar mi código y / o la función AMDF para tratar con los fundamentales bajos?

audio pitch fundamental-frequency

— Firion
fuente

La psicoacústica y la percepción humana influyen en el tono percibido y la incertidumbre de la octava. Puede requerir experimentación para determinar bajo qué condiciones el pico AMDF más grande hace una diferencia audible.

— hotpaw2

¿Qué tan bajas son sus frecuencias? ¿Hay algún ejemplo para que yo escuche?

— ederwander

Esto es lo que llamamos en el negocio de detección de tono, el " problema de octava ".

En primer lugar, cambiaría el AMDF a ASDF. Y no reduciría el tamaño de la ventana a medida que aumenta el retraso. (Además, estoy cambiando la notación a lo que considero más convencional. " " es una señal de tiempo discreto). $x[n]$

La función de diferencia cuadrática promedio (ASDF) de en la vecindad de la muestra es: $x[n]$ $x[n_0]$

Q_{x} [k, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} {(x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋] - x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋ + k])}^{2}

$Q_x[k, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \left(x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor] \ - \ x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor + k] \right)^2$

es lafunción y, si es par, entonces $\left\lfloor \cdot \right\rfloor$ floor() $k$ . $\left\lfloor \frac{k}{2}\right\rfloor = \left\lfloor \frac{k+1}{2}\right\rfloor = \frac{k}{2}$

Ahora, ampliar la plaza y lo que consideran las sumas parecen como (no es que se va hasta el infinito, pero para darle una idea de si es grande). El ASDF está directamente relacionado con la autocorrelación. Es esencialmente la autocorrelación al revés. Estos pasos te los dejo a ti. Echa un vistazo a esta respuesta. $N \to \infty$ $N$ $N$

Así que ahora considere esta "autocorrelación" de longitud finita (en la vecindad de la muestra ) definida desde el ASDF: $x[n_0]$

R_{x} [k, n_{0}] = R_{x} [0, n_{0}] - \frac{1}{2} Q_{x} [k, n_{0}]

$R_x[k,n_0] = R_x[0,n_0] - \tfrac12 Q_x[k, n_0]$

dónde

R_{x} [0, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} (x [n + n_{0} - ⌊ \frac{N}{2} ⌋])^{2}

$R_x[0, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \Big(x[n+n_0-\left\lfloor \tfrac{N}{2}\right\rfloor]\Big)^2$

Como y para todos los rezagos , eso significa que para todos los rezagos . $Q_x[0, n_0] = 0$ $Q_x[k, n_0] \ge 0$ $k$ $R_x[k, n_0] \le R_x[0, n_0]$ $k$

Supongamos por un minuto que es periódica con el período (y resulta ser un número entero), luego $x[n]$ $P$ $P$

x [n + P] = x [n] \forall n

$x[n+P] = x[n] \quad \forall n$

y y para cualquier número entero de períodos ( es un entero). Entonces obtienes un pico en y en igual a cualquier otro múltiplo de si $Q_x[mP, n_0] = 0$ $R_x[mP, n_0] = R_x[0, n_0] \ge R_x[k, n_0]$ $m$ $k=0$ $k$ $P$ es periódico. Si noesperfectamente periódico, lo que podríamos esperar es el pico más grande en , otro pico (pero ligeramente más pequeño) en (el período que estamos buscando) y picos progresivamente más pequeños para múltiplos más grandes de . $x[n]$ $x[n]$ $k=0$ $k=P$ $P$

Entonces, el problema de la octava surge por un par de razones. En primer lugar, no es necesariamente un número entero. Ese es un problema de interpolación, no es un gran problema. $P$

La segunda razón y el problema más difícil es el de las subarmónicas . Tenga en cuenta que está escuchando un agradable tono periódico a exactamente A-440 Hz y suena como un A que está 9 semitonos por encima del medio C. Ahora suponga que alguien agrega a ese tono una amplitud muy pequeña (como 60 dB) A -220? ¿Cómo sonará y matemáticamente cuál es el período "verdadero"?

Elegir el pico "correcto" para el período.

Supongamos que ejecuta su nota a través de un filtro de bloqueo de CC, de modo que la media de es cero. Resulta que hace que la media de la autocorrelación para cada también sea cero (o cercana a ella si es grande). Eso significa que debe sumar (sobre ) para ser aproximadamente cero, lo que significa que hay tanta área sobre cero como debajo. $x[n]$ $R_x[k, n_0]$ $n_0$ $N$ $R_x[k, n_0]$ $k$

De acuerdo, entonces representa la potencia de en las proximidades alrededor de y no debe ser negativa. nunca excede pero puede llegar a ser tan grande cuando es periódico. $R_x[0, n_0]$ $x[n]$ $n=n_0$ $R_x[k, n_0]$ $R_x[0, n_0]$ $x[n]$ si . Entonces, si es periódica con el período y tiene un montón de picos separados por y tiene una idea de qué tan altos deberían ser esos picos. Y si el componente DC de es cero, eso significa que entre los picos,debetener valores negativos. $R_x[P, n_0] = R_x[0, n_0]$ $x[n+P]=x[n]$ $x[n]$ $P$ $P$ $R_x[k, n_0]$

Si era "casi periódica", un ciclo de se parecerá mucho a un ciclo adyacente, pero no tanto como un ciclo de más abajo en la señal en el tiempo. Eso significa que el primer pico será mayor que el segundo en o el tercer $x[n]$ $x[n]$ $x[n]$ $R_x[P, n_0]$ $R_x[2P, n_0]$ $R_x[3P, n_0]$ . Se podría usar la regla para elegir siempre el pico más alto y esperar que el pico más alto sea siempre el primero. Pero, debido a subarmónicos inaudibles, a veces ese no es el caso. a veces el segundo o posiblemente el tercer pico es tan ligeramente más alto. Además, debido a que el período probablemente no es un número entero de muestras, pero en es siempre un número entero, por lo que el pico verdadero probablemente estará entre los valores enteros de . Incluso si tuviera que interpolar dónde está el pico suave (que recomiendo y la interpolación cuadrática es lo suficientemente buena), y qué tan alto es realmente entre el entero $P$ $k$ $R_x[k, n_0]$ $k$ $k$ , su alg de interpolación podría hacer un pico un poco más alto o un poco más bajo de lo que realmente es. Por lo tanto, elegir el pico más alto puede resultar en elegir espuriosamente el segundo sobre el primer pico (o viceversa) cuando realmente quería el otro.

Entonces, de alguna manera, tienes que perjudicar los picos al aumentar para que el primer pico tenga una ligera ventaja sobre el segundo, y el segundo sobre el cuarto (la próxima octava hacia abajo), etc. ¿Cómo lo haces? $k$

Lo haces multiplicando con una función decreciente de de modo que el pico a se reduce por algún factor, con respecto a un pico idénticos en . Resulta que la función de potencia (no la exponencial) hace eso. entonces calcula $R_x[k, n_0]$ $k$ $k=2P$ $k=P$

k^{- α} R_{x} [k, n_{0}]

$k^{-\alpha} \ R_x[k, n_0]$

Entonces, si fuera perfectamente periódico con el período , e ignorando los problemas de interpolación para no entero , entonces $x[n]$ $P$ $P$

R_{x} [2 P, n_{0}] = R_{x} [P, n_{0}]

$R_x[2P, n_0] = R_x[P, n_0]$

pero

\begin{aligned} (2 P)^{- α} R_{x} [2 P, n_{0}] & = \\ (2 P)^{- α} R_{x} [P, n_{0}] & < P^{- α} R_{x} [P, n_{0}] \end{aligned}

$\begin{align} (2P)^{-\alpha} R_x[2P, n_0] & = \\ (2P)^{-\alpha} R_x[P, n_0] & < P^{-\alpha} R_x[P, n_0] \\ \end{align}$

El factor por el cual se reduce el pico para un tono de una octava más baja es la relación

\frac{(2 P)^{- α} R_{x} [2 P, n_{0}]}{P^{- α} R_{x} [P, n_{0}]} = \frac{(2 P)^{- α}}{P^{- α}} = 2^{- α}

$\frac{(2P)^{-\alpha} R_x[2P, n_0]}{P^{-\alpha} R_x[P, n_0]} = \frac{(2P)^{-\alpha}}{P^{-\alpha}} = 2^{-\alpha}$

Entonces, si desea darle a su primer pico un aumento del 1% sobre el segundo pico, lo que significa que no elegirá el tono para que sea el tono subarmónico, a menos que la autocorrelación del tono subarmónico sea al menos 1% más que la primera pico, resolverías para de $\alpha$

2^{- α} = 0.99

$2^{-\alpha} = 0.99$

Esa es la forma consistente de ponderar o desestimar o perjudicar el pico correspondiente al tono subarmónico una octava por debajo.

Todavía te deja con un problema de umbral. Tienes que elegir bien . Pero esta es una forma consistente de enfatizar el primer pico sobre el segundo, que es una octava más baja, pero no tanto que si la nota realmente es una octava más baja, sino que la energía en todos los armónicos pares era fuerte, en comparación con la impar armónicos, esto aún dejará la posibilidad de elegir el segundo pico. $\alpha$

— robert bristow-johnson
fuente

Para responder a su última pregunta: si agrega una amplitud de 220 Hz, entonces el tono será de 220 Hz, donde 440 Hz es el primer armónico después del fundamental (matemáticamente hablando). Mi caso es similar pero también hay armónicos más altos, por lo que el fundamental faltante no es un problema desde un punto de vista perceptivo. No entiendo cómo reemplazar AMDF con ASDF podría resolver el problema de la octava

— Firion

pero la otra mitad de la pregunta es * "¿cómo sonará"? responde eso y luego veamos qué quieres que haga tu detector de tono.

— robert bristow-johnson

R_{x} [k, n_{0}]

$R_x[k,n_0]$

Si no tiene otros armónicos más altos, sino solo el de 440 Hz, y el tono de 220 Hz es lo suficientemente bajo, escuchará un tono de 440 Hz. Por encima de algún nivel (no sé cuál), escuchará también el tono de 220 Hz y, por lo tanto, un tono de 220 Hz.

— firion

Hay una razón por la que dije -60 dB. ahora, ¿qué quieres que diga tu detector de tono, que es una nota de 220 Hz o 440 Hz u otra cosa?

— robert bristow-johnson

Heurísticamente, la frecuencia fundamental del discurso sonoro estará en el intervalo [70, 400] Hz. Entonces, el primer paso sería aplicar un filtro de paso de banda para aislar aproximadamente esa banda.

En segundo lugar, puede aplicar una función de ponderación al espectro de potencia. Cerca del fundamental, el peso debe estar cerca de 1, mientras que más cerca del final de la banda, el peso debe estar cerca de 0. Esta ponderación se normaliza, por supuesto. Recomendaría algo súper lineal: cuadrático, cuártico, etc., para matar realmente las octavas.

— El tío
fuente

¿Cómo puedo aplicar el peso? No sé dónde está lo fundamental. Además, mi señal es la nota de un instrumento, por lo que el rango es mayor

— firion