¿Qué modelo matemático de audio puede hacer posible el cambio de tono de notas individuales en la polifonía (tímbricamente compleja)?

24

Mi pregunta es: ¿qué modelo matemático de sonido polifónico puede hacer posible el cambio (es decir, cambio de tono) de notas musicales individuales en una grabación de audio de múltiples voces en un solo canal de un instrumento musical acústico polifónico? Al 'cambiar notas en audio polifónico', me refiero a hacer algo como editar sonido con la llamada función ' Acceso directo a notas ' en el software Melodyne de celeony.

Según Wikipedia , lo que Melodyne usa para modelar la señal de audio de una melodía de una sola línea que se reproduce en un instrumento musical acústico (y, por lo tanto, tímbricamente complejo) es algo como lo que Henning Thielemann describe en su artículo titulado ' Desenredando fase y tiempo en sonidos monofónicos '. Sin embargo, No puedo encontrar ninguna referencia a modelos de señales de audio de instrumentos musicales polifónicos; Según una entrevista en Youtube de Peter Neubacker (transcrita a continuación), la función de Melodyne para tratar la edición de audio polifónico requiere un enfoque diferente al descrito por Thielemann.

Una pista de otro clip de YouTube es que el modelo de Neubacker funciona mejor con la grabación de audio de un TIPO de instrumento solamente (es decir, solo piano, solo guitarra, solo cuerdas, solo vientos, etc.). Otra pista es otro clip que muestra la capacidad no solo de cambiar el tono de una nota sino también el momento (inicial y final) de la misma.

A continuación se muestra la transcripción del video de YouTube que menciona que "los materiales polifónicos requieren un enfoque diferente" (en caso de que no tenga tiempo para verlo desde las 22:00).

La pregunta, de la que surgió Melodyne: ¿cómo puedo obtener un sonido de una forma tridimensional como esta [gesticulando con la piedra en la mano]? ¿Por qué medios, el sonido puede ser liberado de su dependencia del tiempo continuo? Esta escultura es en realidad lo que surgió de esto ... Es una pieza de plástico ... Esto se derivó directamente de los datos musicales. Este objeto está [tocando una nota sobre el laúd] esta nota. Se visualiza mejor así, de izquierda a derecha. El tiempo corre en esta dirección [gesticulando de izquierda a derecha]. Y esa es la amplitud [haciendo un gesto grande y pequeño con el dedo opuesto al pulgar]. Si lo giro, ... representa el timbre de este sonido en cualquier instancia dada. Puedes ver muy claramente aquí una estructura [apuntando a la sección transversal en la parte inferior de la escultura] que es algo triangular; eso es porque en este sonido,

Como Melodyne aún no existía y simplemente estaba experimentando con la traducción del sonido a esta forma, trabajé durante casi un año con este sonido. ... Conozco este sonido por dentro y por fuera y de memoria. Esto también proporciona una buena ilustración del sonido local. Puedo, no solo reproducir el sonido [haciendo clic con el mouse], sino que también puedo ingresar el sonido de cualquier punto y moverlo tan lento o rápido como quiera. Incluso puedo demorarme en el sonido, o moverme hacia adelante y hacia atrás, así que si examino un lugar aquí ... dale la vuelta. ... Hace diez años era nuevo.

Recientemente se agregó ADN (acceso directo a notas). Con él, también puedo editar música polifónica. En otras palabras, puedo editar notas individuales que suenan simultáneamente, como por ejemplo una grabación de guitarra. Si ahora toco un acorde pequeño [seleccionando Poly -> Separate Notes en la pantalla], vemos aquí las 3 notas que acabo de tocar como entidades separadas. Escuchemos nuevamente [la computadora toca un acorde menor]. Y ahora, como si moviera mi dedo a un traste más alto, puedo levantar esta nota [arrastrando una nota en la pantalla hacia arriba; la computadora toca el acorde mayor]. Para el audio dividido, puedo aislar esta nota, y puedo moverla hacia arriba o hacia abajo a voluntad, a cualquier tono que desee.

¿Por qué nadie antes podía aislar tonos individuales dentro de material complejo de esta manera? Honestamente no lo se. En ciencia, la tendencia natural es comenzar con algo simple, una onda sinusoidal, por ejemplo, o notas individuales, y analizar eso primero, solo para descubrir cuándo el material se vuelve más complejo, o debe ser tratado en su totalidad, que el sistema no funciona Mi enfoque es diferente. De hecho, comienzo con señales complejas, y es solo cuando quiero examinar algo en detalle que vuelvo a las más simples, pero primero, tengo que tener una impresión general de lo que realmente está sucediendo en la realidad.

¿Quizás el secreto yace en este rollo? Jeje, esto es en realidad un retrete. La pregunta originalmente planteada por la piedra era cómo puedo traducir un sonido dado a una forma tridimensional. Aquí, he ordenado los valores de muestreo de los individuos del sonido, indicados aquí por uno, dos y tres, en espiral. Y resulta que si interpolas entre los puntos [gesticulando a través de la espiral], emerge un paisaje que también representa las secciones transversales individuales en el sonido [gesticulando secciones transversales de la escultura].

¿Cuántos años tiene el rollo? 12 años. ¿Entonces esa idea es el manantial de Melodyne, de todo lo que hemos visto hoy ...? Sí, pero esta forma de enrollar el sonido ya no sería útil para materiales polifónicos, lo que requiere un enfoque diferente.

frequency

— usuario1217
fuente

No hay tiempo ahora, pero es posible que desee leer algunos de los trabajos de Bill Sethares sobre Consonance . Intentaré digerir tu publicación y responder más completamente en los próximos días.

— Peter K.

No estoy seguro de cuál es la pregunta. Aislar notas individuales y "enrollar el sonido" me hace pensar en envolver un espectro en espiral para que los armónicos de una nota se alineen entre sí: nastechservices.com/Spectrograms.html nastechservices.com/Spectratune.html

— endolith

12

TL; DR? Google Scholar para la separación parcial armónica .

Un buen punto de partida serían las técnicas de modelado sinusoidal que separan la señal en senos + componentes de ruido (determinista y estocástico). El componente determinista, compuesto por senos, se puede volver a sintetizar de manera convincente:

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

Los senos se restan de la señal y la porción ruidosa / estocástica permanece.

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

La parte estocástica se sintetiza poniendo ruido a través de un filtro de modelado de ruido. Algunos otros han extendido esto a un modelo de senos + ruido + transitorios que ayuda a preservar las características estocásticas transitorias en el estiramiento del tiempo.

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

Una vez que tiene los parámetros sinusoidales de una señal, es posible separar los senos de las notas superpuestas buscando relaciones armónicas y agrupando por inicio, etc. El seguimiento parcial arroja muchos resultados en Google Scholar.

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

Modelos ocultos de Markov , polinomios y Macaulay-Quatieri son algunos de los métodos. Estoy perplejo por separar las sobras estocásticas en dos notas. No sé cómo Melodyne aborda esto.

— Matt M.
fuente

5

El enfoque utilizado en melodyne requiere 2 operaciones de dominio de frecuencia separadas. En primer lugar, las técnicas de transcripción polifónicas se utilizan para agrupar componentes de frecuencia (de una transformación de frecuencia estándar) de audio polifónico en activaciones de notas. En otras palabras, agrupe los subconjuntos armónicos de acuerdo con las activaciones de nota más probables. Consulte mi respuesta a la publicación "Reconocimiento de acordes polifónicos inversos" en este foro para obtener referencias y modelos matemáticos.

La segunda operación es la del desplazamiento de tono del dominio de frecuencia de los subconjuntos armónicos extraídos anteriormente. No estoy seguro, pero casi garantizaría que Melodyne utiliza un enfoque de vocoder de fase para lograr esto. También puede realizar estiramientos de tiempo utilizando esta técnica . Utilizamos técnicas similares a estas en Riffstation y funcionan bastante bien.

— Dan Barry
fuente

3

Una posibilidad podría ser el análisis / resíntesis utilizando un enfoque de coincidencia de patrones estadísticos. Si conoce o puede adivinar razonablemente la combinación de instrumentos involucrados y tiene plantillas (incluidos transitorios iniciales, espectro más evolución espectral, etc.) para los sonidos del instrumento para todas las notas esperadas, puede intentar una coincidencia estadística de una gran cantidad de acordes sanos combinaciones usando los patrones de sonido de la plantilla para estimar las combinaciones polifónicas más probables. Es muy probable que sea una búsqueda computacionalmente intensiva de mínimos globales, donde varias técnicas de búsqueda tipo "IA" podrían ser útiles. Luego, podría tomar las diversas probabilidades de acordes individuales y luego usar las teorías de decisión para elegir las secuencias polifónicas más probables a tiempo.

Luego tome las notas estimadas y vuelva a sintetizarlas en el tono y la duración de la tecla elegida.

— hotpaw2
fuente