¿Son los MFCC el método óptimo para representar música en un sistema de recuperación?

Una técnica de procesamiento de señales, la frecuencia de Mel Cepstrum , se usa a menudo para extraer información de una pieza musical para usarla en una tarea de aprendizaje automático. Este método proporciona un espectro de potencia a corto plazo, y los coeficientes se utilizan como entrada.

Al diseñar sistemas de recuperación de música, dichos coeficientes se consideran característicos de una pieza (obviamente no necesariamente únicos, sino distintivos). ¿Hay alguna característica que se adapte mejor al aprendizaje con una red? ¿ Funcionarían con mayor eficacia características que varían en el tiempo, como la progresión de graves de la pieza utilizada en algo así como una red Elman ?

¿Qué características formarían un conjunto lo suficientemente extenso sobre el cual podría tener lugar la clasificación?

— jonsca
fuente

¿Está trabajando en la recuperación, donde busca cualidades únicas de un clip de audio en particular? o quieres identificar música similar?

— Andrew Rosenberg

@AndrewRosenberg Más en la línea de identificar música similar.

— jonsca

(Años después), hay muchas maneras de jugar con MFCC; Kinunnen et al., Warping de frecuencia y verificaciones robustas de altavoces: una comparación de representaciones alternativas de Mel-Scale 2013, 5p, usan 60 coeficientes. ¿Y optimizar qué? ¿En qué base de datos no abierta? Entonces diría (no experto) que la pregunta es demasiado amplia para ser respondible.

— denis

@denis Gracias por la información. Esto vino de la desafortunada Beta de Machine Learning (la primera vez). Aprecio que sea un poco vago.

— jonsca

Trabajamos un poco en esto en un momento. El conjunto de características que extrajimos se dan en este documento de taller de NIPS . Tengo que admitir que no pudimos replicar los resultados de otros autores en el campo, aunque hubo algunas dudas sobre los conjuntos de datos utilizados en estos (tenga en cuenta que los conjuntos de datos utilizados por los autores en este campo tienden a ser seleccionados a mano y no publicados) al público, por razones de derechos de autor, aunque este no siempre es el caso). Esencialmente, todas eran características espectrales a corto plazocon coeficientes de autorregresión incluidos también. Estábamos buscando una clasificación de género, que sabemos que puede ser realizada por humanos (aunque no con una precisión maravillosa, y no con un acuerdo consistente ...) en períodos de tiempo muy cortos (<1s), lo que valida el uso de características a corto plazo. . Si está interesado en hacer cosas más complicadas que la clasificación típica de género / artista / álbum / productor, entonces es posible que necesite más funciones de largo alcance, de lo contrario, estas características espectrales a corto plazo tienden a funcionar mejor.

— tdc
fuente

¿Cuál fue el propósito de arrojar los coeficientes AR?

— jonsca

@jonsca Dado que estábamos utilizando métodos de refuerzo, que funcionan combinando muchos estudiantes "débiles", decidimos usar cualquier función que pudiera calcularse fácilmente y que pudiera proporcionar algún beneficio. Todo lo que se requiere de un alumno débil para que sea útil es que puede clasificarse en niveles superiores al azar. Los coeficientes AR son equivalentes a una compresión de la envoltura espectral, lo que da una idea de la complejidad de la información a corto plazo de la música dentro de esa ventana, aunque solo de manera muy flexible.

— tdc

@tdc, "los conjuntos de datos tienden a no ser publicados al público ...": ¿conocería algún conjunto de datos en línea gratuito, con fonemas etiquetados?

— denis

@denis el único que conozco es este: orange.biolab.si/datasets/phoneme.htm

— tdc

@tdc, gracias, pero solo son 11 vocales de Elements of stat learning, ~ 1000 x 11 funciones (LPC antiguo).

— denis