Creo que la distinción que está buscando es más como empírica frente a teórica (en lugar de supervisada frente a no supervisada), pero podría estar equivocado al respecto. En otras palabras, lo ideal sería tener una definición teórica de varios géneros, en lugar de solo un montón de datos opacos que se pueden utilizar para clasificar una canción [sin una comprensión real].
Sin embargo, para la clasificación general de géneros, probablemente esté atrapado al menos con la capacitación de los ejemplos, incluso si solo crea las definiciones de géneros en primer lugar. Con respecto a su ejemplo, considere con qué frecuencia la gente discutirá [en YouTube] si una pista dada es realmente dubstep (por ejemplo, cualquier pista que sea más dudosa y menos tambaleante , a pesar de que el género comenzó sin ningún bamboleo real). Las personas definen géneros a lo largo del tiempo a través de ejemplos, por lo que es razonable esperar que los algoritmos que replican ese comportamiento también requieran algunos ejemplos. La forma en que las personas describen géneros es casi como un vector de características de todos modos, hacen una lista de preguntas sobre la canción (por ejemplo, ¿es más rompedora o tambaleante? ¿Tiene muchos subgraves? ¿Cuánto dura? ¿Cuál es el tempo? ¿Hay una voz? etc.).
Por supuesto, puede elegir una lista de características que también proporcionan una comprensión intuitiva del género. Una característica como "Rango dinámico" es algo que una persona también puede detectar por el oído, pero algo como "Cruces cero en el dominio del tiempo" no sería muy intuitivo, incluso si funciona bien para la clasificación. El siguiente documento tiene algunas características que pueden ser interesantes para usted:
George Tzanetakis, Perry R. Cook: clasificación de género musical de señales de audio. IEEE Transactions on Speech and Audio Processing 10 (5): enlace 293-302 (2002) .
Para medir la rugosidad, la rugosidad psicoacústica sería un buen lugar para comenzar, pero podría no ser suficiente para distinguir entre los cables dubstep y los cables eléctricos, por ejemplo. Para distinciones más finas, una cosa a tener en cuenta es el reconocimiento de timbres . La siguiente tesis tiene una encuesta decente de técnicas:
TH Park, "Hacia el reconocimiento automático de timbres de instrumentos musicales", Ph.D. disertación, Princeton University, NJ, 2004. enlace .
También hay un modelo relacionado con la rugosidad perceptiva en Timbre, Tuning, Spectrum y Scale que se utiliza para construir escalas personalizadas para timbres arbitrarios. La idea es que los armónicos que están muy juntos producen frecuencias de latido que se perciben como disonancia. Parafraseando de los Apéndices F y E ,
Ff1,f2,...,fn
DF=1/2 ∑i=1n ∑j=1n d(|fi−fj|min(fi,fj))
donde
d(x)=e−3.5x−e−5.75x
es un modelo de la curva Plomp-Levelt .
Se usa para medir qué tan agradable es un acorde dado con respecto a un timbre (minimizando la disonancia). No sé si la aspereza de la variedad psicoacústica o la disonancia intrínseca serían muy fructíferas para sus propósitos por sí mismas, pero pueden ser útiles en combinación con otras métricas.
Probablemente tendrás más suerte al clasificar los timbres matemáticamente que los géneros. Por ejemplo, las cuerdas tienen armónicos pares e impares, pero un clarinete solo tiene armónicos impares (cf. Onda de diente de sierra , Onda cuadrada ). La oscilación de Dubstep tiende a hacerse con filtros controlados por LFO (paso bajo y / o filtros formantes), por lo que algo como Spectral Flux (ver [Tzanetakis], arriba) podría ser un buen punto de partida como característica. Sin embargo, dudo que alguien haya estudiado la clasificación matemática del bamboleo todavía;)