La transcripción de música polifónica actualmente no parece ser un problema resuelto.
¿Qué tal el inverso de una pequeña porción del problema? ¿Hay algún tipo de características espectrales (de un STFT) que puedan usarse para eliminar algunos acordes musicales del espacio de probabilidad? (por ejemplo, este fragmento de sonido probablemente no contiene ningún acorde de C #, ni ningún tipo de acorde menor disminuido, o esta es una nota única, no un acorde, etc.)
Suponga que el fragmento de audio es más o menos estacionario (ataque transitorio eliminado, etc.), y que es muy probable que haya sobretonos para la mayoría o todas las notas individuales. (Y esta pregunta no se trata de acordes invertidos).