Estoy tratando de extraer características de un archivo de sonido y clasificar el sonido como perteneciente a una categoría particular (por ejemplo: ladrido de perro, motor del vehículo, etc.). Me gustaría tener algo de claridad sobre las siguientes cosas:
1) ¿Es factible esto? Existen programas que pueden reconocer el habla y diferenciar entre diferentes tipos de ladridos de perros. Pero, ¿es posible tener un programa que pueda recibir una muestra de sonido y solo decir qué tipo de sonido es? (Suponga que hay una base de datos que contiene muchas muestras de sonido a las que hacer referencia). Las muestras de sonido de entrada pueden ser un poco ruidosas (entrada de micrófono).
2) Supongo que el primer paso es la extracción de funciones de audio. Este artículo sugiere extraer los MFCC y alimentarlos a un algoritmo de aprendizaje automático. ¿Es suficiente el MFCC? ¿Hay otras características que generalmente se usan para la clasificación de sonido?
Gracias por tu tiempo.