Estoy tratando de comparar 2 muestras de voz y calificarlas en similitudes. Piense en alguien que intenta repetir una frase y luego compara esos 2 archivos de audio.
Comencé implementando el algoritmo MFCC (http://en.wikipedia.org/wiki/Mel-frequency_cepstrum). Calculo los MFCC de ambas muestras de audio, lo que me da aproximadamente 500 cuadros de audio (a 10 ms cada uno, con una superposición del 30% del anterior) con 14 o más coeficientes MFCC. Entonces, una matriz de 500x14 para cada señal de audio.
Luego hago el enfoque ingenuo de simplemente diferenciar las matrices. Esto no da resultados muy prometedores. La mitad de las veces cuando comparo muestras de audio completamente diferentes (donde se hablan frases diferentes), obtengo menos diferencia que comparar el audio donde trato de repetir la misma frase. Esto es claramente al revés y no me puede dar un buen algoritmo de puntuación.
¿Cómo puedo mejorar esto? Pensé que los MFCC eran una parte realmente importante del procesamiento del habla, aunque claramente necesito hacer más con él.