Estoy estudiando el reconocimiento de voz, en particular el uso de MFCC para la extracción de características. Todos los ejemplos que he encontrado en línea tienden a graficar una serie de MFCC extraídos de un enunciado particular de la siguiente manera (gráfico generado por mí desde el software que estoy escribiendo):
Como puede ver en el gráfico anterior:
- el eje x se usa para cada uno de los coeficientes MFC (de 1 a 12 en este ejemplo)
- el eje y se usa para los valores de los coeficientes (que varían aproximadamente de -12 a 42 en este ejemplo)
- tiene tantas líneas como cuadros o vectores de características que ha extraído (140 en este ejemplo).
Ahora, esto no tiene mucho sentido para mí, porque lo que estamos viendo aquí, es la superposición de todos los vectores de características a la vez, perdiendo información en cualquier momento. Me está costando entender cómo es útil esta representación.
En mi opinión, representaría los vectores extraídos de la siguiente manera (nuevamente, gráfico generado por mí):
En el gráfico de arriba:
- el eje x es el número de cuadro o vector (1 a 140)
- el eje y son los valores de los coeficientes (nuevamente, de -12 a 42 aprox)
- tiene una línea para cada función (12).
Para mí, esta representación debería ser más útil porque puede ver la evolución en el tiempo de cada característica en particular, y en mi opinión eso debería tener un impacto más fuerte sobre cómo aplicar algoritmos de comparación en palabras habladas.
Tal vez las dos representaciones son igualmente válidas y útiles para diferentes propósitos, muy parecido a cuando se necesita estudiar una señal en el dominio del tiempo o en el dominio de la frecuencia, pero en el caso del reconocimiento de voz, esperaría la evolución en el tiempo de cada individuo. característica para ser más significativo que la densidad de valores para cada característica (y tal vez estoy completamente equivocado: P).
Entonces, dos preguntas de hecho:
- ¿Por qué la primera representación es la que parece ser ampliamente utilizada y no la segunda?
- Cuando desea comparar dos conjuntos de MFCC extraídos, por ejemplo, utilizando Dynamic Time Warping - DTW, y relacionado con este tema, ¿compara los vectores de características (es decir, 140 vectores de 12 características) o los cuadros (12 vectores de 140 cuadros )? (en otras palabras, MxN o NxM?)
¡Gracias!