La forma en que se realiza el reconocimiento de voz con HTK (o cualquier otra herramienta) es similar a la forma en que se realiza el reconocimiento de voz en el cerebro. Cuando escuche una palabra, que al instante se descomponen en sus constituyentes celulares y luego comparar los teléfonos con un "modelo" mentales interna de los teléfonos . Estos "modelos" se construyen a lo largo de años de escuchar el habla y le brindan la capacidad de distinguir entre oraciones de sonido similar como "Cómo destruir una bonita playa" y "Cómo reconocer el habla". El reconocimiento de voz con HTK o cualquier otro esquema basado en modelos funciona de manera similar. Aquí, en unos pocos pasos, así es como lo haces:
- Toma la señal de voz de entrada y la convierte en una representación vectorial de características.
- Tome una gran cantidad de oraciones y realice el paso 1 en cada una de ellas.
- Use los vectores de características en el paso 2 para construir un modelo estadístico para cada uno de los teléfonos / palabras en las oraciones (hay un número limitado de teléfonos / palabras en comparación con un número infinito de formas de decirlas, por lo que reduce las incógnitas modelando )
- Cuando llegue una nueva palabra, divídala en teléfonos y compárela con cada uno de los modelos conocidos. ¡La secuencia de teléfonos con mayor probabilidad gana!
Todos los pasos anteriores son críticos para completar con éxito cualquier tarea de reconocimiento de voz. Al descomponer un sonido en su vector de características, lo está llevando a un espacio modelo, dándole una representación que lo hace más adecuado para hacer un modelo fuera de otras representaciones (digamos la representación de amplitud de tiempo). La mayoría de estas representaciones se encuentran en la frecuencia o en el dominio de la frecuencia del tiempo. Una de las representaciones más populares es el MFCC (coeficiente cepstral de frecuencia de mel). En cierto modo, esta técnica imita la respuesta auditiva humana con un conjunto de filtros. Una señal de entrada se descompone con este conjunto de filtros que tienen un espaciado logarítmico de sus frecuencias centrales. Los coeficientes MFCC de cualquier oración (por ejemplo) se utilizan para modelar cada uno de los teléfonos de los que está hecha la oración. Como ejemplo, considere,
Oración: Hola. Descripción fonética: hh aa ey
Cuando introduce los coeficientes MFCC en HTK, asociará los coeficientes MFCC de una parte de la oración con hh, otra con aa y así sucesivamente. Cuando esto se repite muchas veces, los modelos para los teléfonos comienzan a formarse.
HTK usa la herramienta HCopy
para convertir una oración de entrada en su representación vectorial de características. También hay muchos "sabores" en los MFCC (representaciones E_D_A o E_D_A_Z). Sería una buena idea leer la documentación HCopy
dentro del htkbook.
.mfc
HTK escribe los coeficientes MFCC en un archivo con extensión . No es posible leer ese archivo usando ninguno de los editores de texto porque (creo) los coeficientes están escritos en binario. Sin C
embargo, puede intentar leer los archivos .
HTH.