Estoy leyendo este artículo: el traductor de Skype donde usan CD-DNN-HMM (Redes neuronales profundas dependientes del contexto con modelos ocultos de Markov). Puedo entender la idea del proyecto y la arquitectura que han diseñado, pero no entiendo cuáles son los senones . He estado buscando una definición pero no he encontrado nada
—Proponemos un modelo novedoso dependiente del contexto (CD) para el reconocimiento de voz de vocabulario grande (LVSR) que aprovecha los avances recientes en el uso de redes de creencias profundas para el reconocimiento telefónico. Describimos una arquitectura híbrida de modelo de Markov oculto (DNN-HMM) de red neuronal profunda previamente entrenada que entrena al DNN para producir una distribución sobre senones (estados triphone atados) como su salida
Por favor, si pudiera darme una explicación sobre esto, realmente lo agradecería.
EDITAR:
He encontrado esta definición en este artículo :
Proponemos modelar eventos subfonéticos con estados de Markov y tratar el estado en modelos fonéticos ocultos de Markov como nuestra unidad subfónica básica: senone . Un modelo de palabra es una concatenación de senones dependientes del estado y los senones se pueden compartir entre diferentes modelos de palabras.
Supongo que se usan en la parte del modelo Hidden Markov de la arquitectura en el primer artículo. ¿Son los estados del HMM? ¿Las salidas del DNN?