Mientras buscaba una respuesta a este problema, encontré este tablero, así que decidí publicar esta pregunta mía en Stack Overflow.
Estoy buscando un método para determinar la similitud entre un segmento de audio y una voz humana, que se expresa numéricamente.
He buscado bastante, pero lo que he encontrado hasta ahora (detallado a continuación) realmente no se ajusta a lo que necesito:
Un método es usar un software de reconocimiento de voz para obtener palabras de un segmento de audio. Sin embargo, este método no puede determinar cuán "similar" es el audio al habla humana; a menudo puede decir si hay palabras en el audio o no, pero si no hay palabras definidas, no puede decir que el audio es tener esas palabras.
Ejemplos: CMU Sphinx , Dragonfly , SHoUTEl método más prometedor se conoce como Detección de actividad de voz (VAD). Sin embargo, esto tiende a tener los mismos problemas: los algoritmos / programas que usan VAD tienden a devolver simplemente si se ha alcanzado o no el umbral de actividad, y ningún valor de "similitud" antes o después de dicho umbral. Alternativamente, muchos solo buscan volumen, no similitud con el habla humana.
Ejemplos: Speex , Listener , FreeSWITCH
¿Algunas ideas?