Como seguimiento a mi pregunta anterior, me preguntaba si existen bibliotecas de detección de voz. Por detección de voz me refiero a pasar un búfer de audio y obtener un índice de dónde comienza y se detiene el habla. Entonces, si tengo 10 segundos de muestreo de audio a 44kHz, esperaría una serie de números como:
44000
88000
123000
190334
...
Esto indicaría, por ejemplo, que el discurso comienza un segundo y luego termina en el punto de dos segundos, etc.
Lo que no estoy buscando es el reconocimiento de voz que escribe el texto de la palabra hablada. Desafortunadamente, esto es lo que veo mucho cuando busco en Google 'detección de voz'.
Sería genial si la biblioteca estuviera en C, C ++ o incluso Objective-C, ya que estoy escribiendo una aplicación para iPhone.
¡Gracias!