Biblioteca para diferenciar a las personas por su timbre de voz

Digamos que hay 3 personas en la habitación. Cada uno de ellos tiene un timbre de voz único. Quiero reconocer a las personas por su timbre y saber quién habla.

audio voice

— Dmitry
fuente

La tarea de tomar una larga grabación de audio contigua y dividirla en trozos en los que solo un hablante está hablando, sin ningún conocimiento previo sobre las características de voz de cada hablante, se llama "Diariación del hablante". Puede encontrar enlaces al código de investigación en la página de wikipedia .

Si tiene grabaciones anteriores de cada voz, y prefiere hacer la clasificación, este es un problema ligeramente diferente (reconocimiento de altavoz o identificación de altavoz). Las herramientas de software para eso están disponibles aquí (tenga en cuenta que los paquetes de reconocimiento de voz de propósitos generales como Sphinx o HTK son lo suficientemente flexibles como para ser inducidos a hacerlo).

— pichenettes
fuente

¡Guauu! Gracias por una respuesta tan extensa. Estoy interesado en hacer esto en vivo, básicamente detectando cuándo y quién está hablando y tal vez escribiendo eso en un archivo separado, o simplemente escribiendo para registrar cuándo y quién habló.

— Dmitry

¿Encontró alguna biblioteca que funciona en tiempo real? Me encontré con IBM Watson Speech Recognition API, pero no es de código abierto.

— subtleseeker