La versión corta de la pregunta: estoy buscando un software de reconocimiento de voz que se ejecute en Linux y tenga una precisión y facilidad de uso decentes. Cualquier licencia y precio está bien. No debe restringirse a los comandos de voz, ya que quiero poder dictar texto.
Más detalles:
He intentado insatisfactoriamente lo siguiente:
- CMU Sphinx
- CVoiceControl
- Orejas
- Julius
- Kaldi (p. Ej., Servidor Kaldi GStreamer )
- IBM ViaVoice (solía ejecutarse en Linux pero se suspendió hace años)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- gritar
- silvius (construido en el kit de herramientas de reconocimiento de voz Kaldi)
- Simon escucha
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + dragonfly + damselfly
- https://github.com/DragonComputer/Dragonfire : solo acepta comandos de voz
Todas las soluciones nativas de Linux mencionadas anteriormente tienen poca precisión y facilidad de uso (o algunas no permiten el dictado de texto libre sino solo comandos de voz). Por mala precisión, quiero decir una precisión significativamente inferior a la que tiene el software de reconocimiento de voz que mencioné a continuación para otras plataformas. En cuanto a Wine + Dragon NaturallySpeaking, en mi experiencia sigue fallando, y desafortunadamente no parece ser el único en tener tales problemas.
En Microsoft Windows uso Dragon NaturallySpeaking, en Apple Mac OS XI uso Apple Dictation y DragonDictate, en Android uso el reconocimiento de voz de Google, y en iOS uso el reconocimiento de voz de Apple incorporado.
Baidu Research lanzó ayer el código para su biblioteca de reconocimiento de voz usando la Clasificación Temporal Connectionist implementada con Torch. Los puntos de referencia de Gigaom son alentadores, como se muestra en la siguiente captura de pantalla, pero no conozco ningún buen contenedor para que pueda usarse sin bastante codificación (y un gran conjunto de datos de entrenamiento):
Existen algunos proyectos de código abierto muy alfa:
- https://github.com/mozilla/DeepSpeech (parte del proyecto Vaani de Mozilla: http://vaani.io ( espejo ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, un sistema para controlar un sistema Linux usando Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (para ser lanzado por Google, mencionado en Interspeech 2018)
También soy consciente de este intento de rastrear los estados de las artes y los resultados recientes (bibliografía) sobre el reconocimiento de voz. así como este punto de referencia de las API de reconocimiento de voz existentes .
Soy consciente de Aenea , que permite el reconocimiento de voz a través de Dragonfly en una computadora para enviar eventos a otra, pero tiene un costo de latencia:
También estoy al tanto de estas dos conversaciones que exploran la opción de Linux para el reconocimiento de voz:
- 2016 - La Undécima ESPERANZA: Codificación por voz con reconocimiento de voz de código abierto (David Williams-King)
- 2014 - Pycon: uso de Python para codificar por voz (Tavis Rudd)