¿Existe algún software de reconocimiento de voz decente para Linux?


50

La versión corta de la pregunta: estoy buscando un software de reconocimiento de voz que se ejecute en Linux y tenga una precisión y facilidad de uso decentes. Cualquier licencia y precio está bien. No debe restringirse a los comandos de voz, ya que quiero poder dictar texto.


Más detalles:

He intentado insatisfactoriamente lo siguiente:

Todas las soluciones nativas de Linux mencionadas anteriormente tienen poca precisión y facilidad de uso (o algunas no permiten el dictado de texto libre sino solo comandos de voz). Por mala precisión, quiero decir una precisión significativamente inferior a la que tiene el software de reconocimiento de voz que mencioné a continuación para otras plataformas. En cuanto a Wine + Dragon NaturallySpeaking, en mi experiencia sigue fallando, y desafortunadamente no parece ser el único en tener tales problemas.

En Microsoft Windows uso Dragon NaturallySpeaking, en Apple Mac OS XI uso Apple Dictation y DragonDictate, en Android uso el reconocimiento de voz de Google, y en iOS uso el reconocimiento de voz de Apple incorporado.

Baidu Research lanzó ayer el código para su biblioteca de reconocimiento de voz usando la Clasificación Temporal Connectionist implementada con Torch. Los puntos de referencia de Gigaom son alentadores, como se muestra en la siguiente captura de pantalla, pero no conozco ningún buen contenedor para que pueda usarse sin bastante codificación (y un gran conjunto de datos de entrenamiento):

ingrese la descripción de la imagen aquí

Existen algunos proyectos de código abierto muy alfa:

También soy consciente de este intento de rastrear los estados de las artes y los resultados recientes (bibliografía) sobre el reconocimiento de voz. así como este punto de referencia de las API de reconocimiento de voz existentes .


Soy consciente de Aenea , que permite el reconocimiento de voz a través de Dragonfly en una computadora para enviar eventos a otra, pero tiene un costo de latencia:

ingrese la descripción de la imagen aquí

También estoy al tanto de estas dos conversaciones que exploran la opción de Linux para el reconocimiento de voz:


2
Algún detalle sobre lo que encontró "insatisfactorio" podría avanzar en su tema de publicación, que de otro modo sería interesante, pero bastante general. Por ejemplo: ¿qué encontró específicamente insatisfactorio acerca de la combinación "Wine + Dragon NaturallySpeaking"? (¿cómo no pudo replicar su experiencia de Windows?)
Theophrastus

1
@Theophrastus Básicamente, todas las soluciones nativas de Linux tienen poca precisión y usabilidad. Por mala precisión, quiero decir una precisión significativamente inferior a la que tiene el software de reconocimiento de voz que mencioné para otras plataformas. En cuanto a Wine + Dragon NaturallySpeaking, en mi experiencia sigue fallando, y desafortunadamente no parece ser el único en tener tales problemas ( appdb.winehq.org/… )
Franck Dernoncourt

1
No he probado estos, pero en caso de que alguien lo encuentre útil: github.com/Uberi/speech_recognition y jasperproject.github.io y github.com/benoitfragit/google2ubuntu
Hatshepsut

¿Existe alguno de estos software que tenga una herramienta de línea de comandos? Sería muy interesante combinar el reconocimiento de voz con una herramienta para presionar teclas y mover el mouse como xdotool ( github.com/jordansissel/xdotool ) o xsendkey ( github.com/kyoto/sendkeys ).
baptx

Respuestas:


13

En este momento estoy experimentando con el uso de KDE connect en combinación con el reconocimiento de voz de Google en mi teléfono inteligente Android.

KDE connect le permite usar su dispositivo Android como dispositivo de entrada para su computadora Linux (también hay algunas otras características). Debe instalar la aplicación KDE connect de Google Play Store en su teléfono inteligente / tableta e instalar kdeconnect e indicador-kdeconnect en su computadora Linux. Para los sistemas Ubuntu, la instalación es la siguiente:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

La desventaja de esta instalación es que instala un montón de paquetes de KDE que no necesita si no utiliza el entorno de escritorio KDE.

Una vez que vincule su dispositivo Android con su computadora (deben estar en la misma red), puede usar el teclado de Android y luego hacer clic / presionar en el micrófono para usar el reconocimiento de voz de Google. Mientras habla, el texto comenzará a aparecer donde esté el cursor activo en su computadora Linux.

En cuanto a los resultados, están un poco confusos para mí, ya que actualmente estoy escribiendo un documento de astrofísica técnica y el reconocimiento de voz de Google está luchando con la jerga que normalmente no se lee. También olvídate de calcular la puntuación o la capitalización adecuada.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí



3

Cuando un Linuxer más buscaba un útil programa de voz a texto (dictado), eché un vistazo a speechpad.pw:

  • reconoce muy bien mi lengua materna
  • funciona rápido y muy confiable

Desventajas:

  • por supuesto, es un software patentado y cerrado de Google
  • un servicio de Google escuchará, procesará y supuestamente almacenará cada palabra que diga
  • el audio y el texto serán procesados ​​y obviamente almacenados por Google
  • speechpad.pw requiere una tarifa de suscripción mensual / trimestral / anual
  • speechpad.pw solo se ejecuta como un complemento para el navegador Google Chrome, ningún otro navegador

Por lo tanto, speechpad.pw es de propiedad exclusiva y también de código cerrado y también está vinculado a Google, que todos conocemos como un colector de metadatos, información personal y contenido personal sin dormir.

Estos inconvenientes lo convierten en una aplicación prohibida para mí, aunque el reconocimiento de voz en sí funciona muy bien, mucho mejor que cualquier otra cosa que haya visto hasta ahora.


Gracias, sí, desventajas significativas, especialmente porque solo funciona en el navegador Chrome.
Franck Dernoncourt

1
Podrías usar Google Docs en Chrome y usar su opción "Herramientas" »" Voces Escribiendo ... ". Probablemente sea el mismo software de reconocimiento de voz, pero es gratis. Luego, copie y pegue los resultados de su documento en cualquier lugar donde necesite el texto.
Alexis Wilke

2

La aplicación de Chrome "VoiceNote II" ( http://voicenote.in/ ) funciona muy bien en mi máquina Xubuntu 16.04. No se requiere entrenamiento de voz, y la configuración fue simple. Una búsqueda para encontrarlo, un clic para instalar, un clic para crear un acceso directo y vincularlo al Escritorio.


Gracias, solo funciona en Google Chrome
Franck Dernoncourt

0

Sugeriría usar dragon en su teléfono o tableta, y luego enviarse el texto por correo electrónico. Es un lastre pero funciona y es muy preciso. Si insiste en usar Linux para esto, obtener una segunda pantalla hará que la vida sea mucho más fácil de copiar y pegar.

No lo he intentado, pero es posible que pueda usar o adaptar el programa Python Bluetooth Chat con dragon en su tableta / teléfono. También puede haber aplicaciones de teclado remoto para dispositivos móviles que admitan la entrada de dictado.

Experimentaré e intentaré contactarte con algo más definitivo.


0

Estoy usando la aplicación KD Connect. ¡está funcionando con bastante eficacia! Puedo mantener mis ojos en el monitor mientras hablo con el teléfono en el escritorio. El único inconveniente es que esto se hace a través del teclado de Google. no es gratis, nativo ni de código abierto. Este comentario ha sido publicado sin hacer ninguna corrección de tipo


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.