¿Existe algún software de reconocimiento de voz decente para Linux?

50

La versión corta de la pregunta: estoy buscando un software de reconocimiento de voz que se ejecute en Linux y tenga una precisión y facilidad de uso decentes. Cualquier licencia y precio está bien. No debe restringirse a los comandos de voz, ya que quiero poder dictar texto.

Más detalles:

He intentado insatisfactoriamente lo siguiente:

CMU Sphinx
CVoiceControl
Orejas
Julius
Kaldi (p. Ej., Servidor Kaldi GStreamer )
IBM ViaVoice (solía ejecutarse en Linux pero se suspendió hace años)
NICO ANN Toolkit
OpenMindSpeech
RWTH ASR
gritar
silvius (construido en el kit de herramientas de reconocimiento de voz Kaldi)
Simon escucha
ViaVoice / Xvoice
Wine + Dragon NaturallySpeaking + NatLink + dragonfly + damselfly
https://github.com/DragonComputer/Dragonfire : solo acepta comandos de voz

Todas las soluciones nativas de Linux mencionadas anteriormente tienen poca precisión y facilidad de uso (o algunas no permiten el dictado de texto libre sino solo comandos de voz). Por mala precisión, quiero decir una precisión significativamente inferior a la que tiene el software de reconocimiento de voz que mencioné a continuación para otras plataformas. En cuanto a Wine + Dragon NaturallySpeaking, en mi experiencia sigue fallando, y desafortunadamente no parece ser el único en tener tales problemas.

En Microsoft Windows uso Dragon NaturallySpeaking, en Apple Mac OS XI uso Apple Dictation y DragonDictate, en Android uso el reconocimiento de voz de Google, y en iOS uso el reconocimiento de voz de Apple incorporado.

Baidu Research lanzó ayer el código para su biblioteca de reconocimiento de voz usando la Clasificación Temporal Connectionist implementada con Torch. Los puntos de referencia de Gigaom son alentadores, como se muestra en la siguiente captura de pantalla, pero no conozco ningún buen contenedor para que pueda usarse sin bastante codificación (y un gran conjunto de datos de entrenamiento):

Existen algunos proyectos de código abierto muy alfa:

https://github.com/mozilla/DeepSpeech (parte del proyecto Vaani de Mozilla: http://vaani.io ( espejo ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, un sistema para controlar un sistema Linux usando Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (para ser lanzado por Google, mencionado en Interspeech 2018)

También soy consciente de este intento de rastrear los estados de las artes y los resultados recientes (bibliografía) sobre el reconocimiento de voz. así como este punto de referencia de las API de reconocimiento de voz existentes .

Soy consciente de Aenea , que permite el reconocimiento de voz a través de Dragonfly en una computadora para enviar eventos a otra, pero tiene un costo de latencia:

También estoy al tanto de estas dos conversaciones que exploran la opción de Linux para el reconocimiento de voz:

2016 - La Undécima ESPERANZA: Codificación por voz con reconocimiento de voz de código abierto (David Williams-King)
2014 - Pycon: uso de Python para codificar por voz (Tavis Rudd)

software-rec speech-recognition

— Franck Dernoncourt
fuente

2

Algún detalle sobre lo que encontró "insatisfactorio" podría avanzar en su tema de publicación, que de otro modo sería interesante, pero bastante general. Por ejemplo: ¿qué encontró específicamente insatisfactorio acerca de la combinación "Wine + Dragon NaturallySpeaking"? (¿cómo no pudo replicar su experiencia de Windows?)

— Theophrastus

1

@Theophrastus Básicamente, todas las soluciones nativas de Linux tienen poca precisión y usabilidad. Por mala precisión, quiero decir una precisión significativamente inferior a la que tiene el software de reconocimiento de voz que mencioné para otras plataformas. En cuanto a Wine + Dragon NaturallySpeaking, en mi experiencia sigue fallando, y desafortunadamente no parece ser el único en tener tales problemas ( appdb.winehq.org/… )

— Franck Dernoncourt

1

No he probado estos, pero en caso de que alguien lo encuentre útil: github.com/Uberi/speech_recognition y jasperproject.github.io y github.com/benoitfragit/google2ubuntu

— Hatshepsut

¿Existe alguno de estos software que tenga una herramienta de línea de comandos? Sería muy interesante combinar el reconocimiento de voz con una herramienta para presionar teclas y mover el mouse como xdotool ( github.com/jordansissel/xdotool ) o xsendkey ( github.com/kyoto/sendkeys ).

— baptx

13

En este momento estoy experimentando con el uso de KDE connect en combinación con el reconocimiento de voz de Google en mi teléfono inteligente Android.

KDE connect le permite usar su dispositivo Android como dispositivo de entrada para su computadora Linux (también hay algunas otras características). Debe instalar la aplicación KDE connect de Google Play Store en su teléfono inteligente / tableta e instalar kdeconnect e indicador-kdeconnect en su computadora Linux. Para los sistemas Ubuntu, la instalación es la siguiente:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

La desventaja de esta instalación es que instala un montón de paquetes de KDE que no necesita si no utiliza el entorno de escritorio KDE.

Una vez que vincule su dispositivo Android con su computadora (deben estar en la misma red), puede usar el teclado de Android y luego hacer clic / presionar en el micrófono para usar el reconocimiento de voz de Google. Mientras habla, el texto comenzará a aparecer donde esté el cursor activo en su computadora Linux.

En cuanto a los resultados, están un poco confusos para mí, ya que actualmente estoy escribiendo un documento de astrofísica técnica y el reconocimiento de voz de Google está luchando con la jerga que normalmente no se lee. También olvídate de calcular la puntuación o la capitalización adecuada.

— quemador de choque
fuente

4

Por ahora, solo el cuaderno de voz funciona en Linux.

— Alexei
fuente

2

Gracias, aunque solo funciona en el navegador Chrome.

— Franck Dernoncourt

3

Cuando un Linuxer más buscaba un útil programa de voz a texto (dictado), eché un vistazo a speechpad.pw:

reconoce muy bien mi lengua materna
funciona rápido y muy confiable

Desventajas:

por supuesto, es un software patentado y cerrado de Google
un servicio de Google escuchará, procesará y supuestamente almacenará cada palabra que diga
el audio y el texto serán procesados y obviamente almacenados por Google
speechpad.pw requiere una tarifa de suscripción mensual / trimestral / anual
speechpad.pw solo se ejecuta como un complemento para el navegador Google Chrome, ningún otro navegador

Por lo tanto, speechpad.pw es de propiedad exclusiva y también de código cerrado y también está vinculado a Google, que todos conocemos como un colector de metadatos, información personal y contenido personal sin dormir.

Estos inconvenientes lo convierten en una aplicación prohibida para mí, aunque el reconocimiento de voz en sí funciona muy bien, mucho mejor que cualquier otra cosa que haya visto hasta ahora.

— también
fuente

Gracias, sí, desventajas significativas, especialmente porque solo funciona en el navegador Chrome.

— Franck Dernoncourt

1

Podrías usar Google Docs en Chrome y usar su opción "Herramientas" »" Voces Escribiendo ... ". Probablemente sea el mismo software de reconocimiento de voz, pero es gratis. Luego, copie y pegue los resultados de su documento en cualquier lugar donde necesite el texto.

— Alexis Wilke

2

La aplicación de Chrome "VoiceNote II" ( http://voicenote.in/ ) funciona muy bien en mi máquina Xubuntu 16.04. No se requiere entrenamiento de voz, y la configuración fue simple. Una búsqueda para encontrarlo, un clic para instalar, un clic para crear un acceso directo y vincularlo al Escritorio.

— Indy Tech Fix
fuente

Gracias, solo funciona en Google Chrome

— Franck Dernoncourt

0

Sugeriría usar dragon en su teléfono o tableta, y luego enviarse el texto por correo electrónico. Es un lastre pero funciona y es muy preciso. Si insiste en usar Linux para esto, obtener una segunda pantalla hará que la vida sea mucho más fácil de copiar y pegar.

No lo he intentado, pero es posible que pueda usar o adaptar el programa Python Bluetooth Chat con dragon en su tableta / teléfono. También puede haber aplicaciones de teclado remoto para dispositivos móviles que admitan la entrada de dictado.

Experimentaré e intentaré contactarte con algo más definitivo.

— usuario273470
fuente

0

Estoy usando la aplicación KD Connect. ¡está funcionando con bastante eficacia! Puedo mantener mis ojos en el monitor mientras hablo con el teléfono en el escritorio. El único inconveniente es que esto se hace a través del teclado de Google. no es gratis, nativo ni de código abierto. Este comentario ha sido publicado sin hacer ninguna corrección de tipo

— Josh Levine
fuente

-2

Puede usar voz a texto en la aplicación de Linux Esta aplicación usa Google Speech Api y un módulo de integración binario para Linux de 32 o 64 bits. Puede ver una breve presentación del uso de las herramientas speechpad.pw en Ubuntu

— Pavel Popov
fuente

1

OP está buscando un motor de voz a texto. Eso es solo un contenedor web-UI (y uno malo en eso) alrededor de un motor STT.

— Cerin