Estoy buscando un software de texto a voz fácil de instalar para Ubuntu que suene natural. He instalado Festival
, Gespeaker
etc., pero nada suena muy natural. Todo muy sintético y difícil de entender.
¿Alguna recomendación por ahí?
Estoy buscando un software de texto a voz fácil de instalar para Ubuntu que suene natural. He instalado Festival
, Gespeaker
etc., pero nada suena muy natural. Todo muy sintético y difícil de entender.
¿Alguna recomendación por ahí?
Respuestas:
Un TTS muy minimalista, un mejor sonido que espeak o mbrola (en mi opinión). Alguna información aquí .
No entiendo por qué pico2wave, en comparación con espeak o mbrola, rara vez se discute. Es pequeño, pero suena muy bien (natural). Sin modificaciones, escuchará una voz femenina que suena natural.
Y ... en comparación con Mbrola, reconoce Unidades y lo dice de la manera correcta.
Por ejemplo:
Después de la instalación, lo uso en un script:
#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
Luego ejecútelo con el texto deseado:
<scriptname>.sh "hello world"
o lea el contenido de un archivo completo:
<scriptname>.sh "$(cat <filename>)"
Eso es todo para tener un TTS de trabajo ligero y estable en Ubuntu.
pico2wave
está en el paquete libttspico-utils
en versiones recientes de ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
pico2wave -w a.wav "$(input.txt)"
=). Acuerde que esta interfaz CLI es un mal diseño: a diferencia de la gran mayoría de las CLI, y es posible alcanzar la longitud máxima de arg de CLI del sistema operativo .
echo {1..1000}
Creo que he encontrado el mejor software TTS gratis usando una extensión de Google Chrome llamada "SpeakIt". Esto solo funciona en el navegador Chrome para mí en Ubuntu. No funciona con cromo por alguna razón. SpeakIt viene con dos voces femeninas que suenan muy realistas en comparación con todo lo demás. Hay al menos cuatro voces masculinas y femeninas más enlistadas en extensiones de Chrome si busca en Chrome Web Store usando "TTS" como su consulta.
Uso : Para uso en un sitio web. resalta el texto que desea que se lea y haga clic derecho y "SpeakIt" o haga clic en el icono SpeakIt acoplado en la barra superior de Chrome.
Los usuarios de Firefox también tienen dos opciones. Dentro de los complementos de Firefox, haga una búsqueda de TTS y debería encontrar "Haga clic en Hablar" y también "Texto a voz". Las voces no son tan buenas como las de Chrome SpeakIt, pero definitivamente son utilizables.
La extensión SpeakIt utiliza la tecnología iSpeech y, por un precio de $ 20 al año, el sitio puede convertir texto a archivos de audio MP3. Puede ingresar texto, URL, fuentes RSS, así como documentos como TXT, DOC y PDF y enviarlos a MP3. Puede hacer podcast, incrustar audio, etc. Aquí hay un enlace y una muestra de su audio (no sé cuánto durará el enlace).
Pico y espeak son divertidos y fáciles de conseguir, pero no son tan buenos. Las voces predeterminadas del Festival tampoco son tan buenas. Sin embargo, el Festival es un marco de discurso basado en esquemas, donde varios investigadores han construido voces de plug-in mucho mejores. Puede superar fácilmente la calidad pico2wave en Ubuntu, porque una de esas voces está disponible como un paquete listo para usar.
Para que el Festival suene natural, esto es lo que debe hacer:
sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts)
festival> (SayText "Don't hate me, I'm just doing my job!")
Puede hacerlo desde la línea de comandos usando -b
(o --batch
) y poniendo cada comando entre comillas simples:
festival -b '(voice_cmu_us_slt_arctic_hts)' \
'(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
Puede obtener otras voces bastante buenas del repositorio de Nitech, pero instalarlas es complicado, y las rutas predeterminadas cambiaron, por lo que las referencias de nombre de archivo en los archivos de esquema empaquetados pueden necesitar editarse manualmente para funcionar en Ubuntu.
Actualización de la página del proyecto (2019-02) : este proyecto actualmente no se mantiene y lo seguirá siendo en el futuro previsible
Debido a la falta de una mejor alternativa, escribí un script bash que interactúa con un script perl de Michal Fapso para proporcionar TTS a través del Traductor de Google. De la descripción del proyecto:
La intención es proporcionar una interfaz fácil de usar para la salida de texto a voz a través del sistema de síntesis de voz de Google. Una opción alternativa que utiliza pico2wave proporciona automáticamente la síntesis de TTS en caso de que no se encuentre una conexión a Internet.
Tal como está, el contenedor admite la lectura de entradas estándar, archivos de texto sin formato y la selección X (texto resaltado).
Las características principales son:
La instalación y el uso están documentados en la página del proyecto .
Me alegraría que lo intentaras. ¡Los informes de errores y cualquier otro comentario son bienvenidos!
He buscado por todas partes el texto a voz para Ubuntu que es de alta calidad. No hay ninguno. Mis cuerdas vocales están paralizadas, así que necesitaba TTS para agregar instrucciones de voz a mis videos de Ubuntu . Puede obtener software comercial de texto a voz de Linux de alta calidad aquí . Es realmente muy caro. Terminé comprando Natural Reader para Windows (no funciona en Ubuntu bajo Wine) por $ 40. Quizás más tarde obtenga el de Linux.
He estado investigando sobre el mejor sonido y la sintonización de las voces de texto a voz. A continuación hay una lista de lo que pensé que eran los 5 mejores productos en orden de calidad de sonido. La mayoría de los sitios web asociados con estos productos tienen una demostración interactiva que le permitirá tomar su propia determinación.
Las voces de Nitech HTS en el festival me parecen muy naturales y reconfortantes con respecto a cualquier otra voz que haya escuchado. Vea este enlace sobre cómo configurar Nitech y otros sonidos con festival. No he encontrado una buena interfaz gráfica de usuario que pueda usar para configurar esas voces, pero configurarlas a través de festival.scm todavía funciona. Esa publicación es muy antigua y es posible que desee encontrar el directorio de instalación real utilizando el comando "localizar festival"
Combine las herramientas SVOX (pico) con LibreOffice:
Las herramientas SVOX (pico) son fáciles de instalar y brindan voces de buena calidad en Ubuntu. Instalarlo:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
Puede usar LibreOffice en combinación con las herramientas SVOX (pico) instalando la extensión "Leer texto" y obtendrá una "GUI" para este excelente software TTS:
Configure las opciones de Leer extensión de texto con Herramientas - Complementos - Selección de lectura ... Use / usr / bin / python como programa externo. Seleccione una opción de línea de comando que incluya el token (PICO_READ_TEXT_PY) , es posible que desee experimentar algunos de ellos.
Ahora solo tiene que seleccionar texto en LO Writer, Calc, Impress o Draw y hacer clic en el icono agregado como barra de herramientas (una cara feliz con un globo).
Esto es lo que hice para tener un lenguaje natural puro para PDF y otros archivos de texto (otras soluciones no son naturales o son solo servicios pagados). Esto es realmente una solución para usar cromo o cromo, pero funciona de manera rápida y fácil.
También hay formas de abrir otros archivos como .doc y .txt en Chrome y hacer lo mismo. Hay otras extensiones para Chrome que ven archivos PDF, compruebe si le queda mejor. Además, puede cargar todo tipo de textos en Google Drive y usar SpeakIt! para leerlo por ti. Otra extensión llamada 'Hablar texto' funciona de la misma manera y tiene un habla natural.
Al buscar un mejor motor tts para usar con el nuevo modo narrativo firefox 49, encontré pico tts (svox), mi motor TTS favorito.
sudo apt install espeak libttspico0 libttspico-data libttspico-utils
¿Cómo cambiar el sistema de motor de síntesis de voz predeterminado en todo el sistema?
La gente de Arch Linux me llevó al camino correcto:
Descomente el módulo que desee y hágalo predeterminado en la configuración del despachador de voz:
# sudo vim /etc/speech-dispatcher/speechd.conf
[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak" "sd_espeak" "espeak.conf"
AddModule "pico-generic" "sd_generic" "pico-generic.conf"
[...]
#DefaultModule espeak
DefaultModule pico-generic
Reinicia el demonio:
# sudo systemctl restart speech-dispatcher.service
PERO, cuando se inicia Firefox nuevamente, no pasa nada. De acuerdo con el enlace anterior (publicación del foro del arco # 10 y # 16) funciona con el festival (no lo intentó), pero el despachador de voz para pico no enumera las voces disponibles. No correrá.
Cualquier idea por ahí sería muy apreciada ;-)
Mi programa favorito de texto a voz se llama Magic English, pero al igual que Natural Reader mencionado por Joe Steiger, es un programa de Windows y no estoy seguro de si se ejecutará en Wine.
AT&T Natural Voices está disponible en línea como una demostración, pero es más una solución que una solución ...
Pico, mbrola, cmu, festival, flite, todo SUCK en 2017 (fueron increíbles en los años 90). El discurso natural de AT&T (que es fantástico) no es compatible con Linux y no es gratuito, por lo tanto, usamos Google
git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
gTTS ( Google Text-to-Speech ), una biblioteca de Python y una herramienta CLI para interactuar con la API de texto a voz de Google Translate. Escribe
mp3
datos hablados en un archivo, un objeto similar a un archivo (cadena de bytes) para una mayor manipulación de audio, ostdout
.
Contras : solo CLI. Debe estar en línea, ya que requiere solicitar al punto final abierto público de Google.
sudo -H pip install gTTS # Install
Uso
gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
Algunos ya fueron mencionados
Mimic . Instalación:
sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check
eSpeak + Gespeaker (GUI) ( código fuente de Gespeaker )
Contras : viejo y feo
sudo apt install espeak gespeaker
Para eso construyo Intelligent Speaker - extensión para Google Chrome. Puede leer páginas incluso sin selección (cuando la detención de texto es correcta).