¿Aplicación de reconocimiento de voz para convertir MP3 a texto?


Respuestas:


21

El software que puede usar es CMUSphinx . A diferencia de lo sugerido en otra respuesta, Julius no es adecuado porque requiere modelos. Los modelos de reconocimiento de voz de vocabulario extenso no están disponibles para Julius.

Puede usar pocketsphinx para convertir archivos de audio. Esos dos comandos deben hacer el trabajo. Primero convierte el archivo al formato requerido y luego lo reconoce:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

La corrida de la esfinge

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

El resultado se almacenará en result.txt.


Además, como una adición a esta respuesta, hay una demostración genial de ambas speech recognitiony voice commandherramientas aquí: youtube.com/…
Daithí

¿Cómo agrega un modelo acústico al sistema?
jarno

Simplemente descargue y desempaquete, no hay tal cosa como "agregar al sistema"
Nikolay Shmyrev

@NikolayShmyrev ¿Dónde debo desempacarlo para que pocketsphinx_continuous lo encuentre?
jarno

44
Bueno, instalé los paquetes pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj y pocketsphinx-lm-en-hub4 en el repositorio universal de Ubuntu 14.04. Entonces pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logtrabajado. Tal vez no sean paquetes óptimos, pero fueron las mejores coincidencias que pude encontrar en los repositorios.
jarno

12

Sé que esto es antiguo, pero para ampliar la respuesta de Nikolay y, con suerte, salvar a alguien en el futuro, para que una versión actualizada de pocketsphinx funcione, debe compilarla desde el repositorio de github o sourceforge (no estoy seguro) que se mantiene más actualizado). Tenga en cuenta que -j8 significa ejecutar 8 trabajos separados en paralelo si es posible; Si tiene más núcleos de CPU, puede aumentar el número.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Luego, desde: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ descargue las versiones más recientes de cmusphinx-en-us-....tar.gzyen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Luego, finalmente puede continuar con los pasos de la respuesta de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx funciona bien. No confiaría en él para hacer una versión legible del texto, pero es lo suficientemente bueno como para que pueda buscarlo si está buscando una cita en particular. Eso funciona especialmente bien si utiliza un algoritmo de búsqueda como Xapian ( http://www.lesbonscomptes.com/recoll/ ) que acepta comodines y no requiere expresiones de búsqueda exactas.

Espero que esto ayude.


44
todo funciona de maravilla, pero en mi caso tuve que ejecutar el siguiente comando para arreglar pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

Si está buscando convertir voz a texto, puede intentar abrir su Centro de software de Ubuntu y buscar Julius

Descripción

"Julius" es un software decodificador de reconocimiento de voz continuo (LVCSR) de alto rendimiento y vocabulario grande de dos pasadas para investigadores y desarrolladores relacionados con el habla.

O otra opción que no está en el Centro de software es Simon

... es un programa de reconocimiento de voz de código abierto y reemplaza el mouse y el teclado.

Enlaces de referencia

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.