Acabo de tener éxito (bajo 16.04) con pdfocr.rb . Esto aparece en la wiki de Ubuntu
Aquí hay un ppa pero el repositorio para 16.04 no está actualizado. El script de rubí anterior de github, aunque todavía funciona con 16.04.
Puedes descargarlo desde Github. Necesitará los siguientes paquetes instalados:
ruby tesseract-ocr pdftk exactimage
luego hizo pdfocr.rb ejecutable y ejecutó:
./pdfocf.rb -i source.pdf -o output.pdf
Opcionalmente puede usar el -l LANG
parámetro. En ese caso, deberá instalar el tesseract-ocr-LANG
paquete, donde se LANG
encuentra el código de idioma ISO 639-2 de tres letras. En este momento tienes 108 idiomas en 16.04 repo.