Pero, ¿cómo es esto posible?
Básicamente, un programa realiza OCR en el archivo de entrada y luego coloca una capa invisible de texto sobre la imagen. Alternativamente, también podría colocar una capa visible de texto debajo de la imagen, dando el mismo efecto.
Cuando selecciona algo, la imagen no importa porque se selecciona la capa de texto.
¿Cómo se puede crear esto?
Hay varias formas Dado que Acrobat ya ha sido sugerido, agregaré algunas opciones gratuitas (y afortunadamente no está obligado a tener Windows para usarlas).
PDF-XChange Viewer
Este es un programa nativo de Windows de Tracker Software . La versión gratuita funciona bien con Wine si usa la edición de 32 bits en un prefijo de 32 bits, por lo tanto , puede usarla en Windows, macOS y Linux. En los últimos dos casos, necesitaría PlayOnMac o PlayOnLinux respectivamente.
Aquí hay una foto de esta respuesta que dejé en Ask Ubuntu:
OCRmyPDF
Este es un programa multiplataforma escrito en Python , basado en Ghostscript, Tesseract y Unpaper. De los documentos:
Lo que hace OCRmyPDF
OCRmyPDF analiza cada página de un PDF para determinar el espacio de color y la resolución (DPI) necesarios para capturar toda la información en esa página sin perder contenido. Utiliza Ghostscript para rasterizar la página y luego se realiza en OCR en la imagen rasterizada para crear una "capa" de OCR. La capa se injerta nuevamente en el PDF original.
Se puede instalar fácilmente en derivados de Debian y Ubuntu:
apt-get install ocrmypdf
O en macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
En Windows, necesitaría usar la imagen Docker. Consulte los documentos oficiales para más detalles.
El uso es muy simple y le sugiero que utilice los parámetros opcionales -d
(desalineación) y -c
(limpieza) para obtener mejores resultados. Enderezará cada página y limpiará pequeños puntos / imperfecciones antes de ejecutar el proceso de OCR.
Puede (y debe) proporcionar el idioma -l
.
Aquí hay un ejemplo tomado de este documento sesgado escrito en italiano:
El comando que usé fue:
ocrmypdf -l ita -d -c input.pdf output.pdf
Herramientas en línea
Hay algunas herramientas en línea que hacen lo mismo. Cabe destacar que PDF24 aloja una versión gratuita basada en la web de OCRmyPDF que se puede usar sin limitaciones.
Ver también: