Visión general
Lo que está buscando son herramientas como Scan Tailor y unpaper que son capaces de eliminar los umbrales , eliminar el ruido y eliminar el ruido . Ambas herramientas funcionan con imágenes en lugar de archivos PDF, pero puede convertir fácilmente entre los diferentes formatos que usan estas aplicaciones y PDF utilizando las herramientas descritas al final de esta respuesta.
ScanTailor
Puedes encontrar un video tutorial aquí . Hay documentación más extensa disponible en la wiki oficial . Probablemente le interesará más la página sobre el modo de salida en blanco y negro y la configuración del filtro .
Unpaper
Todavía no he trabajado unpaper
conmigo mismo. Por lo que entiendo, tiene muchas más funciones que ScanTailor, pero también es mucho más difícil de dominar.
No hay una interfaz gráfica de usuario y tendrá que confiar en los interruptores de línea de comandos para realizar su trabajo. Por otro lado, esto significa que las conversiones unpaper
pueden automatizarse fácilmente mediante scripts.
Puede encontrar algunos ejemplos de secuencias de comandos relacionados con la conversión de un escaneo a blanco y negro y la eliminación del fondo aquí .
Algunas herramientas útiles cuando se trabaja con unpaper y ScanTailer
No tengo tiempo suficiente para escribir un tutorial completo sobre ScanTailor y unpaper¹ pero aquí hay algunos consejos sobre la conversión .pdf
y los formatos de imagen compatibles con estas herramientas:
Puede usar pdfimages
para convertir documentos PDF en archivos de una sola página .ppm
, que pueden leerse unpaper
.
Ejemplo de uso:
pdfimages *.pdf ./extracted-images
ScanTailor no toma .ppm
archivos como entrada. Tendrás que convertirlos a otro formato como el .png
primero sin pérdidas . mogrify
fuera del imagemagick
conjunto de herramientas puede hacer esto por usted.
Ejemplo de uso:
mogrify -format png *.ppm
El formato de salida de ScanTailor y unpaper son .tiff
archivos de una sola página . Para volver a convertirlos a .pdf
, sugeriría usar tiffcp
y tiff2pdf
.
Ejemplo de uso:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
Instalación
Este comando instalará todas las herramientas mencionadas anteriormente:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹: Para cualquiera que lea esto, no dude en compilar una respuesta más extensa basada en ScanTailor y / o unpaper.