¿Alguna herramienta para automatizar el OCR de archivos PDF escaneados de manera similar a la función OCR de Acrobat? [cerrado]

Código abierto preferido, pero no necesario.

Tengo Adobe Acrobat 8, y realmente me gusta la función OCR que esencialmente puede poner una capa invisible de texto OCR en la parte superior de un documento escaneado. Por lo tanto, lo que ve en la pantalla es el documento escaneado original, pero se puede buscar el resultado.

Lo que estoy buscando es una forma de automatizar este proceso. Actualmente tengo algunos scripts que utilizamos para procesar y archivar archivos escaneados, y estoy buscando algo que pueda conectar directamente a este proceso por lotes para hacer OCR de una manera similar a lo que puedo hacer con Acrobat.

Todas las sugerencias son bienvenidas, gracias!

pdf document-management ocr

— Boden
fuente

PD: Intento mantener las preguntas del usuario en superusuario. Sin embargo, la implementación que resulta de esta pregunta definitivamente vivirá en el servidor que tengo procesando la documentación escaneada ... por lo que fue un fracaso.

— Boden

Respuestas:

Tengo esto implementado en un proyecto de archivo de documentos de la empresa. El archivo escaneado es un archivo tif (página única). Luego, usando Cuneiform para crear un archivo hocr del tif único. Luego, usando hocr2pdf para generar el archivo PDF. Si hay varias páginas escaneadas, uso gs para combinar los PDF en un solo documento PDF. Funciona realmente bien, OCR es lo suficientemente bueno para nuestras necesidades y se puede buscar en cualquier visor de PDF.

— xeon
fuente

Interesante. Antes de pasar demasiado tiempo mirándolo, ¿el PDF resultante es la imagen del escaneo original con una capa de texto incrustada, o es solo texto?

— Boden

Es la imagen del escaneo original con capa de texto incrustado. El archivo hocr es salida de texto con marcas html.

— xeon el

Excelente. Voy a intentarlo. Si parece que funcionará, marcaré su respuesta aceptada. ¡Gracias!

— Boden

Gracias de nuevo. Un poco difícil instalar a estos dos tipos, pero está funcionando. Escribí un script simple para verificar una carpeta FTP en busca de nuevos archivos .tif en los que se ejecute cuneiforme y hocr2pdf, luego cargue los resultados en una biblioteca de documentos de Sharpoint usando curl. Por lo tanto, las personas pueden archivar documentos directamente desde la máquina copiadora, y los archivos se pueden buscar por texto. Pregunta: ¿sabe qué hace la opción "sobrescribir resolución" en hocr2pdf?

— Boden el

Me alegra que te esté funcionando. No sé si el argumento -r sí.

— xeon

¿Has mirado en WatchOCR? Puede descargarlo desde http://www.watchocr.com. Es un servidor de OCR gratuito y de código abierto que transforma archivos PDF de imagen solamente en archivos PDF con capacidad de búsqueda de texto desde una carpeta vigilada o recurso compartido de red.

— argot
fuente

Me gustan los sonidos de la respuesta de xeon, aunque OCRopus suena muy divertido.

— Kara Marfia
fuente

Cuando estaba investigando y probando diferentes soluciones. Intenté eso y tesseract-ocr y no tenían una buena salida a PDF en ese momento. No he mirado en si tienen esas características ... sé tesseract-ocr lo tiene en su línea de tiempo ...

— Xeon