Estoy buscando una herramienta de secuencias de comandos fuera de línea que haga que se pueda buscar un archivo PDF existente ejecutando OCR en él, reemplazando el archivo original que no se puede buscar con la versión que se puede buscar, y que se puede ejecutar sin supervisión.
Por ejemplo, www.pdfscannerapp.com: hace exactamente lo que necesito, pero es solo GUI, no programable.
Soy consciente de que Evernote hace que los archivos PDF se puedan buscar, pero solo se pueden buscar dentro de Evernote.
No estoy buscando un OCR perfecto, incluso un OCR moderadamente aceptable está bien, pero preferiría una pequeña utilidad en lugar de un paquete de software voluminoso.
(Soy consciente de una pregunta similar, pero diferente sobre AD: Buscando software para escanear o convertir a PDF con capacidad de búsqueda y firmable ; sin embargo, no necesito firmar o completar archivos PDF, y mi requisito es que la solución sea programable)
EDITAR:
1) Varias utilidades permiten la extracción de texto estructurado, sin embargo, para ser extraído, el texto debe estar allí; Me refiero principalmente a los PDF que son mapas de bits envueltos, como es el caso de los PDF simples generados por escáneres.
2) No estoy necesariamente buscando una solución gratuita, y estaría más que feliz de pagar por una buena utilidad que solo hace lo que necesito, pero no estoy buscando aplicaciones voluminosas con un millón de características que incluyen una función de OCR, pero cuyo costo no justifica comprarlos solo por la funcionalidad OCR.
3) Como se indicó anteriormente, no estoy buscando un OCR perfecto, solo un OCR moderadamente aceptable. Desafortunadamente, en mi experiencia, tesseract está realmente por debajo de ese umbral. Defino "moderadamente aceptable" un OCR que puede, por ejemplo, OCR una factura de servicios públicos para que al menos el número de cuenta (número de cliente) se reconozca correctamente.
EDITAR: "programable" o "automatizable", es decir, que puede activarse automáticamente y ejecutarse desatendido sin intervención humana alguna.