¿OCR por lotes para muchos archivos PDF (no OCR)? [cerrado]

9

Uso Google Desktop Search (estoy en Vista) y no todos mis archivos PDF se reconocen en mi carpeta de archivo. Es normal ya que los " archivos PDF que contienen imágenes escaneadas " no están indexados ( http://desktop.google.com/support/bin/answer.py?hl=es&answer=90651 )

Por lo tanto, me gustaría OCR muchos de mis archivos PDF que aún no están OCRed. Mi objetivo: le doy una carpeta al programa y busca solo en las subcarpetas los archivos PDF que deben convertirse en archivos PDF-OCR.

Nota: en el pasado, si un archivo PDF estaba protegido con contraseña, eliminaba la contraseña con otra herramienta de lote (pago): verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

¿Alguna idea (no demasiado cara)?

Ya lo intenté: Finereader 6 pro en xp en ese momento, pero no había un procesador por lotes incluido ... Paperfile paperfile.net que usa Tesseract http://code.google.com/p/tesseract-ocr/ . ¡Pero el OCR es solo PDF a texto, no PDF a PDF! También hay otro proyecto http://code.google.com/p/ocropus/

Gracias por adelantado ;)

pdf ocr desktop-search

— Erb
fuente

Actualización de un año más tarde: Hola. Aparentemente, el software "ABBYY Hot Folder & Scheduling", incluido solo en ABBYY FineReader (> v. 9.0), ediciones de licencia corporativa y de sitio, puede ayudar (¡no lo probé: 600 $!). También Tesseract debería estar trabajando en Windows ahora (¡sin éxito para mí ahora!;)

— Erb

Además, ABBYY FineReader (> v. 9.0) Pro edition tiene una tarea de automatización: usted elige la carpeta principal + sus subcarpetas, y hace el trabajo. ¡Pero el problema principal es que abre todos los pdf a la vez (!!), luego los lee (= ocr) y luego guarda un archivo pdf único! Entonces, si tienes cientos de pdf, ¡no me funciona! ; (¡Lástima, qué pesadilla!; (

— Erb

6

tl; dr? Comience con Nuance PowerPDF Advanced.

Evalué el software OCR en diciembre de 2014 en preparación para un gran proyecto: OCR en millones de páginas en inglés hechas en lotes. Si está dispuesto a gastar unos cientos de dólares, tiene muchas opciones; las versiones de prueba pueden ayudarlo si solo necesita convertir unos cientos de páginas.

Muchos paquetes de software quieren cargar todos los archivos de entrada, hacer OCR y unir el desorden en una sola salida. En mi humilde opinión, esto está muy mal, no tengo idea de quién querría eso. Estaba buscando un lote verdadero: un archivo de salida para cada archivo de entrada, operación desatendida, no se detenga para nada, deme un informe detallado al final. Alerta de spoiler: no encontré eso.

Los paquetes en orden alfabético siguen. Los precios que se muestran a continuación son listados pero abundan los descuentos. Tome mis comentarios sobre la precisión con un grano de sal; sus entradas no serán las mismas que mis entradas, por lo que su kilometraje ciertamente variará.

ABBYY Finereader 12 Corporate: $ 400. La función de lote se llama "Administrador de tareas" y está en el menú Herramientas. Procesará archivos desde una carpeta, incluidas las subcarpetas; felizmente creará un archivo de salida separado para cada archivo de entrada. No parece capaz de preservar la jerarquía de carpetas de entrada; todos los archivos de salida fueron a la misma carpeta de salida. La precisión fue alta en mis pruebas, pero aún así es el más bajo de los paquetes que he enumerado aquí.

Adobe Acrobat XI: $ 300. La función de lote se llama "Reconocimiento de texto / En varios archivos", que se puede encontrar haciendo clic en Herramientas (tercera barra de herramientas, parte superior derecha de la pantalla principal). Procesa subcarpetas, una salida para cada entrada. Se detiene y muestra un mensaje si encuentra un archivo protegido con contraseña. No conserva el árbol de directorio de entrada de forma predeterminada; puede hacerlo escribiendo la salida en la misma carpeta que la entrada. La precisión fue bastante buena en mis pruebas.

Nuance OmniPage Ultimate (también conocido como v19): $ 500. La función de lote se llama "DocuDirect" y es un programa separado que viene con el paquete. Procesará carpetas y subcarpetas; si selecciona las características correctas, conservará el árbol del directorio de entrada en el área de salida. Una salida para cada entrada. Detiene y exige una contraseña para un archivo protegido. Parece aprovechar al máximo los procesadores multi-core para ejecutar tareas en paralelo. La precisión fue excelente . Pero la estabilidad del procesador por lotes es pobre; un documento borroso lo detendrá en seco, nunca se recuperará, descarrilando un lote con facilidad.

Nuance PowerPDF Advanced v1.1 (sucesor de OmniPage Ultimate): $ 150. La función Batch se llama "Batch Converter" y se puede acceder desde el programa principal en la pestaña Procesamiento avanzado. Procesará carpetas y subcarpetas, preservando la estructura de entrada en la salida. Una salida para cada entrada. Utilizará múltiples núcleos, pero no agresivamente; lo que eso significa es que no pude lograr que saturara un host de múltiples núcleos. La precisión es excelente , tan buena o mejor que OmniPage. Los archivos incorrectos o borrosos no hicieron que se bloqueara. El procesador por lotes escribe ( descarga ) un archivo de registro de texto sin formato en el directorio de salida.

ReadIris Corporate 14: $ 600. La función de lote se invoca mediante el elemento "BCR OCR" que se revela al hacer clic en el botón "De archivos" en la pantalla principal. Procesará carpetas y subcarpetas, una salida para cada entrada y, por defecto, la estructura del directorio de salida coincide con la estructura del directorio de entrada. Detiene y exige la entrada del usuario en un archivo no válido; procesa sin más quejas todos los documentos protegidos aparentemente mediante OCR de la imagen. La precisión fue muy buena, a la par con Acrobat.

En mi máquina de escritorio (solo doble núcleo), con mis entradas elegidas, cada paquete requería al menos 3 segundos para procesar una página; algunos tomaron más. Podría ser capaz de reducir esto en una máquina con más núcleos.

Abundan los problemas, asegúrese de planificarlos: archivos PDF no válidos (algunos paquetes se detienen), archivos PDF protegidos con contraseña (algunos paquetes se detienen, otros se convierten de todos modos) y páginas rotadas (horizontal en lugar de vertical). Si desea que el lote se ejecute hasta su finalización, debe preparar el área de entrada para estos paquetes con mucho, mucho cuidado. Busque en la función de impresión a PDF del paquete GhostScript una forma de eliminar la protección de los PDF.

Ejecutar lotes grandes puede provocar agotamiento de la memoria y problemas de bloqueo, incluso aunque no debería (por ejemplo, probablemente fugas de memoria). Si está haciendo algún tipo de automatización, un gran problema es descubrir después del hecho lo que realmente sucedió: qué documentos no se pudieron procesar, cuáles fallaron durante el procesamiento, etc. Es como si el software de escritorio nunca hubiera oído hablar de algo llamado "archivo de registro".

Finalmente, obtener soporte, incluso como cliente que paga, es bastante difícil para estos paquetes de mercado masivo. Por ejemplo, me quejé a un estimado representante de atención al cliente sobre un paquete (que permanecerá sin nombre) que cuelga para algunas entradas grandes. Esperé 36 horas antes de rendirme :). Sugirieron dulcemente limitar el tamaño del lote a 300 documentos. Eso fue completamente inaceptable para mí, pero bueno, ese ticket de soporte se cerró rápidamente, ¿verdad? Y eso es todo lo que importa, ¿verdad? Suspiro.

HTH

— chrisinmtown
fuente

Hola Chrislott, gracias por tu respuesta detallada. ;) Lo aprecio. ;) Estamos más de 4 años después y todavía increíblemente ningún software es perfecto para simplemente hacer un OCR automático en una carpeta y lanzar un archivo de registro con errores una vez terminado. ... Tal vez intente contactar a Nuance.

— Erb

Por ahora uso una versión anterior de Acrobat pro y varios freeware. Es un proceso largo. ¡Puedo detallarlo si es necesario! ¡Pero el trabajo se hace lo mejor posible! ;)

— Erb

3

Adobe Acrobat procesará una carpeta de archivos PDF y, como la mayoría de los productos de Adobe, hay una prueba de 30 días .
La función se encuentra en el menú 'Documento':

Documento> Reconocimiento de texto OCR> Reconocer texto en múltiples archivos usando OCR

desde donde puede agregar su carpeta.

En Acrobat X, la función está disponible de la siguiente manera:

Herramientas> Reconocer texto> En varios archivos

— pelmas
fuente

Gracias "pelms". ;) Lo intentaré si el tiempo lo permite. Lo que me gustó en mi versión de prueba anterior de finereader.abbyy.com es que podía reconocer varios idiomas diferentes. ;)

— Erb

1

En realidad, pdfsandwich se actualizó en el último año y no me resultó difícil instalarlo en Linux Mint. Los resultados que ofrece son inferiores a los de Adobe Acrobat, pero es la única solución viable que he encontrado en Linux hasta ahora.

— Brian Z
fuente

1

¡Muy interesante! No lo sabía. Estoy agregando un enlace de en.wikisource.org/wiki/… y lo probaré en algún momento en el futuro. (¡En realidad hay muchas otras soluciones, pero no comenzaré aquí!)

— Nemo

0

Prueba WatchOCR . Es un paquete de software de código abierto que convierte las imágenes escaneadas en archivos PDF con capacidad de búsqueda de texto. Es gratuito y de código abierto y tiene una interfaz web agradable para la administración remota. Con la configuración correcta, se utilizará para crear un servicio de pdf / ocr por lotes para toda una red a través de recursos compartidos smb. Lamentablemente es solo Linux. Pero podría instalarlo en un servidor antiguo y luego toda su organización podría usarlo.

Si desea hacer lo mismo en línea sin instalar nada, intente PDFCubed.com

— argot
fuente

La página de inicio de WatchOCR está en cuclillas, aunque archivada

— Tobias Kienzler