¿Puedo forzar a Acrobat Professional a reemplazar la imagen seleccionable OCR-ed con texto?

2

Tengo un libro que quiero leer en pantalla. Se escanea a 200 ppp monocromo (todavía no sé qué salió mal en el controlador del escáner, recuerdo haberlo configurado en escala de grises, pero no puedo permitirme el tiempo para escanear nuevamente), por lo que es difícil de leer. Lo oculté con Acrobat Acrobat Pro, y salió razonablemente bien. Pero el resultado es algo llamado "Imagen de búsqueda" o "Clearscan". Me gusta el hecho de que se conserva el diseño, pero el problema es que el texto se muestra tal como se escaneó, por lo que es difícil de leer en pantalla. Además, todo el libro ocupa 70 MB.

Aquí puede ver cómo se ve el texto ya reconocido:

ingrese la descripción de la imagen aquí

Probé otros programas de OCR, pero (además de acaparar el 100% del tiempo del procesador y la memoria durante 2 minutos por página doble) todos reconocieron el texto, dejando las cifras completamente fuera. No me importa mucho el diseño y la tipografía, pero las figuras son importantes (no necesito que las etiquetas de texto en las imágenes sean OCR). Y creo que si fuera a usar ASCII para el texto y las imágenes para las figuras, el tamaño debería disminuir considerablemente.

Entonces, ¿hay alguna manera de deshacerse de las imágenes del texto y usar la versión OCRed para leer mientras se mantienen las figuras en su lugar? Prefiero que el resultado final sea un archivo PDF, pero también estoy abierto a otros formatos. Sé que podría hacerlo manualmente pegando el texto OCR en Word y capturando capturas de pantalla de las imágenes, pero esto es demasiado trabajo para 520 páginas.

— rumtscho
fuente

3

En Omnipage 16, 17, 18, puede (mejor diseño):

seleccione tipos de zona automáticos o a mano
ajustar el tipo de zona seleccionada, texto, imagen, tabla
rotar páginas
cambiar páginas dobles en páginas individuales
exportar a pdf con y sin imagen escaneada original (más clara, más fácil de leer)

El programa lo hace bajo demanda (mejor reconocimiento).

enderezar páginas
enderezar líneas

Omnipage 17, 18 endereza páginas curvas, ángulos incorrectos de imágenes de cámaras digitales (primeros planos)

ABBYY 8,9, 10 tienen las mismas características pero dan menos resultados para las imágenes de cámaras digitales.

ABBYY 10 tiene un excelente "Lector en pantalla". Con esto puede reconocer partes de texto en su monitor. O incluso seleccione texto de libros en línea como google books o sribd dot com. Encienda su monitor vertical y asegúrese de que el texto tenga el tamaño máximo.

Infix funciona para limpiar el PDF reconocido exportado como "texto con imágenes". Manera fácil de borrar parte de la página seleccionada incorrectamente sin imagen, etc. También agrega páginas a un PDF o borra páginas.

Able2Abstract es ideal para reconocer tablas. PDF2XL también hace esto.

Scan Tailor es una forma poco amigable, pero gratuita, para obtener solo el texto negro de un escaneo. Cuando faltan partes de una página, vuelva a configurar los tamaños de página individuales.

Con Abbyy solo es posible obtener el texto y las imágenes en negro. Aquí los archivos de trabajo guardados contienen páginas T + B + W. Puede copiarlos en otro lugar, borrar los archivos tumbados o metadatos y colocar los tiffs en multitiff o pdf. Este archivo es más grande que un pdf reconocido.

Photoshop, Paint Shop Pro puede ayudar a cambiar la imagen del texto escaneado, página única o modo por lotes.

Paperport (no perfecto) ayuda a escanear, hace que el texto sea más negro al escanear, arregla el texto, etc. después del escaneo, pero funciona solo en páginas individuales, coloca páginas individuales en 1 pdf.

La casa de apuestas es cara, más antigua aún, corrige algunas curvas de página, los lados ennegrecidos pueden borrarse. La prueba tiene limitaciones, pero en algún lugar oculto se puede exportar algo a tiffs, página por página.

Cambiar los parámetros del software del escáner puede dar una mejor salida.

Tomar fotos de un libro de 500 páginas llevaría 1 hora.

Usar trípode
iso 100 o 200
balance de blancos manual con papel blanco de libro. (U otro papel que sea "más blanco")
buena luz pero no luz solar directa
mira grandes sombras entre páginas, gira el libro a la mitad cuando sea necesario
hacer algunas pruebas
slr usa una parada f más alta como 8 u 11 para una mejor profundidad de campo

— Kees
fuente

0

Lo mejor que encontré es esto, pero me encantaría escuchar una mejor solución con Acrobat.

Después de OCR, puede seleccionar el texto y luego cambiar la fuente:

Haga clic derecho en la selección y seleccione propiedades

vaya a la pestaña de texto y seleccione una fuente y tamaño de fuente.

Desafortunadamente, esto también suele alterar el diseño como las posiciones de las letras, así como el espacio entre líneas.

Otra posibilidad es copiar todo el texto en un editor de texto (p. Ej., Word o openoffice) y luego rediseñar completamente todo el texto ...

— noami
fuente

Esta pregunta es realmente confusa. Mi lectura es que el objetivo era terminar con un documento de tamaño de archivo más pequeño que contenga cualquier imagen (sin texto) más el texto OCR como texto tan cerca del diseño original como sea práctico. El problema parecía ser que el software OCR carecía de la capacidad para hacer esto e ignoraba las imágenes. Por lo tanto, el resultado fueron dos archivos: el escaneo original de todo el contenido de la página, todo como una imagen, más un documento con solo el texto convertido a texto editable. ¿Interpretaste la pregunta de manera diferente?

— fijador1234