Tengo un libro que quiero leer en pantalla. Se escanea a 200 ppp monocromo (todavía no sé qué salió mal en el controlador del escáner, recuerdo haberlo configurado en escala de grises, pero no puedo permitirme el tiempo para escanear nuevamente), por lo que es difícil de leer. Lo oculté con Acrobat Acrobat Pro, y salió razonablemente bien. Pero el resultado es algo llamado "Imagen de búsqueda" o "Clearscan". Me gusta el hecho de que se conserva el diseño, pero el problema es que el texto se muestra tal como se escaneó, por lo que es difícil de leer en pantalla. Además, todo el libro ocupa 70 MB.
Aquí puede ver cómo se ve el texto ya reconocido:
Probé otros programas de OCR, pero (además de acaparar el 100% del tiempo del procesador y la memoria durante 2 minutos por página doble) todos reconocieron el texto, dejando las cifras completamente fuera. No me importa mucho el diseño y la tipografía, pero las figuras son importantes (no necesito que las etiquetas de texto en las imágenes sean OCR). Y creo que si fuera a usar ASCII para el texto y las imágenes para las figuras, el tamaño debería disminuir considerablemente.
Entonces, ¿hay alguna manera de deshacerse de las imágenes del texto y usar la versión OCRed para leer mientras se mantienen las figuras en su lugar? Prefiero que el resultado final sea un archivo PDF, pero también estoy abierto a otros formatos. Sé que podría hacerlo manualmente pegando el texto OCR en Word y capturando capturas de pantalla de las imágenes, pero esto es demasiado trabajo para 520 páginas.