Tengo un PDF de un libro escaneado.
Estoy buscando un software gratuito que realice OCR y luego brinde una opción para guardarlo como PDF o documento nuevamente.
¿Hay uno?
Tengo un PDF de un libro escaneado.
Estoy buscando un software gratuito que realice OCR y luego brinde una opción para guardarlo como PDF o documento nuevamente.
¿Hay uno?
Respuestas:
Puede descargar la versión de prueba de 30 días de Adobe Acrobat Pro y usar la función 'Reconocimiento de texto OCR' ('Documento> Reconocimiento de texto OCR> Reconocer texto usando OCR ...'). En el cuadro de diálogo de configuración, elija 'Imagen de búsqueda' como estilo de salida. Esto mantendrá la imagen de la página pero incrustará el texto OCR para que el documento pueda buscarse y permita que el texto sea seleccionado, copiado y pegado.
Después de ejecutar el OCR, deberá confirmar o corregir las palabras de que el OCR no está seguro sobre el uso de las funciones 'Buscar sospechosos de OCR'.
Si tiene una cuenta de Google, Google Docs ahora incluye la funcionalidad para cargar un archivo PDF y realizar OCR en él.
Lo he intentado yo mismo y es una puñalada justa en un PDF bien formateado.
El formato está prácticamente destruido, pero el texto parece sobrevivir.
Los siguientes productos se encontraron en Internet, pero no los he usado.
OCR en línea
OCR Terminal es un servicio de OCR en línea que realiza reconocimiento óptico de caracteres (OCR) en sus imágenes escaneadas y archivos PDF y los convierte en documentos editables y con capacidad de búsqueda de texto.
Free-OCR.com es una herramienta gratuita en línea de reconocimiento óptico de caracteres (OCR). Puede usar esto para realizar OCR en cualquier imagen que proporcione.
Este servicio es gratuito, no es necesario registrarse. Tampoco necesitamos su dirección de correo electrónico.
Solo sube tus archivos de imagen. Free-OCR toma JPG, GIF, TIFF BMP o PDF ( solo la primera página ). La única restricción es que las imágenes no deben ser mayores de 2 MB, no más anchas ni mayores de 5000 píxeles y hay un límite de 10 cargas de imágenes por hora.
Maestro Recognition Server es comercial, pero tiene una demostración de prueba en línea.
Software libre
FreeOCR : solo para imágenes.
FreeOCR es un programa de escaneo y OCR que incluye el motor de OCR gratuito Tesseract, también conocido como Tesseract GUI. Incluye un instalador de Windows y es muy simple de usar y admite tiff de varias páginas, documentos de fax, así como la mayoría de los tipos de imágenes, incluidos los Tiff comprimidos que el motor Tesseract por sí solo no puede leer. Ahora tiene escaneo Twain.
pdfsandwich - pdf -> convertidor de pdf.
pdfsandwich es una herramienta de línea de comandos para libros o revistas escaneadas con OCR. Es capaz de reconocer el diseño de la página incluso para texto de varias columnas.
Esencialmente, pdfsandwich es un script de envoltura que llama a los siguientes binarios: convert, cuneiform, gs y hocr2pdf. Se sabe que se ejecuta en sistemas Unix y se ha probado en Linux y MacOS X. Admite el procesamiento paralelo en sistemas multiprocesador.
Cuneiforme + hocr2pdf + Ghostscript : una solución de código abierto de bricolaje.
Publiqué una respuesta que describe una solución que involucra una versión del sistema de OCR Cuneiform de código abierto y hocr2pdf junto con Ghostscript para unir las páginas PDF.
Eso fue específicamente para Linux, pero también puede obtener Cuneiform y Ghostscript para Windows. Sin embargo, no estoy seguro acerca de hocr2pdf o un equivalente.
Instala Imagemagick . Abra una ventana o terminal cmd:
convert myfile.pdf myfile-%02d.jpg
La salida será 1 archivo jpg para cada página en su pdf, myfile-00.jpg, myfile-01.jpg, etc.
Pase cada imagen a través de un programa ocr. No tengo mucha experiencia con esto, pero parece que hay muchas opciones.
Convierta cada página de texto nuevamente en pdf. Podrías hacer esto nuevamente con imagemagick, pero también hay otras formas:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Su solicitud parece ser una solución complicada para el problema, aunque es posible que no entienda el problema correctamente. De todos modos:
¿Por qué no obtener un escritor PDF que le permita ingresar los datos directamente en la página pdf?
Pruebe PDFCubed.com Nada que instalar, todo se hace en línea. Puede enviar sus documentos para su procesamiento a través de la web, correo electrónico o dropbox. Los archivos PDF y TIF escaneados se convierten en archivos PDF de texto de búsqueda y luego se pueden recuperar a través de la web, el correo electrónico o Dropbox.