Tengo varios documentos escaneados en pdf y quiero poder buscarlos. ¿Cómo puedo hacer eso?
Esencialmente tengo que OCR el pdf y luego mezclar el texto extraído nuevamente en un nuevo pdf. He probado sin éxito varias soluciones diferentes (incluidas las que se encuentran en Agregar información de OCR a un PDF ).
- pdfocr (que me da este problema: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (de los cuales el centro de software dice que es un paquete deficiente y no debería instalarlo)
- OCRfeeder (en el centro de software) exporta a odt muy bien, pero no reacciona al exportar a pdf.
- Gscan2pdf exporta una imagen completamente negra (pero que se puede buscar) como se informó en esta discusión .
- No creo que el visor Pdfxchange pueda manejar ocr sobre la marcha en archivos de más de 500 páginas.
¿Hay algún paquete de software que desconozca? O un guión que hace esto?
pdf2searchablepdf
. Se basa en tesseract
. Funciona bien. Súper fácil de usar. Mira aquí. askubuntu.com/a/1187881/327339