Tengo un material PDF escaneado al que quiero agregar una capa de texto oculto, para poder indexar el documento. Utilicé el dispositivo de salida tiff en blanco y negro ghostscript (tiffg4) para extraer páginas como imágenes tiff, y aquí hay un ejemplo de cómo se ven:
Procesar esta imagen con tesseract, no da buenos resultados.
El cambio de la salida DPI de ghostscript (600, 300, 150, 96) muestra que la imagen a 96 DPI proporciona el mejor resultado de tesseract pero aún no es satisfactoria.
Ahora pensé en pedir consejo sobre qué filtro mejoraría esta imagen para el procesamiento de OCR.
Podría usar imagemagick, o numpy / scipy / ndimage