Filtrando una imagen un poco "entonada" para el procesamiento de OCR

10

Tengo un material PDF escaneado al que quiero agregar una capa de texto oculto, para poder indexar el documento. Utilicé el dispositivo de salida tiff en blanco y negro ghostscript (tiffg4) para extraer páginas como imágenes tiff, y aquí hay un ejemplo de cómo se ven:

ingrese la descripción de la imagen aquí

Procesar esta imagen con tesseract, no da buenos resultados.
El cambio de la salida DPI de ghostscript (600, 300, 150, 96) muestra que la imagen a 96 DPI proporciona el mejor resultado de tesseract pero aún no es satisfactoria.

Ahora pensé en pedir consejo sobre qué filtro mejoraría esta imagen para el procesamiento de OCR.

Podría usar imagemagick, o numpy / scipy / ndimage

image-processing ocr

— zetah
fuente

9

Lo que realmente necesita es probablemente una operación morfológica como dilatación seguida de erosión. Esto se llama operación de cierre . Puede ser en su caso, solo la dilatación en sí podría ser buena.

Se hizo una pregunta similar anteriormente, que puede ayudar con otros aspectos.

conversión de imagen monocroma (1 bit en blanco y negro)

¿Cómo reconstruyo el texto de una imagen usando solo operaciones morfológicas?

— Dipan Mehta
fuente

2

puedes eliminar esto usando un filtro de paso bajo. eso se hace en el espacio de frecuencia o simplemente toma la (diferencia de) gaussiana de la imagen.

— Christoph Rackwitz
fuente