¿Buen OCR gratuito con GUI para corregir errores? (para ventanas)

He usado SimpleOCR , que tiene una buena GUI para corregir errores. ¡Lamentablemente comete muchos errores! (y sufre otros errores y limitaciones)

Por otro lado, Tesseract es más preciso pero no tiene GUI en absoluto.

Mi pregunta es, ¿hay un programa de OCR gratuito para Windows que tenga una buena GUI y una baja tasa de error? Quiero que resalte las palabras sospechosas (por incertidumbre OCR, no solo la corrección ortográfica) y muestre la palabra original (mapa de bits) mientras estoy editando la palabra OCR similar a lo que hace SimpleOCR.

El código abierto sería lo mejor, seguido de software gratuito, luego de prueba / demostración / crippleware muy por detrás.

Captura de pantalla simpleOCR que muestra la GUI para corregir errores

windows gui ocr

— Hugh Allen
fuente

posible duplicado del software OCR gratuito

— Sathyajith Bhat

@Sathya: mis requisitos específicos lo diferencian de esa pregunta.

— Hugh Allen

No es exactamente gratis, pero ¿has buscado en Microsoft Office? Viene con OCR. (Busque la función "Microsoft Office Document Imaging" en la configuración.)

— Vivelin

@horsedrowner: acabo de probarlo. Su precisión es comparable a Tesseract, pero requiere un archivo TIFF con la configuración de DPI adecuada o no funciona, y no tiene una interfaz para corregir errores de OCR.

— Hugh Allen el

@Hugh Allen: ¿Lo hace? Funcionó bastante bien cuando me topé con la función del menú contextual en OneNote 2007. Y estaba usando un archivo de imagen aleatorio copiado de un sitio web ...

— Vivelin

Respuestas:

¿Has probado gimagereader , un frente de interfaz gráfica de usuario para Tesseract?

— ukanth
fuente

Acabo de probarlo (en Windows) y no funciona para mí; el proceso se cierra inmediatamente sin un mensaje de error :( De todos modos, mirando las capturas de pantalla, no parece resaltar realmente la palabra que estás editando. ¿Has intentado ¿verdad?

— Hugh Allen

OCRopus :

El software se basa en parte en Tesseract, el mejor motor de OCR de código abierto disponible por ahora. Si bien se espera que el proyecto se lance a fines del próximo año y se use para el proyecto de escaneo de libros de Google, el equipo tiene algunas aplicaciones interesantes en mente:

una interfaz de servicio web

PDF, cámara y OCR de pantalla

integración con herramientas de búsqueda de escritorio: Beagle, Spotlight, Google Desktop

OCRopus (tm) es un sistema de análisis de documentos y OCR de última generación, que ofrece análisis de diseño conectable, reconocimiento de caracteres conectables, modelado estadístico de lenguaje natural y capacidades multilingües.

El motor OCRopus se basa en dos proyectos de investigación: un reconocedor de escritura a mano de alto rendimiento desarrollado a mediados de los 90 e implementado por la oficina del censo de EE. UU., Y nuevos métodos de análisis de diseño de alto rendimiento.

OCRopus es un desarrollo patrocinado por Google e inicialmente está destinado a esfuerzos de conversión de documentos de alto volumen y alto rendimiento. Esperamos que también sea un excelente sistema de OCR para muchas otras aplicaciones. Enlaces:

GOCR

GOCR es un programa de reconocimiento óptico de caracteres (OCR), desarrollado bajo la licencia pública GNU. Convierte imágenes escaneadas de texto a archivos de texto. Joerg Schulenburg comenzó el programa y ahora lidera un equipo de desarrolladores. GOCR se puede usar con diferentes front-end, lo que hace que sea muy fácil portar a diferentes sistemas operativos y arquitecturas. Puede abrir muchos formatos de imagen diferentes, y su calidad ha mejorado día a día.

Enlaces:

GOCR

— Krazy_Kaos
fuente

¿Alguno de ellos tiene una GUI decente para ir con ellos?

— Hugh Allen

Editado responde a tu pregunta ... pero yo diría: "No, no lo hacen", pero escuché que abiword admite OCRopus ( arstechnica.com/open-source/news/2007/08/… )

— Krazy_Kaos

+1 por agregar capturas de pantalla para responder y también por revisar mini los dos programas ofrecidos ...

— Kurt Pfeifle

También hay TOPOCR (también conocido como SnapReader), que contiene el corrector ortográfico de postproceso para 11 idiomas:

SnapReader se puede utilizar para hacer sus propias notas de búsqueda de casi cualquier imagen de documento. O puede usarlo como una herramienta de autoría y crear su propio contenido editable usando su escáner o cámara y guardar los resultados como HTML o PDF. SnapReader también puede transformar texto en audio de muy alta calidad usando Audrey. Por lo tanto, no solo puede usar su escáner o cámara para capturar documentos, ahora también puede usar su reproductor de música portátil o teléfono inteligente para "leerlos".

imagen

— harrymc
fuente