El software se basa en parte en Tesseract, el mejor motor de OCR de código abierto disponible por ahora. Si bien se espera que el proyecto se lance a fines del próximo año y se use para el proyecto de escaneo de libros de Google, el equipo tiene algunas aplicaciones interesantes en mente:
- una interfaz de servicio web
- PDF, cámara y OCR de pantalla
- integración con herramientas de búsqueda de escritorio: Beagle, Spotlight, Google Desktop
OCRopus (tm) es un sistema de análisis de documentos y OCR de última generación, que ofrece análisis de diseño conectable, reconocimiento de caracteres conectables, modelado estadístico de lenguaje natural y capacidades multilingües.
El motor OCRopus se basa en dos proyectos de investigación: un reconocedor de escritura a mano de alto rendimiento desarrollado a mediados de los 90 e implementado por la oficina del censo de EE. UU., Y nuevos métodos de análisis de diseño de alto rendimiento.
OCRopus es un desarrollo patrocinado por Google e inicialmente está destinado a esfuerzos de conversión de documentos de alto volumen y alto rendimiento. Esperamos que también sea un excelente sistema de OCR para muchas otras aplicaciones.
Enlaces:
GOCR es un programa de reconocimiento óptico de caracteres (OCR), desarrollado bajo la licencia pública GNU. Convierte imágenes escaneadas de texto a archivos de texto. Joerg Schulenburg comenzó el programa y ahora lidera un equipo de desarrolladores. GOCR se puede usar con diferentes front-end, lo que hace que sea muy fácil portar a diferentes sistemas operativos y arquitecturas. Puede abrir muchos formatos de imagen diferentes, y su calidad ha mejorado día a día.