¿Solución práctica de OCR para convertir un libro grande a formato digital?

12

Estuve en casa de mis abuelos el pasado fin de semana. Mi abuela sacó este libro gigante (~ 1400 páginas) de su historia familiar que data de 1630 más o menos. Como soy un nerd gigante, pensé que sería hábil tener toda la información almacenada en una base de datos y disponible en la web. Puedo manejar toda la programación web y las expresiones regulares y lo que no, pero lo que no sé es la mejor manera de llevar el texto del libro a la computadora.

Sé que será necesario algún tipo de OCR, por la poca investigación que he hecho, parece que mis opciones son:

tome una foto de cada página con una cámara y luego procese las fotos con el software OCR
use un escáner para escanear cada página, luego procese con el software OCR
use algún tipo de dispositivo manual, como este .

¿Alguien tiene alguna idea sobre la mejor manera de abordar este problema? No quiero destruir el libro, porque hasta donde yo sé, no puede ser reemplazado. Esta es probablemente la única vez que voy a escanear un libro grande, así que no creo que quiera gastar más de $ 250 en ningún tipo de dispositivo. No me importa un poco de esfuerzo manual aquí (me doy cuenta de que esto probablemente llevará meses), pero me gustaría encontrar el método más eficiente posible.

Nota sobre el libro: solo tiene unos 20 años, por lo que está en muy buena forma. Es monocromo y las páginas no han comenzado a ponerse amarillas. Sin embargo, dado que es tan grande, me preocupan las posibles sombras cuando el texto se acerca al enlace.

ocr

1

En una nota al margen, si el libro tiene solo 20 años y la información se remonta a 1600, ¿dónde está el material original? ¡Eso podría ser bueno para capturar también!

— Craig

Sí, eso también sería genial. Voy a ver si puedo localizar al autor original.

8

Encontré esto en Lifehacker hace bastante tiempo, y ha sido uno de mis mejores proyectos de bricolaje desde entonces.

ingrese la descripción de la imagen aquí

Reemplace el iPhone con cualquier cámara o imagen, y obtendrá un montón de buenos archivos JPEG de alta resolución listos para que usted los utilice en OCR con cualquier software, incluso (¡urks!) MS Office ...;)

Barato. Eficaz. Bricolaje. No se puede superar una idea como esta.

EDITAR: Los comentarios plantearon algunos puntos sobre sombras, curvas de página, etc. Se resolvió con bastante facilidad para cualquiera que literalmente haya copiado fotocopias de textos de la biblioteca.

Agregue múltiples fuentes de luz para iluminar el libro y elimine las sombras.

Incline el libro a 90 grados para que las páginas no se doblen hacia las encuadernaciones en el medio. También conserva la unión.

Veré si puedo dar un ejemplo y configurar uno yo mismo.

EDIT 2: muestra cargada de cómo debe sostener el libro, y también observe la fuente de luz desde la izquierda.

ingrese la descripción de la imagen aquí

— monstruo
fuente

¡Eso es tan cool! Me gustaría poder hacer eso :)

— Alex

Sin embargo, necesita una cámara real para hacer eso, y una buena calidad, o terminará con una imagen que no puede explotar, especialmente de un libro muy antiguo. Así que está lejos de ser barato.

— Gnoupi

Muy interesante. Me pregunto cómo funcionaría esto con un libro, considerando las sombras que probablemente habría entre páginas.

Si las páginas están dobladas o tienen sombras, tendrá problemas para que el software OCR reconozca las letras.

— alex

agregue múltiples fuentes de luz para iluminar el libro y elimine las sombras. inclina el libro a 90 grados para que las páginas no se doblen hacia las encuadernaciones en el medio. Es simple sentido común, lo hacemos todo el tiempo en la universidad tomando fotos de los textos de la biblioteca.

— caliban

3

Por lo que sé, ABBYY hace el mejor software de OCR, pero no es gratis. Debería intentar usar una versión de prueba de ABBYY FineReader , tal vez le ayude.

— alex
fuente

1

Tendrá que capturar la imagen de alguna manera. Existen varios servicios para hacer esto por usted. También necesitará a alguien que esté familiarizado con el contenido del texto para corregirlo, ya que OCR aún no es perfecto. Especialmente con cualquier cosa escrita a mano.

Otros están discutiendo su pregunta aquí: http://ask.metafilter.com/92506/scan-my-books

Algunas compañías harán esto por usted: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Algunos programas gratuitos: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

— NickSentowski
fuente

1

Para un proyecto grande e importante para usted y su familia como este, un escáner de libros de bricolaje puede ser el camino a seguir, algunos diseños incluso giratorios de páginas deportivas: http://www.diybookscanner.org/ Este no es compatible de forma nativa con OCR , pero dispara 600 páginas por hora y puede ejecutarlo a través de OCR después del hecho http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

— Xaq Fixx
fuente

0

Es posible que desee ver si una universidad cercana a usted tiene un escáner de libros completo y luego suplicar / sobornar a un estudiante para que lo revise.

— Chris Nava
fuente

0

Recomendaría un escáner de superficie plana preparado para escanear libros o un escáner de libros completo como lo menciona Chris.

Si puede, compile sus imágenes en formato TIFF, ya que es un estándar de la industria cuando se trata de sistemas de gestión de documentos.

Para hacer OCR, recomendaría tesseract OCR ya que es el marco sobre el que Google expuso para su proyecto de libros.

— Greg Buehler
fuente

0

Si bien parece tentador automatizar el proceso, es posible que desee invertir más tiempo y trabajo, ya que este libro en particular es un asunto personal. OCR hará el trabajo masivo, pero tendrá que revisar página por página y comparar con el original. ten en cuenta que los errores del autor son parte del trato, no los corrijas (crea notas al pie de página si te sientes inclinado). tómate tu tiempo, no te presiones, el escaneo de libros es un trabajo de burro, pero la minuciosidad paga y terminarás con una excelente copia digital de la crónica de tu familia. buena suerte con tu esfuerzo :)

en realidad, ese es un muy buen punto. No había considerado hacer que el contenido original del libro estuviera disponible digitalmente, pero mientras lo tenga, también podría hacer una versión .pdf.

¿Por qué PDF? piensa en HTML. y también podrías conservar los escaneos originales, aunque terminarás con una gran cantidad de datos.

Mi idea era tener toda la información de nacimiento / linaje en una base de datos, para poder crear una interfaz web que facilitara la navegación / búsqueda / actualización. Planeo trabajar cualquier error tipográfico de esa versión. Además, tengo algunos primos que no están allí y sería bueno agregarlos. Estaba pensando en pdf porque sería bueno tener algo parecido al libro original con los números de página originales y tan intactos. Esa versión la dejaría sola y guardaría todos los errores tipográficos del libro.

0

En el trabajo utilizamos un escáner de libros Plustek Optibook 3600 que cuesta alrededor de $ 250 .
Básicamente es un escáner de cama plana estándar, pero con la placa de vidrio yendo directamente al borde del escáner para que la página del libro se pueda colocar plana en la placa. Esto elimina la sombra del lomo y evita dañar los libros.

ingrese la descripción de la imagen aquí

— pelmas
fuente

¿Alguna vez has intentado usar eso con un libro realmente grueso? Es como 3 pulgadas de grosor.

Si puede abrirlo 90 ° con la página razonablemente plana, debería estar bien. Pruébalo en el borde de una mesa.

— pelms