Estuve en casa de mis abuelos el pasado fin de semana. Mi abuela sacó este libro gigante (~ 1400 páginas) de su historia familiar que data de 1630 más o menos. Como soy un nerd gigante, pensé que sería hábil tener toda la información almacenada en una base de datos y disponible en la web. Puedo manejar toda la programación web y las expresiones regulares y lo que no, pero lo que no sé es la mejor manera de llevar el texto del libro a la computadora.
Sé que será necesario algún tipo de OCR, por la poca investigación que he hecho, parece que mis opciones son:
- tome una foto de cada página con una cámara y luego procese las fotos con el software OCR
- use un escáner para escanear cada página, luego procese con el software OCR
- use algún tipo de dispositivo manual, como este .
¿Alguien tiene alguna idea sobre la mejor manera de abordar este problema? No quiero destruir el libro, porque hasta donde yo sé, no puede ser reemplazado. Esta es probablemente la única vez que voy a escanear un libro grande, así que no creo que quiera gastar más de $ 250 en ningún tipo de dispositivo. No me importa un poco de esfuerzo manual aquí (me doy cuenta de que esto probablemente llevará meses), pero me gustaría encontrar el método más eficiente posible.
Nota sobre el libro: solo tiene unos 20 años, por lo que está en muy buena forma. Es monocromo y las páginas no han comenzado a ponerse amarillas. Sin embargo, dado que es tan grande, me preocupan las posibles sombras cuando el texto se acerca al enlace.