Tengo varios miles de páginas de libros escaneados. Cada página se guarda individualmente como un JPG. La escritura es clara, pero las fuentes varían, y las páginas incluyen imágenes e ilustraciones.
Necesito crear una lista de todas las palabras que aparecen en cada archivo JPG. ¿Existe una herramienta de línea de comando para escanear una imagen que enumere las palabras que aparecen? No necesita tener un escaneo perfecto, solo una estimación.