Bueno, he estado luchando con esto durante muchas semanas, muchas de estas respuestas me ayudaron, pero siempre faltaba algo, aparentemente nadie aquí ha tenido problemas con las imágenes codificadas con jbig2 .
En el montón de PDF que voy a escanear, las imágenes codificadas en jbig2 son muy populares.
Hasta donde tengo entendido, hay muchas máquinas de copia / escaneo que escanean papeles y los transforman en archivos PDF llenos de imágenes codificadas con jbig2.
Entonces, después de muchos días de pruebas, decidí ir por la respuesta propuesta aquí por dkagedal hace mucho tiempo.
Aquí está mi paso a paso en Linux: (si tiene otro sistema operativo, sugiero que use una ventana acoplable de Linux , será mucho más fácil).
Primer paso:
apt-get install poppler-utils
Luego pude ejecutar la herramienta de línea de comandos llamada pdfimages como esta:
pdfimages -all myfile.pdf ./images_found/
Con el comando anterior podrás extraer todas las imágenes contenidas en myfile.pdf y las tendrás guardadas dentro de images_found (tienes que crear images_found antes)
En la lista encontrará varios tipos de imágenes, png, jpg, tiff; todos estos son fácilmente legibles con cualquier herramienta gráfica.
Entonces tendrás algunos archivos con nombres como: -145.jb2e y -145.jb2g.
Estos 2 archivos contienen UNA IMAGEN codificada en jbig2 guardada en 2 archivos diferentes, uno para el encabezado y otro para los datos
Nuevamente he perdido muchos días tratando de averiguar cómo convertir esos archivos en algo legible y finalmente me encontré con esta herramienta llamada jbig2dec
Entonces, primero necesitas instalar esta herramienta mágica:
apt-get install jbig2dec
entonces puedes ejecutar:
jbig2dec -t png -145.jb2g -145.jb2e
Finalmente podrás convertir todas las imágenes extraídas en algo útil.
¡buena suerte!