Tengo un archivo PDF que contiene mapas del edificio en el que trabajo, aquí:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Los archivos de origen originales se han perdido, y me han pedido que extraiga las imágenes del mapa, preferiblemente sin el texto y los iconos que se han superpuesto sobre ellos. Esto ha resultado molestamente difícil.
Hasta ahora, he probado los siguientes programas GUI:
- Adobe Reader: me permite seleccionar texto, pero no las imágenes de fondo
- FoxIt PDF Viewer: me permite seleccionar texto, pero no las imágenes de fondo
- XPDF en Ubuntu 10.10: permite seleccionar texto, pero no las imágenes de fondo
Y también los siguientes programas de línea de comandos:
- pdfimages: extrae los iconos que indican que los baños están bien, pero no las imágenes de fondo
- pdftohtml: igual que pdfimages, además hace un documento HTML mal marcado
- pdfextract: igual que pdfimages
- convertir: imágenes guardadas con éxito, pero con el texto grabado en ellas
Incluso intenté abrir el PDF manualmente en un editor de texto y extraer los objetos de la secuencia pegándolos en un nuevo archivo y guardándolo con una extensión .jpg, .png o .bmp (cada uno a su vez). Teniendo en cuenta lo poco que sé sobre la estructura interna de los archivos PDF, no sorprende que esto no haya funcionado.
Entonces ... ¿hay alguna manera de recuperar las imágenes del mapa de esta cosa sin obtener también el texto y los iconos?
qpdf
para convertir las partes binarias a ASCII en la medida de lo posible. (2) Use un editor de texto para hacer invisible todo el texto que no quiero ver en la pantalla o en las impresiones (se puede lograr fácilmente y sin dañar la tabla XRef al alternar la bandera invisible ). (3) Vuelva a destilar el resultado con Ghostscript para reducir su tamaño tanto como sea posible. - Desafortunadamente, su archivo ya no se puede descargar para demostrar el procedimiento ...