Cómo extraer una imagen de un archivo PDF

49

Actualmente utilizo el lector de PDF de Foxit, y recientemente descargué una imagen de Internet, pero está dentro de un archivo PDF. ¿Cómo extraigo esta imagen?

El sistema operativo es Windows 7.

— studiohack
fuente

su extracción de mayor calidad será extraer a cualquier formato en que la imagen ya esté almacenada en el pdf. (al menos yo creo que es como imágenes-en-pdfs trabajo.)

— charlatán quijote

4

La forma rápida si no necesita una resolución original de píxeles de la imagen es presionar ALT y los botones Imprimir pantalla. Luego elige pegar donde quieras la imagen.

La otra forma de preservar la resolución es abrir el PDF en un programa de edición de imágenes como Adobe Photoshop y trabajar con él allí.

— UserSuUserDo
fuente

1

Al abrir un documento PDF en Photoshop, aparece el cuadro de diálogo 'Rasterizar formato PDF genérico', por lo que no se puede preservar la resolución. Probado con PS7. ¿Las versiones más nuevas de Photoshop son diferentes?

— AffineMesh

1

como usted dijo, [alt] + [prnscr] no conserva la resolución original en píxeles (usa cualquier resolución que use su pantalla / monitor actual).

— Kurt Pfeifle

1

@studiohack, @UserSuUserDo: no solo perderá la resolución original si usa [alt] + [prnscr], sino que obtendrá la ventana completa del visor de PDF como una imagen. Esto puede ser "lo suficientemente bueno" para muchos casos de uso. Pero a veces desea que el gráfico esté incrustado solo en la página PDF. Aquí pdfimages.exeviene útil.

— Kurt Pfeifle

1

O utilice la herramienta de recorte integrada en W7 para capturar el área que desea.

— Moab

70

Si descarga XPDF para Windows ( aquí ), encontrará algunos archivos .exe dentro. Puede ejecutarlos sin "instalación". Usar pdfimages.exeasí:

pdfimages.exe -help

Esto muestra la pantalla de ayuda.

pdfimages.exe ^
    -j ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

Esto extrae todos los archivos JPEG como prefijo-00N.jpg, y todas las demás imágenes como prefijo-00N.ppm (Portable PixMap).

[ Editar por ComFreek: tenga en cuenta la barra diagonal final en la ruta de destino, que es importante si no desea extraer todas las imágenes en su directorio principal.] -
{ Editar por KurtPfeifle: No estoy de acuerdo con el comentario de ComFreek, pero deje Es para que los lectores prueben y descubran las diferencias en los resultados mismos. Mi parámetro original, que no usa una barra inclinada final, ya ..\prefixque prefijará los nombres de imagen utilizados para los archivos extraídos.}

pdfimages.exe ^
    -j ^
    -f 11 ^
    -l 13 ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

Igual que antes, pero limita la extracción de imágenes a las páginas 11 ('f' = primero) a 13 ('l' = último).

Actualizar:

Mientras tanto, prefiero la versión de Poppler,pdfimages especialmente desde que adquirió esta nueva característica: agregar -lista la línea de comandos para enumerar (no extraer) las imágenes contenidas en el PDF, además de algunas de sus propiedades. Ejemplo:

pdfimages -list -f 7 -l 8 ct-magazin-14-2012.pdf

  número de página tipo ancho altura color comp bpc enc interp ID de objeto
  -------------------------------------------------- -------------------
     7 0 imagen 581838 rgb 3 8 jpeg no 39 0
     7 1 imagen 4 4 rgb 3 8 imagen no 40 0
     7 2 imagen 314 332 rgb 3 8 jpx no 44 0
     7 3 imagen 358430 rgb 3 8 jpx no 45 0
     7 4 imagen 4 4 rgb 3 8 imagen no 46 0
     7 5 imagen 4 4 rgb 3 8 imagen no 47 0
     7 6 imagen 4 6 rgb 3 8 imagen no 48 0
     7 7 imagen 596 462 rgb 3 8 jpx no 49 0
     7 8 imagen 4 6 rgb 3 8 imagen no 50 0
     7 9 imagen 4 4 rgb 3 8 imagen no 51 0
     7 10 imagen 8 10 rgb 3 8 imagen no 41 0
     7 11 imagen 6 6 rgb 3 8 imagen no 42 0
     7 12 imagen 113 27 rgb 3 8 jpx no 43 0
     8 13 imagen 582839 gris 1 8 jpeg no 2080 0
     8 14 imagen 344364 gris 1 8 jpx no 2079 0

Tenga en cuenta nuevamente: esta versión de pdfimageses la de Poppler (la de XPDF (¿todavía no es compatible?) Con esta nueva característica), y la versión debe ser v0.20.2 o posterior.

— Kurt Pfeifle
fuente

1

@harlev: Google para ImageMagick . Tiene una herramienta de línea de comandos que puede convertir cualquier cosa a cualquier cosa llamada convert. Disponible para Linux, Windows, MacOS X y lo que tengas. Más fácil de casos de uso para usted: convert some.ppm some.jpeg.

— Kurt Pfeifle

3

Nota: XPDF no se mantiene tan activamente como la biblioteca poppler que se bifurcó desde hace algún tiempo. Poppler también proporciona pdfimages, y algunas personas podrían preferir usar eso.

— MvG

1

@BurhanKhalid: los binarios preconstruidos están aquí: sourceforge.net/projects/poppler-win32

— Kurt Pfeifle

2

@KurtPfeifle Lamentablemente, estos no contienen ningún archivo exe.

— Chris

3

Sé que esto es antiguo, pero solo quería compartirlo si alguien está buscando binarios de Windows, puede obtenerlo aquí blog.alivate.com.au/poppler-windows

— Aivan Monceller

8

Puede intentar importar el PDF a Inkscape y trabajar desde allí. Inkscape solo abrirá una página a la vez, pero le dará un control completo sobre el contenido de la página. Podrá extraer y manipular gráficos vectoriales del PDF con bastante facilidad.

Sin embargo, si desea extraer imágenes ráster del PDF, estoy bastante seguro pdfimagesde que XPDF es más fácil (pero aún puede intentar usar Inkscape después de aprender cómo extraer imágenes incrustadas de archivos SVG ).

— Denilson Sá Maia
fuente

GIMP ( gimp.org ) es otra herramienta de diseño gráfico que puede importar y manipular archivos PDF. Sin embargo, no estoy seguro de cómo las capacidades de GIMP contrastan con las de Inkscape.

— coderworks

@coderworks: GIMP rasterizará la página PDF importada en una resolución dada. En otras palabras, es un poco mejor que usar "Imprimir pantalla". Inkscape, por otro lado, preservará los datos vectoriales originales, así como las imágenes ráster originales.

— Denilson Sá Maia

5

Sin instalar ningún software, puede cambiar a PDF-XChange Viewer (seleccione Versión portátil ) que ya tiene esta capacidad incorporada

exporta todas o las páginas seleccionadas como imagen
formato de salida: PNG, JPG, TIFF, BMP
elija DPI, nivel de compresión, escala de grises
puede guardar varias páginas como TIFF de varias páginas

^{Click para agrandar}

Tenga en cuenta que mientras este método convierte páginas PDF completas en imágenes, el método explicado desde @Laurenz usando Sumatra PDF es superior si desea extraer imágenes de una página PDF con contenido mixto (imagen + texto) para obtener solo la imagen.

— nixda
fuente

2

@ MarkSeemann No puedo seguir. "Sin instalar ningún software" significa en este contexto que hay una versión portátil disponible. El software portátil no se pudo "instalar" por definición. Simplemente descargue, extraiga e inicie.

— nixda

3

El hecho de que necesite "Elegir el DPI" invalida el propósito. Cambia el tamaño de las imágenes ráster (matriz de píxeles), y cualquier cambio de tamaño de una imagen ráster da como resultado una pérdida de calidad e información.

— Anthony

convertir archivos PPM a png o jpeg?

— Kiquenet

4

Sumatra PDF es un lector de PDF de código abierto rápido y liviano que puede copiar imágenes directamente al portapapeles, sin ninguna rasterización.

— Laurenz
fuente

3

MuPDF es un nuevo visor de PDF multiplataforma (de escritorio y móvil) lanzado bajo licencia AGPL. Lo mantienen las mismas personas de Ghostscript .

Contiene una herramienta de línea de comandos para extraer imágenes de un PDF:

mutool extract [options] file.pdf [object numbers]

El comando de extracción se puede utilizar para extraer imágenes y archivos de fuentes de un PDF. Si no se dan números de objeto en la línea de comando, se extraerán todas las imágenes y fuentes.

-p password
       Use the specified password if the file is encrypted.

-r     Convert images to RGB when extracting them.

— Denilson Sá Maia
fuente

2

uso pdftocairode poppler toolkit. Puede extraer y convertir imágenes de pdf a cualquier formato deseado. Siempre genera imágenes y nunca genera ppm o algunos dados como ese. El siguiente comando oculta las páginas pdf a imágenes jpg:

pdftocairo.exe -jpeg "my.pdf" "my"

Puede obtenerlo desde aquí para Windows: http://blog.alivate.com.au/poppler-windows/

También está disponible en Linux.

— MSS
fuente

Este comando NO EXTRACTA imágenes incrustadas en un PDF (como solicitó el OP). En cambio, CONVIERTE páginas PDF completas a formatos de imagen. Esta respuesta no se ajusta a la pregunta formulada.

— Kurt Pfeifle

1

http://www.sumnotes.net/ es una herramienta en línea para extraer notas, resaltados e imágenes. Lo utilicé ampliamente en la universidad para mi tesis y estaba realmente satisfecho.

— Timothy
fuente

Comercial con prueba gratuita limitada. También está en línea, lo que significa que no se puede garantizar la privacidad.

— anthony

-1

normalmente extraigo la imagen incrustada con 'pdfimages' en la resolución nativa, luego uso la conversión de ImageMagick al formato necesario:

$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName   # save in .ppm format
$ convert fileName-000.ppm fileName-000.png

Esto genera el mejor y más pequeño archivo de resultados.

Nota: Para imágenes incrustadas JPG con pérdida, tenía que usar -j:

$ pdfimages -j fileName.pdf fileName   # save in .jpg format

En una plataforma Win poco proporcionada, tuvo que descargar un binario reciente (0.37, 2015) 'poppler-util' de: http://blog.alivate.com.au/poppler-windows/

ACTUALIZACIÓN: En el reciente "poppler-util" 0.50+ (2016), pdfunite tiene una opción "-todos" para extraer un mapa de bits comprimido sin pérdidas como .png y un mapa de bits comprimido con pérdidas como .jpg, así de simple:

$ pdfimages -all fileName.pdf fileName

extraer siempre el mejor contenido de calidad posible de PDF

— Valerio
fuente

Anteriormente estaba en la respuesta de Kurt Pfeifle.

— daniel.neumann