Sé que he hecho esto antes, así que estoy seguro de que es posible, solo olvido cómo hacerlo. Hay una manera de decirle a convertir que tome una página específica de un PDF, y me gustaría mantener el formato de esa página como PDF.
Sé que he hecho esto antes, así que estoy seguro de que es posible, solo olvido cómo hacerlo. Hay una manera de decirle a convertir que tome una página específica de un PDF, y me gustaría mantener el formato de esa página como PDF.
Respuestas:
ImageMagick es una herramienta para imágenes de mapa de bits, que no son la mayoría de los PDF. Si lo usa, rasterizará los datos, lo que a menudo no es deseable.
Pdftk puede extraer una o más páginas de un archivo PDF.
pdftk A=input.pdf cat A42 A43 output pages_42_43.pdf
Si tiene una instalación de LaTeX con PDFLaTeX, puede usar páginas pdf . Hay un contenedor de shell para pdfpages, pdfjam .
pdfjam -o pages_42_43.pdf input.pdf 42,43
Otra posibilidad (exagerada aquí, pero útil para requisitos más complejos que una página) es Python con la biblioteca PyPdf .
#!/usr/bin/env python
import copy, sys
from pyPdf import PdfFileWriter, PdfFileReader
input = PdfFileReader(sys.stdin)
output = PdfFileWriter()
for i in [42, 43]:
output.addPage(input.getPage(i))
output.write(sys.stdout)
pdfjam
funciona de maravilla y ya estaba instalado con mi distribución LaTeX. Es muy fácil de usar.
pdftk
por lo que no parece extraer simplemente una página. El resultado estuvo bien de lo contrario.
Puede usar la notación de subíndice con convert(1)
para "indexar" en un PDF:
$ convert source.pdf[1] dest.pdf
El valor del índice depende de cómo el exportador de PDF numeró las páginas. En las pruebas de los archivos aquí, los números parecen estar basados en cero, por lo que el ejemplo anterior le muestra la segunda página del documento. He visto ejemplos en línea donde muestran índices de letras, ya que aparentemente el creador del PDF "numeró" las páginas de ese documento de esa manera.
Desafortunadamente, esto no da muy buenos resultados, porque ImageMagick asume que todo está basado en píxeles y, por lo tanto, rasteriza las imágenes vectoriales, como la tipografía en un PDF típico.
Una mejor herramienta para el trabajo es Ghostscript , que probablemente ya haya instalado:
$ gs -dNOPAUSE -dBATCH -dFirstPage=2 -dLastPage=2 -sDEVICE=pdfwrite \
-sOutputFile=dest.pdf -f src.pdf
Esto pasa los datos PDF sin cambios, ya que Ghostscript entiende PDF (un derivado PostScript) a un nivel mucho más profundo que ImageMagick.
-density 300
es el punto ideal . Algo más grande y estás creando archivos temporales enormes, que probablemente redimensionarás a miniaturas de todos modos
source.pdf[3-6]
pdftk
también. Querrás usarlo.