¿La mejor herramienta para inspeccionar archivos PDF? [cerrado]

Question 1

¿Cómo puedo inspeccionar archivos PDF, preferiblemente con una herramienta?

Caso de uso: estoy tratando de generar archivos PDF mediante programación (usando iText). Tengo problemas para lograr ciertos diseños, pero tengo archivos PDF con el texto distribuido de la manera que quiero (generado a partir de Word). Me gustaría aplicar ingeniería inversa a cómo lo hacen.

PDF Inspector parece estar bien, pero estoy buscando algo para Windows.

Question 2

Adobe Acrobat tiene un modo genial pero bastante bien oculto que le permite inspeccionar archivos PDF. Escribí un artículo de blog explicándolo en https://blog.idrsolutions.com/2009/04/viewing-pdf-objects/

Question 3

Además de las herramientas basadas en GUI mencionadas en las otras respuestas, hay algunas herramientas de línea de comandos que pueden transformar el código fuente PDF original en una representación diferente que le permite inspeccionar el (archivo ahora modificado) con un editor de texto. Todas las herramientas siguientes funcionan en Linux, Mac OS X, otros sistemas Unix o Windows.

`qpdf` (mi favorito)

Use qpdf para descomprimir (la mayoría) de los flujos de ObjStmobjetos y también diseccionar objetos en objetos indirectos individuales:

qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf

qpdfse describe a sí misma como una herramienta que realiza "transformaciones estructurales que preservan el contenido en archivos PDF" .

Luego, simplemente abra + inspeccione el uncompressed-qpdf.pdfarchivo en su editor de texto favorito. La mayoría de los bytes previamente comprimidos (y por lo tanto, binarios) ahora serán texto sin formato.

`mutool`

También existe la mutoolherramienta de línea de comandos que viene incluida con el visor de PDF MuPDF (que es un producto hermano de Ghostscript, fabricado por la misma compañía, Artifex ). El siguiente comando también descomprime los flujos y los hace más fáciles de inspeccionar a través de un editor de texto:

mutool clean -d orig.pdf uncompressed-mutool.pdf

`podofouncompress`

PoDoFo es una biblioteca FreeSoftware / OpenSource para trabajar con el formato PDF e incluye algunas herramientas de línea de comandos, incluidaspodofouncompress. Úselo así para descomprimir flujos de PDF:

podofouncompress orig.pdf uncompressed-podofo.pdf

`peepdf.py`

PeePDF es una herramienta basada en Python que le ayuda a explorar archivos PDF. Su propósito original era la investigación y disección de malware basado en PDF, pero también lo encuentro útil para investigar la estructura de archivos PDF completamente benignos.

Se puede utilizar de forma interactiva para "examinar" los objetos y las secuencias contenidos en un PDF.

No daré un ejemplo de uso aquí, sino solo un enlace a su documentación:

peepdf - Herramienta de análisis de PDF

`pdfid.py` y `pdf-parser.py`

pdfid.pyy pdf-parser.pyson dos herramientas PDF de Didier Stevens escritas en Python.

Su experiencia también es ayudar a explorar archivos PDF maliciosos , pero también me resulta útil analizar la estructura y el contenido de archivos PDF benignos.

Aquí hay un ejemplo de cómo extraería el flujo sin comprimir del objeto PDF no. 5 en un archivo * .dump:

pdf-parser.py -o 5 -f -d obj5.dump my.pdf

Notas finales

Tenga en cuenta que algunas partes binarias dentro de un PDF no son necesariamente incompresibles (o decodificables en código ASCII legible por humanos), porque están incrustadas y utilizadas en su formato nativo dentro de los PDF. Estas partes de PDF son imágenes JPEG, fuentes o perfiles de color ICC.
Si compara las herramientas anteriores y los ejemplos de la línea de comandos dados, descubrirá que NO todas producen resultados idénticos. El esfuerzo de compararlos por sus diferencias en sí mismo puede ayudarlo a comprender mejor la naturaleza de la sintaxis y el formato de archivo PDF.

Question 4

Utilizo iText RUPS (lectura y actualización de la sintaxis de PDF) en Linux. Dado que está escrito en Java, también funciona en Windows. Puede examinar todos los objetos del archivo PDF en una estructura de árbol. También puede decodificar transmisiones codificadas con Flate sobre la marcha para facilitar la inspección.

Aquí hay una captura de pantalla:

Captura de pantalla de iText RUPS

Question 5

PDFXplorer de O2 Solutions hace un trabajo excelente al mostrar los componentes internos.

http://www.o2sol.com/pdfxplorer/overview.htm

(Banner gratuito que distrae en la parte inferior).

Question 6

He utilizado PDFBox con mucho éxito. Aquí hay una muestra de cómo se ve el código (desde la versión 0.7.2), que probablemente provino de uno de los ejemplos proporcionados:

// load the document
System.out.println("Reading document: " + filename);
PDDocument doc = null;                                                                                                                                                                                                          
doc = PDDocument.load(filename);

// look at all the document information
PDDocumentInformation info = doc.getDocumentInformation();
COSDictionary dict = info.getDictionary();
List l = dict.keyList();
for (Object o : l) {
    //System.out.println(o.toString() + " " + dict.getString(o));
    System.out.println(o.toString());
}

// look at the document catalog
PDDocumentCatalog cat = doc.getDocumentCatalog();
System.out.println("Catalog:" + cat);

List<PDPage> lp = cat.getAllPages();
System.out.println("# Pages: " + lp.size());
PDPage page = lp.get(4);
System.out.println("Page: " + page);
System.out.println("\tCropBox: " + page.getCropBox());
System.out.println("\tMediaBox: " + page.getMediaBox());
System.out.println("\tResources: " + page.getResources());
System.out.println("\tRotation: " + page.getRotation());
System.out.println("\tArtBox: " + page.getArtBox());
System.out.println("\tBleedBox: " + page.getBleedBox());
System.out.println("\tContents: " + page.getContents());
System.out.println("\tTrimBox: " + page.getTrimBox());
List<PDAnnotation> la = page.getAnnotations();
System.out.println("\t# Annotations: " + la.size());

Question 7

También hay otra opción. Adobe Acrobat Pro también puede mostrar la estructura de árbol interna del PDF.

Abrir Preflight
Vaya a Opciones (esquina superior derecha)
Estructura interna de PDF

En la parte superior, Adobe Acrobat Pro también puede mostrar la estructura interna de las fuentes del documento en el PDF, la mayoría de los demás "visores de estructura de árbol de PDF" no tienen esta opción.

Question 8

El visor de objetos en Acrobat es bueno, pero PDF Canopener de Windjack Solution permite una mejor inspección con un cuentagotas para seleccionar objetos en la página. También permite realizar modificaciones en PDF.

http://www.windjack.com/products/pdfcanopener.html

Question 9

PDF Analyzer es similar a PDFXplorer , pero tiene más opciones. También es gratis después de un solo registro.

Question 10

Si desea trabajar mediante programación desde Python, pdfminer es una buena opción. Le permite trabajar con la estructura de PDF en la memoria como una jerarquía de objetos o serializarla como XML.

Question 11

Mi sugerencia es Foxit PDF Reader, que es muy útil para realizar trabajos importantes de edición de texto en archivos PDF.

¿La mejor herramienta para inspeccionar archivos PDF? [cerrado]

qpdf (mi favorito)

mutool

podofouncompress

peepdf.py

pdfid.py y pdf-parser.py