Examinar la estructura interna del PDF

18

¿Cómo examinar la estructura interna de PDF en adobe 9.0?

No encontré el menú avanzado que tiene esta opción.

¿Alguien puede ayudarme?

pdf

23

Hay varias formas de explorar la estructura interna de un PDF.

Los PDF son legibles para humanos

Salvo las contraseñas de seguridad, gran parte es legible por humanos. Si un PDF tiene una contraseña, todas las cadenas y secuencias (que ya estarán comprimidas, sin pérdida) serán basura pseudoaleatoria. Abundan los flujos de datos comprimidos, pero gran parte se parece a esto en su editor de texto favorito:

2 0 obj
<< /Type /Page 
   /MediaBox [0 0 612 792]
   /Contents 4 0 R
   /Resources << /Fonts 
     << /F1 5 0 R>> 
   >>
>>
endobj

Advertencia: el espacio en blanco es en gran medida irrelevante y generalmente se elimina cuando es posible. Simplemente hice esto bonito para que entenderlo sea un poco más fácil.

<< y >> comienzan y terminan los "diccionarios". Los diccionarios están formados por pares clave / valor. La clave siempre es un "nombre": todos los nombres comienzan con '/'. El valor puede ser cualquier cosa, incluido otro nombre.

[ y ] comienzan y terminan las "matrices". Las matrices pueden estar formadas por casi cualquier cosa.

Los números son "números". Punto flotante o de otra manera.

() y <> comienzan y terminan las "cadenas". <> las cadenas se enumeran como valores hexadecimales, () son cadenas ANSI.

Pet Peeve: / Names y (Strings) usan sistemas de escape completamente diferentes. Grr.

Las referencias indirectas apuntan a otros objetos en el PDF:
<objNum> <generationNum-AlwaysZero> R

En el objeto de ejemplo anterior, la secuencia de contenido está en el objeto 4, en otra parte del PDF. Para encontrarlo, puede usar la búsqueda de texto de su editor para "N 0 obj", donde N es el número de objeto que desea.
ADVERTENCIA: Hay cientos, posiblemente miles de objetos en un PDF. Si buscas "1 0 obj" obtendrás MUCHOS éxitos.

Dado que está pidiendo ver la estructura interna, probablemente ya sepa todo esto. Otros que quieran saber lo mismo pueden no saberlo.

ADVERTENCIA: NO EDITE un PDF en un editor de texto. Todas esas cosas binarias se destrozarán, los desplazamientos de bytes son muy importantes en PDF.

Complemento de Acrobat [s]

Hay un complemento acrobat llamado PDF CanOpener por Windjack Solutions (sin afiliación). Es liso. Podrá explorar la estructura del PDF como un árbol, mirar (y modificar) las secuencias de contenido, etc.

Aplicaciones de terceros

Un montón. Muchas personas crean uno como parte del aprendizaje para analizar PDF o como una herramienta de depuración. Son bastante prácticos.

iText RUPS (parte de iText, una biblioteca Java PDF, ahora en GitHub)

Explorador de objetos PDF

PDF Vole

— Mark Storer
fuente

1

PDF Voleel enlace parece estar roto ahora ...

— ADN

55

+1 para iText RUPS, no es precisamente una GUI amigable pero funciona, por cierto, actualmente la URL del proyecto parece ser ( sourceforge.net/projects/itextrups )

— Jaime Hablutzel

2

iText RUPS se ha movido aquí: github.com/itext/rups

— bmaupin

1

Hay una copia del código fuente de pdfvole aquí: github.com/Rossi1337/pdf_vole

— yms

1

Si el PDF tiene flujos de datos comprimidos, la utilidad de línea de comandos qpdf puede decodificarlos / desinflarlos y escribir un PDF con contenidos más inteligibles: `qpdf --decode-level = all --stream-data = descomprimir inputfile.pdf archivo expandido. pdf

— skierpage

7

O2Solutions ofrece una utilidad compatible con MS Windows para ver la estructura interna de los documentos PDF. Es gratis para uso personal y comercial.

http://www.o2sol.com/pdfxplorer/overview.htm

— AffineMesh
fuente

4

Puede explorar la estructura interna de PDF en Adobe Acrobat utilizando su Browse Internal PDF Structurecomando desde el complemento Preflight:

http://www.jpedal.org/PDFblog/2009/04/viewing-pdf-objects/

También puede utilizar el complemento comercial PDF CanOpener para Acrobat para ver la estructura del objeto o PDFedit gratuito para decodificar flujos de datos comprimidos en PDF.

— marca stephens
fuente

4

PoDoFoBrowser es una pequeña utilidad portátil gratuita que permite no solo explorar la estructura interna del PDF sino también exportar, importar y editar datos de objetos. Se puede descargar desde aquí:

http://sourceforge.net/projects/podofo/files/podofobrowser/0.5/

Así es como se ve en Windows:

captura de pantalla

— Alexey Popkov
fuente

2

El editor gratuito PDF-XChange tiene un panel de contenido que le permite ver la estructura de árbol del archivo PDF.

View -> Panes -> Content

— Hüseyin Yağlı
fuente

2

PDF Vole parece estar roto. Si alguien todavía está buscando una herramienta, estoy usando el PDF Analyzer gratuito .

— juFo
fuente