OK ... creo que pdflatex
es la pieza que falta aquí.
El OP dijo que ha investigado poppler-utils
y pdftk
. Déjame agregar a eso pdfimages
. Estos, junto con pdflatex
son las piezas de una solución.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
En el código de ejemplo anterior, pdfimages
mira las páginas 4 a 20 target.pdf
y extrae todas las imágenes en archivos con nombres que comienzan imageroot
.
poppler-utils
proporciona pdftotext
. Recomiendo la -layout
opción que hace un gran trabajo manteniendo el documento legible por humanos.
pdftotext -layout $1.pdf $1.txt
La objeción del OP a la imagemagick
solución ofrecida por pidosaurus es que una imagen no tiene texto extraíble. Con las utilidades que describí, el OP ahora tendrá todas las imágenes, así como todo el texto extraído, y la -layout
opción conserva los números de página y el contenido . El OP podría identificar la página de texto correcta y colocarla en un .tex
archivo que termine con una %includegraphics
directiva y haga referencia a la imagen de reemplazo por nombre de archivo. Luego, pdflatex
esto y termina con un nuevo .pdf de una sola página para insertar en el resto de su documento pdftk
. Si sabía en qué parte del texto de la página original residía la imagen, puede %includegraphics [h]
obtener la imagen exactamente en el lugar correcto.