Convertidor de PDF a texto [cerrado]


9

Estoy buscando una forma de "hacer un clic" para tomar CUALQUIER PDF y convertirlo a texto sin formato. Idealmente en OSX o Linux.

Idealmente, la solución incluiría la funcionalidad OCR, pero no necesariamente.

La máxima prioridad es tener algo que pueda tomar CUALQUIER archivo SIN configuración.

Respuestas:


23

Hay xpdf que incluye el pdftotextbinario.

Pdftotext convierte archivos de formato de documento portátil (PDF) a texto sin formato.

En Linux hay un instalador disponible. Parece que también viene en el poppler-utilspaquete. En OS X, puede instalarlo usando Homebrew (instale eso primero) y luego usar

brew install homebrew/x11/xpdf

que descargará los archivos fuente y lo compilará para OS X. Después de eso, simplemente úselo como:

pdftotext your_pdf_file.pdf

que generará un archivo de texto sin formato. También hay un par de opciones, echa un vistazo man pdftotextpara más detalles.

Una alternativa es poppler , en OSX:

brew install poppler

en Debian y amigos

apt-get install poppler-utils

a partir de hoy el comando esbrew install homebrew/x11/xpdf
Diego Vieira

1
@DiegoVieira Gracias. ¡La próxima vez no dudes en sugerir una edición!
slhck

alguna ventaja usando poppler en lugar de xpdf / pdftotext?
Gonzalo Bahamondez

brew install Caskroom/cask/pdftotext
Hugo

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.