¿Hay algún tipo de convertidor de PDF a texto?


21

Necesito archivos PDF para enviar mensajes de texto para poder buscarlos en masa desde la línea de comandos. ¿Hay algún convertidor para Ubuntu, OBSD o una distribución similar?

Quizás publicación relacionada, OCR con ubuntu aquí .



Si es un PDF "real" (hecho de texto, etc.) pdftotext es su mejor opción. Si se trata de una imagen, su mejor opción son algunas cosas de OCR.
vonbrand

1
Yo siempre uso pdftotext= pdfcat.
isomorphismes

Respuestas:


22

¡Tienes muchas opciones!

pdftotextde poppler ya se ha mencionado.

Hay un programa llamado Haskellpdf2line que funciona bien.

calibre 's ebook-convertprograma de línea de comandos (o calibre en sí) es otra opción; puede convertir PDF a texto plano u otro formato de libro electrónico (RTF, ePub), en mi opinión genera mejores resultados que pdftotext, aunque es considerablemente más lento.

ebook-convert file.pdf file.txt

AbiWord puede convertir entre cualquier formato que conozca desde la línea de comandos, y al menos opcionalmente tiene un complemento de importación de PDF:

abiword --to=txt file.pdf

Otra opción más es podofotextextractde la biblioteca de herramientas PDF de podofo. Realmente no lo he intentado.

Si combina las dos herramientas de Ghostscript pdf2psy ps2asciitiene otra opción.

De hecho, puedo pensar en algunos métodos más, pero lo dejaré así por ahora. ;)


ebook-convert de calibre ... ¿has visto lo que hace a las ligaduras? bleargh Digámoslo de esta manera: no es un programa muy efectivo. pdftotext es mucho más fiel. Nunca he descubierto ningún error en su salida.
ixtmixilix

1
Puede usar menos para ver archivos pdf como texto. Invoca un preprocesador, es decir, lesspipe, para invocar pdftotext o herramientas similares.
Daniel Näslund

pdftotextda resultados más precisos que ebook-converty es muy rápido. ebook-convertes lento
Amit Patel

pdftotextcon -layoutopción rocas! calibreRequiere más de 600 MB para instalar! Eso es una locura)
Stalinko

9

Puede convertir archivos PDF a texto en la línea de comandos con pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspaquete).

Puede usar Recoll (Ubuntu: recoll ; OpenBSD: no port, pero hay uno para FreeBSD ) para buscar dentro de varios tipos de documentos de texto formateados, incluido PDF. Hay una GUI, y crea un índice automáticamente debajo del capó. Se utiliza pdftotextpara convertir PDF a texto.

Acrobat Reader (al menos la versión 9 en Linux) tiene una capacidad limitada de búsqueda de múltiples archivos (puede buscar en todos los archivos en un directorio).



-1

gPDFText convierte el contenido del ebook PDF en texto ASCII, reformateado para párrafos largos, funciona para mí y tiene una interfaz gráfica.


3
Hola y bienvenidos al sitio. Nos gusta que las respuestas sean un poco más completas aquí. Por ejemplo, podría agregar dónde gPDFTextse puede obtener, cómo se puede instalar y cómo se usaría para responder la pregunta del OP.
terdon
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.