Estoy usando OSX y me gustaría poder convertir archivos PDF a texto.
Me gustaría una aplicación gratuita para hacer esto, ya que estoy seguro de que debe haber alguna.
Estoy usando OSX y me gustaría poder convertir archivos PDF a texto.
Me gustaría una aplicación gratuita para hacer esto, ya que estoy seguro de que debe haber alguna.
Respuestas:
Estos son los pasos que usé para instalar y usar xpdf a través de Homebrew.
Instala las dependencias de Homebrew:
xcode-select --install
Instale Homebrew desde su sitio web:
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
Haz lo que te dice para completar la instalación de Homebrew.
Verifique que Homebrew esté contento y funcionando según las especificaciones.
brew doctor
Luego instale xpdf y sus dependencias:
brew install Caskroom/cask/xquartz
brew install xpdf
Finalmente, use pdftotext, un paquete que viene con el paquete xpdf:
pdftotext Some_Document.pdf Some_Document.txt
El primer nombre de archivo es un PDF existente; El segundo es el destino. Los resultados fueron mucho mejores que con una versión (ciertamente antigua) de Adobe Acrobat. Editar: las nuevas versiones (2019) de Adobe Acrobat han mostrado resultados igualmente pobres.
xquartzno es necesario para las herramientas de la consola xpdf. Además, existe una popplerbifurcación xpdfque parece mantenerse mucho más activa: github.com/scraperwiki/scraperwiki-python/issues/…
Múltiples métodos
Use documentos de Google (necesitará una cuenta de Google)
Use Automator (se requiere algo de trabajo)
Puede usar Automator para crear un flujo de trabajo que pueda extraer texto de archivos PDF y guardarlo como texto o documento RTF.

o una aplicación de App Store, por ejemplo, PDF a texto
xpdf que instalé con puertos:
port install xpdf
contiene:
xpdf-pdftotext
Hace lo que desea para cualquier archivo PDF que provenga de un archivo de texto (y no de una imagen):
xpdf-pdftotext PDF_file text_file
La versión actual de Adobe Reader (11.0.09) tiene un elemento "Guardar como otro" en su menú Archivo.
Una de las opciones es Texto .
La aplicación es gratuita y hace un trabajo decente al generar archivos de texto. Todas las imágenes del nuevo documento se perderán con el formato .txt.
Creo que debería poder copiar y pegar el texto en otro documento. Para seleccionar todo el texto
Tenga en cuenta que si intenta hacer esto, y no hay texto pegado, solo un montón de líneas en blanco, intente imprimir su PDF a un PDF nuevo primero, p. Ej.
Ahora intente el proceso anterior con este nuevo PDF. ¡Trabajó para mi!
PD: si tiene Microsoft Word, puede abrir su PDF en Word
El siguiente script de Python generará el texto de un documento PDF a un archivo .txt. (Nota: no hay garantía de que el texto esté necesariamente en orden 'lógico' de lectura humana, debido a la forma en que los datos se almacenan en formato PDF).
El script creará archivos de texto para cualquier archivo PDF suministrado como argumentos en la línea de comando (por ejemplo pdf2txt.py myPDF.pdf), o puede usarlo en la acción "Ejecutar script de Shell" de Automator, configurando el tipo de shell en python y Pasar la entrada a "Como argumentos" . Luego puede usarlo como Acción rápida o DropApp.
#!/usr/bin/python
# coding: utf-8
import os, sys
from Quartz import PDFDocument
from CoreFoundation import (NSURL, NSString)
NSUTF8StringEncoding = 4
def pdf2txt():
for filename in sys.argv[1:]:
inputfile =filename.decode('utf-8')
shortName = os.path.splitext(filename)[0]
outputfile = shortName+" text.txt"
pdfURL = NSURL.fileURLWithPath_(inputfile)
pdfDoc = PDFDocument.alloc().initWithURL_(pdfURL)
if pdfDoc :
pdfString = NSString.stringWithString_(pdfDoc.string())
pdfString.writeToFile_atomically_encoding_error_(outputfile, True, NSUTF8StringEncoding, None)
if __name__ == "__main__":
pdf2txt()
if pdfDocdeclaración con print(pdfDoc.string()).