¿Cómo copiar texto de un PDF sin perder el formato?

41

Cuando copio texto de un archivo PDF y lo introduzco en un editor de texto, termina siendo destrozado de varias maneras. El formato como negrita y cursiva se pierde; los saltos de línea suaves dentro de un párrafo de texto se convierten en saltos de línea duras; los guiones para separar una palabra en dos líneas se conservan incluso cuando no deberían serlo; y las comillas simples y dobles se reemplazan con? señales.

Idealmente, me gustaría poder copiar texto de un PDF y convertir el formato a códigos HTML, "comillas inteligentes" convertidas a "y", y saltos de línea realizados correctamente. ¿Hay alguna forma de hacerlo?

pdf

— Colen
fuente

2

Word 2013 puede abrir archivos PDF. No es perfecto. Pero factible

— pratnala 01 de

Puede estar relacionado: superuser.com/a/455278/13787

— Steven R. Loomis

54

En primer lugar, debes entender qué es un PDF. Los PDF están diseñados para imitar una página impresa, y están diseñados solo como formato de salida, no como formato de entrada. Un PDF es básicamente un mapa que contiene la ubicación exacta de los caracteres (letras individuales o signos de puntuación, etc.) o imágenes. En la mayoría de los casos , un PDF ni siquiera almacena información sobre dónde termina una palabra y comienza otra, y mucho menos cosas como pausas suaves frente a pausas duras para las terminaciones de párrafo.

(Algunos PDF recientes almacenan información sobre estas cosas, pero esa es una nueva tecnología, y sería una suerte encontrar PDF como ese. Incluso si lo hiciera, su visor de PDF podría no saberlo).

De todos modos, depende de su software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de los caracteres individuales qué es una palabra, qué es un párrafo, etc. Un software diferente lo hará mejor que otros, y también dependerá de cómo se hizo el PDF. En cualquier caso, nunca debe esperar resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento fuente. Mucho mejor tratar de obtener eso si puedes.

La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el costoso, no el lector gratuito) para convertir el PDF a HTML. Incluso eso no va a obtener resultados perfectos.

Existe un software gratuito que se puede utilizar para extraer texto de archivos PDF con algunos de los formatos intactos, pero de nuevo, no espere resultados perfectos. Consulte, por ejemplo, calibre (que puede convertir a formato RTF), pdftohtml / pdfreflow o el procesador de textos AbiWord (con todos los complementos de importación / exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.

Pero no esperes la perfección con ninguno de estos resultados. Vas contra la corriente aquí. PDF simplemente no se entiende como un formato de entrada editable.

— precioso
fuente

2

un comentario 5 años después: no hay gran mejora: tuve que convertirlo a HTML (usando acrobat x) y luego insertar cada fila en una tabla de MSword. (Ahorrar para Word o Excel o TXT simplemente estropeó todo, copiar pasado de Chrome tampoco funcionó en absoluto). Todavía estoy esperando un software (muy) inteligente.

— JinSnow

haga clic derecho en la tabla y elija "copiar con formato" también funciona, con los límites mencionados anteriormente

— JinSnow

1

Debido a que esta es la respuesta aceptada, sugiero que también mencione la opción (más reciente) que pratnala escribió en su comentario: abra el pdf directamente desde Word 2013. En algunos archivos PDF que probé, dio mejores resultados que todo el software anterior.

— BornToCode

8

Otra opción es descargar y comenzar a usar el visor de pdf gratuito, Foxit (es bueno). Luego puede 'Guardar como' y elegir .txt para convertirlo en un archivo de texto. Eso preservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace un tiempo cuando me convertí a Foxit.

— Chris
fuente

"Guardar como ... Texto" funcionó para mí con varios visores de PDF gratuitos.

— Jeff

Utilizo Foxit, y solo lo probé, no diría que conserva el formato. Y todo lo que quería eran finales de línea decentes y cada párrafo como un párrafo.

— pgr

Usando txt, perderá todo el formato: fuentes, negrita, cursiva, colores y, por supuesto, opciones más avanzadas

— Skan

Foxit Reader funcionó muy bien para mí

— Michael Tranchida

5

Hay una muy buena herramienta en línea llamada Sej-da . Sus ofertas con la manipulación avanzada de PDF. No hay software para descargar. Como se trata de una nueva herramienta en línea, actualmente todavía está en versión Beta. Le permite extraer texto de un PDF, así como proporcionar una gran cantidad de otras funcionalidades de PDF

http://www.sejda.com/

El 14 de noviembre de 2012 se realizó una breve revisión en video de las funciones sejda por la Revisión 3, que se puede encontrar aquí:

http://revision3.com/tzdaily/sejda-online-pdf

— Simon
fuente

1

Uno podría todavía descargar la herramienta de línea de comandos: sejda.org/download (no creo que permite la extracción de texto con el formato?)

— Arjan

Ya he recomendado a Sejda por encima de Arjan

— Simon

1

¿Eh? Solo quería decir: estás diciendo que es una herramienta en línea, pero también se puede descargar lo mismo. Además, analizándolo más a fondo: no creo que conserve el formato, como se solicitó.

— Arjan

Sé que se solicitó la preservación del formato, pero a menos que lo intentes nunca lo sabrás.

— Simon

Como es una herramienta gratuita con una gran cantidad de características, y ni siquiera está fuera de beta, no hay nada que perder, pero inténtalo. Con el tiempo, su conjunto de características probablemente se ampliará, pero por ahora no puedo quejarme.

— Simon

5

Abra su archivo PDF con un navegador (se prueban Google Chrome y Firefox) y luego copie el texto allí.

— harsini
fuente

Lamentablemente, esto no funcionó para mí en Firefox.

— Reb

cerca. FF mantuvo los tamaños de fuente al menos. Chrome falló miserablemente, ni siquiera los avances de línea.

— nd34567s32e

A partir de octubre de 2019, abrir un PDF en Chrome y copiar / pegar en un editor de texto al menos conserva el final de línea (pero, lamentablemente, no hay ningún espacio en blanco en las líneas).

— DocOc

4

Puede usar Adobe Acrobat Pro para esto.

Para tablas: con Acrobat 9/10 había una función de tablas seleccionadas. Con Acrobat X puede hacer clic en Guardar como> Hoja de cálculo> Excel. Incluso concatena páginas en una larga hoja de cálculo. Característica impresionante

Para texto: existe una característica similar para exportar a MS Word. Guardar como> Word> Word Doc.

Fuentes:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Simplemente lo hice y funcionó a las mil maravillas.

— usuario156787
fuente

0

Foxit alternará entre mostrar el archivo original como PDF normal o como texto presionando Ctrl + 6 (Con un pequeño toqueteo con el nivel de zoom del modo de texto no hay mucho salto en la posición de ida y vuelta entre la lectura y la copia)

— Al aire libre
fuente

0

Esto me pareció muy útil ( Eliminar saltos de línea ):

Aquí hay un truco útil para resolver esto rápidamente sin tener que eliminar todos los saltos de línea manualmente. Básicamente, todo lo que hace es reemplazar automáticamente todos los saltos de línea no deseados con un solo espacio, haciendo que todo el texto se ejecute en un solo párrafo:

1- copia el texto que quieras del PDF.

2- pegar en un nuevo documento de Word.

3- haga clic en "editar" y luego "reemplazar"

4- asegúrate de estar en el campo "buscar qué"

5- haga clic en "más" y luego en "especial"

6- seleccione "marca de párrafo" (parte superior de la lista)

7- haga clic en el campo "reemplazar con"

8- presiona la barra espaciadora una vez

9- haga clic en "reemplazar todo"

10- haga clic en "ok" y luego cierre el cuadro "buscar y reemplazar".

— claraboya
fuente

-1

Puede copiar desde adobe reader a MS Excel y formatear (tabla) de la manera que desee y luego copiar y pegar desde Excel. Esta solución funciona muy bien. No necesita comprar una costosa copia de adobe profesional.

— Murali Sastry
fuente

La pregunta discute el texto. ¿Crees que esta sería una buena solución general para el texto, incluida la conversión de formato a códigos HTML?

— Fixer1234

-1

Intenté guardar el texto y el formato de un pdf organizado en una tabla. En Acrobat Professional, me di cuenta de que hay una opción 'Guardar como' que permite guardar como documento de Excel. Esto funcionó bien para mis necesidades. También noté que también hay una opción para guardar el documento de Word. Aunque no lo intenté.

— Douglas Thompson
fuente

2

Esto duplica la respuesta del usuario 156787.

— Fixer1234