buscar archivos PDF con codificaciones de caracteres no estándar

19

Algunos archivos PDF producen basura (" mojibake ") cuando copia el texto (aunque se muestren bien). Esto hace que sea imposible buscarlos (lo que sea que busque no coincidirá con la basura).

¿Alguien tiene una solución fácil?

Ejemplos:

TEAC TV manual EU2816STF (produce los problemas anteriores en Adobe Reader tanto en Windows como en Mac, pero funciona bien en Vista previa en una Mac)
Manual de Leadtek Winfast PVR2 (enlace FTP; también tiene problemas en Vista previa en una Mac)
Manual de la tarjeta sintonizadora de TV Swann (enlace FTP; también tiene problemas en Vista previa en una Mac)
Acuerdo de licencia de Phonedisc (del ahora difunto DTMS )
Revisión trimestral de fondos de Macquarie IFP
BAN-TACS Small Business Booklet (versión archivada)
Folleto de Easterfest 2004 (también del archivo)

Estoy usando Adobe Reader (última versión) para Windows, ¿tal vez un visor alternativo podría ayudar? Estoy buscando una solución gratuita para Windows. El código abierto sería aún mejor.

Editar: Los documentos para la herramienta de texto de extracto multivalente tienen un buen resumen de por qué las cosas pueden salir mal, incluyendo: (documento citado modificado por última vez en enero de 2006)

Es posible que el texto no tenga una asignación Unicode. Las fuentes PDF Tipo 3 a menudo no lo hacen, y TeX DVI tiene caracteres que no tienen equivalentes Unicode.

La codificación Unicode puede tener errores. Open Office asigna algunos caracteres en el mismo Unicode, lo que resulta en la aparición y duplicación de letras aparentes.

Supongo que la solución final en estos casos sería OCR cada glifo en una fuente para descubrir qué carácter es realmente. Tenga en cuenta que esto sería más fácil que OCRing un documento escaneado ruidoso porque la forma exacta del glifo está disponible (a resolución infinita ya que es una imagen "vectorial").

pdf search character-encoding

— Hugh Allen
fuente

Usando clipbrd.exe(ver mydigitallife.info/2008/11/06/… ) puede ver lo que hay en el portapapeles. ¿Qué te da eso?

— Arjan

@Arjan van Bentem: me da exactamente la misma basura que obtengo al pegar en el Bloc de notas.

— Hugh Allen

¿Algún detalle sobre el formato? Estoy en una Mac, pero supongo que Windows le diría si algo es una imagen o texto, y luego, ¿para el texto tal vez también revele algo sobre la codificación?

— Arjan

Para el ejemplo del Manual de TV: el mismo problema en Adobe Reader 8.1.2 en una Mac, pero sin problemas al usar la Vista previa de Mac para copiar o buscar texto. Sus propiedades de documento muestran "Codificación: Personalizada" para las fuentes (ver img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Otros documentos PDF muestran cosas como "Codificación: Ansi" o "Roman" y no tienen problemas en Adobe Reader en una Mac (como adobe.com/education/pdf/type_primer.pdf produce img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png )

— Arjan

1

Además, pdftextonline.com no puede recuperar el texto del Manual de TV ni el documento de Phonedisc (no probé los otros). Pero enviar a Gmail y después de ver como HTML hace el trabajo para la televisión Manual (al igual que Vista preliminar no tiene problemas con ese documento) ...

— Arjan

3

Foxit Reader , tal vez?

Por si sirve de algo, acabo de comprobar el PDF se ha vinculado a con Safari 4.0.4 en Mac OS X 10.6.2 y si bien no es cierta Engrish , el PDF se hace sin problemas y sin ninguna "basura" en pantalla. ¿Quizás tenga problemas con Unicode (más común en Windows que en Mac OS)?

— Alex
fuente

La basura no está en la pantalla, está en el portapapeles cuando copio algo de texto. ¿Qué te sucede cuando lo intentas?

— Hugh Allen

@Hugh: Características 􏰃 Es un televisor a color con control remoto. 􏰃 Se pueden preajustar 100 programas de bandas VHF, UHF o canales de cable. 􏰃 Puede sintonizar canales de cable. 􏰃 Controlar el televisor es muy fácil gracias a su sistema de menú. 􏰃 Tiene tres zócalos Euroconnector para dispositivos externos (como computadora, video, videojuegos, equipo de audio, etc.)

— Alex

@Hugh: Las viñetas no se copian correctamente, pero el resto sí. ¿Con qué sección / página / párrafo específicamente tienes un problema, y lo intentaré?

— Alex

Todo ello. Estoy usando Adobe Reader para Windows. Acabo de actualizar a la última versión que no ayudó. +1 gracias por la información. Supongo que Adobe Reader tiene un error no compartido por el equivalente de OSX.

— Hugh Allen

44

Intenté Foxit Reader y tiene el mismo problema. Su instalador también es realmente intrusivo, ya que desea instalar una barra de herramientas, modificar su página de inicio, etc. :(

— Hugh Allen

3

La forma más sencilla de evitar esto es abrir el archivo en una versión reciente de Google Chrome con el complemento de lectura de PDF incorporado . Luego puede usar la función de búsqueda de Chrome para buscar texto, y copiar y pegar funciona correctamente.

— acatalept
fuente

2

Para el ejemplo del Manual de TV : el mismo problema en Adobe Reader 8.1.2 en una Mac, pero no hay problemas al usar la Vista previa de Mac para copiar o buscar texto. Además, enviarlo a una cuenta de Gmail y luego elegir "Ver" y luego "HTML sin formato" revela el texto. Pero a Adobe Reader no le gusta.

Sus propiedades de documento muestran "Codificación: Personalizada" para las fuentes. Otro documento muestra cosas como "Codificación: Ansi" o "Roman", y no tiene problemas ni en Vista previa ni Adobe Reader en una Mac:

ingrese la descripción de la imagen aquí

Sin embargo, los ejemplos de Leadtek y Swann también presentan problemas en Vista previa en una Mac y en Gmail, y ambos muestran "Codificación: Identidad-H". La prueba de Phonedisc también falla, con "Codificación: Personalizada".

Confuso, y no consistente, pero en algún foro de Adobe encontré la siguiente explicación para otro ejemplo que muestra "Codificación: Personalizada" (énfasis mío):

Después de mirar dentro del PDF, resulta que no hay información de codificación utilizable (ni en el PDF ni en los datos de fuente incrustados) para derivar el significado de los caracteres / glifos que se muestran en las páginas del documento.

Las fuentes están realmente integradas, pero de alguna manera se ha eliminado toda la información de codificación. Este es un ejemplo típico de un PDF que es sintácticamente totalmente compatible con la especificación del PDF pero donde se ha desechado información importante sobre el significado del texto durante el proceso de creación del PDF. Por lo que puedo decir, sería muy difícil recuperar la información de codificación.

Esto no explica por qué la Vista previa de Mac (y aparentemente también Infix) puede manejar algunos de los ejemplos cuando Adobe Reader falla, incluso con "Codificación: Personalizada". ¿Quizás Vista previa no tiene problemas cuando la fuente exacta está presente en la computadora? ¿O tal vez es solo adivinar una codificación, que funciona para algunos pero no para todos los documentos?

Cualquiera sea la causa: si pasar por Google Docs o Gmail no funciona, entonces quizás la solución más fácil (pero lejos de ser fácil) sea guardar como TIFF y luego hacer OCR . Servicios como Evernote podrían hacerlo sobre la marcha (hace OCR en imágenes; dudo que haga OCR en un PDF).

— Arjan
fuente

-1

La descarga del archivo 1 falló para mí, el archivo 2 podría abrirlo con xpdf, un visor de PDF rápido y de código abierto. Supongo que no puede manejar formularios, pero para texto puro y gráfico, lo prefiero por su rápido tiempo de inicio.

— usuario desconocido
fuente

1

La pregunta no era sobre "abrir" los archivos PDF, o sobre "abrir con tiempo de inicio rápido". En cambio, se trataba de no poder copiar y pegar fragmentos de texto de las páginas renderizadas. Por lo tanto, su respuesta probablemente sea buena, pero no se ajusta a esta pregunta.

— Kurt Pfeifle

-2

Lamentablemente no se puede evitar. Los documentos PDF en realidad no contienen letras, pero contienen formas de letras. En otras palabras, en lugar de leer una carta y dibujarla en la pantalla, Adobe Reader como cualquier otra aplicación de lectura de PDF simplemente dibujaría los gráficos vectoriales codificados en el archivo.

Sin embargo, algunos lectores de PDF vienen con un software que permite analizar la forma y recuperar el texto mediante el reconocimiento de texto. Funciona igual que si escaneara un papel de texto impreso y utilizara un software como ABBYY FineReader para convertirlo de nuevo en texto, pero debido a la infinitamente alta calidad de los dibujos vectoriales, los resultados suelen ser mucho mejores que para los documentos escaneados.

Algunos documentos pueden protegerse para que no se conviertan en texto engañando a Adobe Reader. Por ejemplo, las letras se pueden dibujar en varias formas superpuestas de tal manera que visualmente se verían igual, mientras que el software de reconocimiento de texto no reconocería el texto. Su documento es un ejemplo de dicha protección.

Una forma sería imprimir el documento en una imagen y dejar que el software de reconocimiento de texto lo reconozca. Una resolución más alta para la imagen mejorará la calidad. Sin embargo, este método no es realmente útil.

— Sergiy Belozorov
fuente

2

Los documentos PDF no contienen letras , eso no es cierto para la mayoría de los documentos no escaneados; ver en.wikipedia.org/wiki/Portable_Document_Format#Text

— Arjan

Gracias. Información interesante. Siempre he pensado que no hay información sobre el texto en PDF. Sin embargo, parece que el documento proporcionado por Alexander no tiene texto incrustado. O también es posible que la fuente que se utiliza allí tenga una codificación extraña de caracteres, es decir, no se correspondan con la codificación ASCII típica.

— Sergiy Belozorov

2

¿Cómo podría haber copiado el texto del PDF si solo fueran formas? Tiene razón en parte: no está rasterizado en el PDF (a menos que sea de una fuente escaneada), pero los datos de texto ESTÁN incluidos. Sin embargo, las fuentes también están (generalmente) incrustadas, lo que permite que el texto incluido se renderice en vectores.

— Alex