Algunos archivos PDF producen basura (" mojibake ") cuando copia el texto (aunque se muestren bien). Esto hace que sea imposible buscarlos (lo que sea que busque no coincidirá con la basura).
¿Alguien tiene una solución fácil?
Ejemplos:
- TEAC TV manual EU2816STF (produce los problemas anteriores en Adobe Reader tanto en Windows como en Mac, pero funciona bien en Vista previa en una Mac)
- Manual de Leadtek Winfast PVR2 (enlace FTP; también tiene problemas en Vista previa en una Mac)
- Manual de la tarjeta sintonizadora de TV Swann (enlace FTP; también tiene problemas en Vista previa en una Mac)
- Acuerdo de licencia de Phonedisc (del ahora difunto DTMS )
- Revisión trimestral de fondos de Macquarie IFP
- BAN-TACS Small Business Booklet (versión archivada)
- Folleto de Easterfest 2004 (también del archivo)
Estoy usando Adobe Reader (última versión) para Windows, ¿tal vez un visor alternativo podría ayudar? Estoy buscando una solución gratuita para Windows. El código abierto sería aún mejor.
Editar: Los documentos para la herramienta de texto de extracto multivalente tienen un buen resumen de por qué las cosas pueden salir mal, incluyendo: (documento citado modificado por última vez en enero de 2006)
- Es posible que el texto no tenga una asignación Unicode. Las fuentes PDF Tipo 3 a menudo no lo hacen, y TeX DVI tiene caracteres que no tienen equivalentes Unicode.
- La codificación Unicode puede tener errores. Open Office asigna algunos caracteres en el mismo Unicode, lo que resulta en la aparición y duplicación de letras aparentes.
Supongo que la solución final en estos casos sería OCR cada glifo en una fuente para descubrir qué carácter es realmente. Tenga en cuenta que esto sería más fácil que OCRing un documento escaneado ruidoso porque la forma exacta del glifo está disponible (a resolución infinita ya que es una imagen "vectorial").
clipbrd.exe
(ver mydigitallife.info/2008/11/06/… ) puede ver lo que hay en el portapapeles. ¿Qué te da eso?