Necesito obtener miles de fragmentos de texto de archivos PDF a una hoja de cálculo. Son cortos, rara vez más de 2-3 filas, pero cada salto de línea crea una nueva celda, y tengo que repararla manualmente, lo que cuesta mucho tiempo.
Debido a que tengo muchos de ellos, usar la solución alternativa "pegar en Word y hacer una búsqueda y reemplazo" es demasiado tiempo para mí. ¿Hay alguna manera de hacer que el salto de línea desaparezca en la copia? ¿Quizás hay un visor que ofrece un modo de copia especial para esto o tiene un complemento?
Los documentos son artículos científicos. La disposición del texto es bastante lineal. Puede suponer que el texto que estoy copiando no está dentro de una tabla o un flotante, y no está girado ni nada. (Si sucede algo así, creo que lo trataré manualmente). El texto se configura frecuentemente en dos columnas, pero no tengo problemas para marcar solo el texto que necesito de su columna. No necesito preservar ningún formato especial. Estoy dispuesto a probar una solución que elimine todos los caracteres no imprimibles, por ejemplo. Los textos están en inglés, está bien si la solución solo funciona en ASCII / elimina todos los ASCII no alfanuméricos del texto copiado.
Tengo una preferencia muy fuerte por una solución que funcione en Linux, posiblemente algún tipo de complemento Okular. Pero si resulta que hay una solución solo para Windows, también quiero escucharla. Tengo una licencia para un Acrobat Pro algo reciente en la máquina con Windows.