En primer lugar, debes entender qué es un PDF. Los PDF están diseñados para imitar una página impresa, y están diseñados solo como formato de salida, no como formato de entrada. Un PDF es básicamente un mapa que contiene la ubicación exacta de los caracteres (letras individuales o signos de puntuación, etc.) o imágenes. En la mayoría de los casos , un PDF ni siquiera almacena información sobre dónde termina una palabra y comienza otra, y mucho menos cosas como pausas suaves frente a pausas duras para las terminaciones de párrafo.
(Algunos PDF recientes almacenan información sobre estas cosas, pero esa es una nueva tecnología, y sería una suerte encontrar PDF como ese. Incluso si lo hiciera, su visor de PDF podría no saberlo).
De todos modos, depende de su software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de los caracteres individuales qué es una palabra, qué es un párrafo, etc. Un software diferente lo hará mejor que otros, y también dependerá de cómo se hizo el PDF. En cualquier caso, nunca debe esperar resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento fuente. Mucho mejor tratar de obtener eso si puedes.
La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el costoso, no el lector gratuito) para convertir el PDF a HTML. Incluso eso no va a obtener resultados perfectos.
Existe un software gratuito que se puede utilizar para extraer texto de archivos PDF con algunos de los formatos intactos, pero de nuevo, no espere resultados perfectos. Consulte, por ejemplo, calibre (que puede convertir a formato RTF), pdftohtml / pdfreflow o el procesador de textos AbiWord (con todos los complementos de importación / exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.
Pero no esperes la perfección con ninguno de estos resultados. Vas contra la corriente aquí. PDF simplemente no se entiende como un formato de entrada editable.