Como fanático del código abierto (y la automatización), odio decir esto, pero los mejores resultados que obtuve (en un PDF bastante grande y complejo) fueron abrirlo en Adobe Reader, luego elegir Archivo | Guardar como texto.
(Estoy procesando previamente los experimentos de análisis de texto, no como lector, pero creo que mi primera y segunda opción serían las mismas).
He estado comparando la salida de lado a lado. Mi segunda opción es convertir libros electrónicos.
Adobe : a la izquierda en FF para saltos de página, a la izquierda en números de página, no ha convertido encabezados / párrafos en líneas simples, pero ha corregido guiones. La basura que estaba oculta en el PDF no obtuvo salida. Obtuve correctamente las grandes capitales al comienzo de las secciones, por ejemplo, "The", no "T he" o incluso "T he".
ebook-convert : Izquierda en números de página y algo de basura oculta en encabezado / pie de página (pero no FF). Convierte la mayoría de los párrafos en líneas simples. Sin embargo, los que se perdieron son de doble espacio. Las viñetas no siempre se alinean con el texto. Obtuve correctamente "The" al comienzo del capítulo.
pdftotext (sin --layout) : No está mal, las viñetas se alinean, pero el ruido del encabezado / pie de página. Los FF están ahí. Guiones eliminados. Lo peor para el comienzo del capítulo letras grandes: "T \ n \ nhe".
pdftotext (con --layout) : similar, pero con más sangrías. "T he" para el inicio del capítulo.
pdftohtml >> pdfreflow >> htmltotext : eliminó los números de página, pero aún así no es basura en el encabezado / pie de página. "T he" para el inicio del capítulo. Guiones eliminados. (Utiliza varias líneas por párrafo, ¡pero no son los mismos saltos de línea que en las otras versiones!)