Desde hoy lo sé: lo mejor para la extracción de texto de archivos PDF es TET, el kit de herramientas de extracción de texto . TET es parte de la familia de productos PDFlib.com.
PDFlib.com es la compañía de Thomas Merz. En caso de que no reconozca su nombre: Thomas Merz es el autor de la "Biblia PostScript y PDF".
La primera encarnación de TET es una biblioteca . Ese probablemente puede hacer todo lo que Budda006 quería, incluida la información posicional sobre cada elemento de la página. Ah, y también puede extraer imágenes. Recombina imágenes que se fragmentan en pedazos.
pdflib.com también ofrece otra encarnación de esta tecnología, el complemento TET para Acrobat . Y la tercera encarnación es el PDFlib TET iFilter . Esta es una herramienta independiente para escritorios de usuario. Ambos son de uso gratuito (como en la cerveza) para fines privados y no comerciales.
Y es realmente poderoso. Mucho mejor que la extracción de texto de Adobe. Extrajo texto para mí donde otras herramientas (incluidas las de Adobe) solo escupen basura.
Acabo de probar la herramienta independiente de escritorio, y lo que dicen en su página web es cierto. Tiene una muy buena línea de comando. Algunos de mis archivos de prueba PDF "problemáticos" que la herramienta manejó a mi entera satisfacción.
A partir de ahora, esto será mi recomendación para todos los requisitos de extracción de texto PDF sofisticados y desafiantes.
TET es simplemente increíble. Detecta tablas. Dentro de las tablas, identifica celdas que abarcan varias columnas. Identifica las filas de la tabla y el contenido de cada celda de la tabla por separado. Se ocupa muy bien de las guiones: elimina los guiones y restaura palabras completas. Admite idiomas no ASCII (incluidos CJK, árabe y hebreo). Al encontrar ligaduras, restaura los caracteres originales ...
Darle una oportunidad.