Estoy buscando una biblioteca PDF que me permita extraer el texto de un documento PDF. He examinado PyPDF y esto puede extraer muy bien el texto de un documento PDF. El problema con esto es que si hay tablas en el documento, el texto de las tablas se extrae en línea con el resto del texto del documento. Esto puede ser problemático porque genera secciones de texto que no son útiles y parecen distorsionadas (por ejemplo, muchos números mezclados).
Me gustaría extraer el texto de un documento PDF, excluyendo tablas y formatos especiales. ¿Hay alguna biblioteca que haga esto?