Respuestas:
Google Docs ahora está probando una nueva función de API que utiliza OCR (reconocimiento óptico de caracteres) en imágenes y PDF.
Desde el sistema operativo de Google :
La API de Google Docs prueba una nueva función que le permite realizar OCR (reconocimiento óptico de caracteres) en una imagen. Hay una demostración en vivo que ilustra esta característica : puede cargar una imagen JPG, GIF o PNG de alta resolución que tenga menos de 10 MB y Google Docs extrae el texto y lo convierte en un nuevo documento. Google menciona que "la operación puede demorar hasta 40 segundos" y una pequeña prueba mostró que el servicio aún no es confiable: es lento y con frecuencia devuelve errores.
Los resultados están lejos de ser perfectos y encontrará muchos errores, pero el servicio es gratuito y está mejorando constantemente. Aquí está el resultado del OCR para este documento escaneado :
Un documento de Google Docs se puede exportar en varios formatos diferentes, incluidos HTML, OpenOffice y Word:
Según mi respuesta en SO a ¿Alguien sabe de una manera de convertir fácilmente un PDF a un formato docx mediante programación :
Convierta PDF a SVG (ghostscript lo hará) e importe eso ...
... el punto es que si bien Word no incrustará PDF, incrustará SVG.
Utilice un programa de reconocimiento óptico de caracteres, como Omnipage Pro, por ejemplo. Admite PDF como entrada de documento y Word como salida.
También puede probar OCRTerminal, que ofrece un servicio gratuito por 20 páginas por mes. Tienen un Beta Desktop Client que parece estar disponible para su uso por invitación (debe comunicarse con ellos y expresar su interés).