Estoy exportando contenido de MS Word a texto sin formato para usar con utilidades de texto y archivo. Tengo una restricción en la que la función de numeración de líneas se ha habilitado en el software de MS, y cualquier referencia a números de línea en el resultado final debe coincidir con esa numeración. Entonces ingrese "líneas de numeración":
( Poe, EA )
Obviamente para Word , ese tipo de numeración no rompe las líneas en la nueva línea , rompe las "líneas" después del margen derecho (o algo así). Una secuencia de comandos como docx2txt
, no tiene en cuenta esto de forma predeterminada, parece y rompe las líneas en la nueva línea. Entonces, si lo uso grep -n
con numeración, las líneas no coincidirán con la función de números de línea de origen, como se ilustra arriba. En la documentación no está exactamente claro cómo necesitaría editar el script de Perl para convertir los archivos de la manera que lo necesito en este caso:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Intenté sustituirlo \n
por \r\n
pero eso no parece funcionar para mí. Así que recurrí a exportar los documentos directamente desde Word con la siguiente configuración (guardar como texto sin formato , en v.2013,64pc):
- Unicode (UTF-8)
- Insertar saltos de línea + líneas finales con (CR / LF)
- Permitir sustitución de caracteres
Y ahora, de hecho, cuando uso los .txt
archivos, hay una coincidencia perfecta entre los números de línea en la función de numeración de origen y la grep -n
salida.
- ¿Hay alguna configuración / proceso específico que debería conocer
docx2txt
o una utilidad de línea de comando similar que me hubiera permitido convertir mis archivos .docx a texto sin formato y al mismo tiempo preservar los saltos de línea, sin recurrir a Word como lo hice? - ¿Cuáles son las mejores prácticas , si las hay, para exportar documentos de MS Word (que pueden contener caracteres acentuados) a texto sin formato para usar con utilidades de archivo / texto, con respecto a saltos de línea y formato; ¿y hay alguna implicación negativa con la configuración que elegí para exportar, es decir, insertar CR / LF?
Muestra
Según lo sugerido proporciono una muestra. En este archivo rar , incluí un archivo .docx con párrafos simples y su archivo .txt exportado usando Word con las opciones antes mencionadas. Este último se puede comparar con una ejecución predeterminada del docx2txt
archivo fuente.