Preguntas etiquetadas con text-processing

Manipulación o examen de texto por programas, guiones, etc.

6
Filtrado de utf8 inválido
Tengo un archivo de texto en una codificación desconocida o mixta. Quiero ver las líneas que contienen una secuencia de bytes que no es válida UTF-8 (canalizando el archivo de texto en algún programa). De manera equivalente, quiero filtrar las líneas que son válidas para UTF-8. En otras palabras, estoy …

10
¿Cómo probar si un archivo usa CRLF o LF sin modificarlo?
Necesito ejecutar periódicamente un comando que garantice que algunos archivos de texto se mantengan en modo Linux. Desafortunadamente, dos2unixsiempre modifica el archivo, lo que ensuciaría las marcas de tiempo del archivo y la carpeta y causaría escrituras innecesarias. El guión que escribo está en Bash, por lo que preferiría respuestas …




8
¿Cómo convertir TXT a PDF?
Quiero convertir .txtarchivos a .pdf. Estoy usando esto: ls | while read ONELINE; do convert -density 400 "$ONELINE" "$(echo "$ONELINE" | sed 's/.txt/.pdf/g')"; done Pero esto produce un "error": si hay una línea muy larga en el archivo de texto, no se ajusta. Texto de entrada PDF de salida - …

5
Eliminar la última línea del archivo
Utilizo sed para eliminar rápidamente líneas con una posición específica como sed '1d' sed '5d' Pero, ¿qué pasa si quiero eliminar la última línea del archivo y no sé el recuento de líneas (sé que puedo obtener eso usando wcy varios otros trucos). Actualmente, utilizando una solución alternativa heady tailcombinada …

5
¿Reemplazar variables de entorno en un archivo con sus valores reales?
¿Hay una manera fácil de sustituir / evaluar variables de entorno en un archivo? Como digamos que tengo un archivo config.xmlque contiene: <property> <name>instanceId</name> <value>$INSTANCE_ID</value> </property> <property> <name>rootPath</name> <value>/services/$SERVICE_NAME</value> </property> ... etc. Quiero reemplazar $INSTANCE_IDen el archivo con el valor de la INSTANCE_IDvariable de entorno, $SERVICE_NAMEcon el valor de la …




4
Grep desde el final de un archivo hasta el principio
Tengo un archivo con aproximadamente 30.000.000 de líneas (contabilidad de radio) y necesito encontrar la última coincidencia de un patrón dado. El comando: tac accounting.log | grep $pattern da lo que necesito, pero es demasiado lento porque el sistema operativo primero tiene que leer todo el archivo y luego enviarlo …



1
¿Cómo hacer tr consciente de los caracteres no ASCII (Unicode)?
Estoy tratando de eliminar algunos caracteres del archivo (UTF-8). Estoy usando trpara este propósito: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat El archivo contiene algunos caracteres extranjeros (como "Латвийская" o "àé"). trno parece entenderlos: los trata como no alfa y también los elimina. Intenté cambiar algunas de mis configuraciones locales: LC_CTYPE=C …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.