Preguntas etiquetadas con unicode

Unicode es un estándar de la industria informática para la codificación, representación y manejo consistentes del texto expresado en la mayoría de los sistemas de escritura del mundo.




2
¿Por qué printf "encoge" la diéresis?
Si ejecuto el siguiente script simple: #!/bin/bash printf "%-20s %s\n" "Früchte und Gemüse" "foo" printf "%-20s %s\n" "Milchprodukte" "bar" printf "%-20s %s\n" "12345678901234567890" "baz" Imprime: Früchte und Gemüse foo Milchprodukte bar 12345678901234567890 baz es decir, el texto con diéresis (como ü) es "reducido" por un carácter por diéresis. Ciertamente, tengo …
54 bash  unicode  printf 

6
Filtrado de utf8 inválido
Tengo un archivo de texto en una codificación desconocida o mixta. Quiero ver las líneas que contienen una secuencia de bytes que no es válida UTF-8 (canalizando el archivo de texto en algún programa). De manera equivalente, quiero filtrar las líneas que son válidas para UTF-8. En otras palabras, estoy …



1
¿Cómo hacer tr consciente de los caracteres no ASCII (Unicode)?
Estoy tratando de eliminar algunos caracteres del archivo (UTF-8). Estoy usando trpara este propósito: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat El archivo contiene algunos caracteres extranjeros (como "Латвийская" o "àé"). trno parece entenderlos: los trata como no alfa y también los elimina. Intenté cambiar algunas de mis configuraciones locales: LC_CTYPE=C …

6
¿Existe una alternativa a sed que admita unicode?
Por ejemplo: sed 's/\u0091//g' file1 En este momento, tengo que hacer hexdumppara obtener el número hexadecimal y ponerlo de la sedsiguiente manera: $ echo -ne '\u9991' | hexdump -C 00000000 e9 a6 91 |...| 00000003 Y entonces: $ sed 's/\xe9\xa6\x91//g' file1
33 sed  unicode  hexdump 

5
Actualicé mi servidor Arch Linux y ahora obtengo tmux: necesito la configuración regional UTF-8 (LC_CTYPE) pero tengo ANSI_X3.4-1968
Recientemente actualicé mi servidor Arch Linux y durante ese proceso tmux se actualizó. Estaba usando tmuxmientras se realizaba la actualización y la usé después, pero todo durante la misma sesión SSH. Ahora, sin embargo, cada vez que intento emitir algún tmuxcomando me sale este error: tmux: need UTF-8 locale (LC_CTYPE) …


3
¿Por qué ordena dice que ɛ = e?
ɛ("Épsilon latino") es una letra utilizada en ciertos idiomas africanos, generalmente para representar el sonido de la vocal en inglés "bed". En Unicode está codificado como U + 025B, muy distinto de todos los días e. Sin embargo, si yo sortlo siguiente: eb ed ɛa ɛc parece que sortconsidera ɛy …
25 sort  locale  unicode 




Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.