En Linux, tengo un directorio con muchos archivos. Algunos de ellos tienen caracteres no ASCII, pero todos son UTF-8 válidos . Un programa tiene un error que impide que funcione con nombres de archivo que no son ASCII, y tengo que averiguar cuántos están afectados. Iba a hacer esto find
y luego hacer un grep para imprimir los caracteres que no son ASCII, y luego hacer un wc -l
para encontrar el número. No tiene que ser grep; Puedo usar cualquier expresión regular estándar de Unix , como Perl , sed , AWK , etc.
Sin embargo, ¿hay una expresión regular para 'cualquier carácter que no sea un carácter ASCII'?
/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]