Tengo que lidiar con un archivo que tiene muchos caracteres de control invisibles, como "de derecha a izquierda" o "ancho cero sin unión", espacios diferentes al espacio normal, etc., y tengo problemas para lidiar con eso.
Ahora, me gustaría de alguna manera ver todas las letras en un archivo determinado, letra por letra (me gustaría decir "izquierda a derecha", pero estoy lamentablemente se trata de idioma de derecha a izquierda) , como puntos de código Unicode, utilizando sólo herramientas básicas de bash (como vi
, less
, cat
...). ¿Es posible de alguna manera?
Sé que puedo mostrar el archivo en hexadecimal hexdump
, pero tendría que volver a calcular los puntos de código. Realmente quiero ver los puntos de código Unicode reales, para poder buscarlos en Google y descubrir qué está sucediendo.
editar: agregaré que no quiero transcodificarlo a una codificación diferente (porque eso es lo que estoy descubriendo en línea). Tengo el archivo en UTF8 y eso está bien. Solo quiero saber los puntos de código exactos de todas las letras.