En Unicode, algunas combinaciones de caracteres tienen más de una representación.
Por ejemplo, el carácter ä puede representarse como
- "ä", ese es el punto de código U + 00E4 (dos bytes
c3 a4
en la codificación UTF-8), o como - "ä", que son los dos puntos de código U + 0061 U + 0308 (tres bytes
61 cc 88
en UTF-8).
De acuerdo con el estándar Unicode, las dos representaciones son equivalentes pero en diferentes "formas de normalización", vea UAX # 15: Formularios de normalización Unicode .
La caja de herramientas de Unix tiene todo tipo de herramientas de transformación de texto, sed , tr , iconv , Perl vienen a la mente. ¿Cómo puedo hacer una conversión NF rápida y fácil en la línea de comandos?
perl -MUnicode::Normalization -e 'print NFC(
... er lo que viene aquí ahora ...