Tengo un archivo en UTF-8 que contiene textos en varios idiomas. Muchos de ellos son nombres de personas. Necesito convertirlo a ASCII y necesito que el resultado se vea lo más decente posible.
Hay muchas formas de abordar la conversión de una codificación más amplia a una más estrecha. La transformación más simple sería reemplazar todos los caracteres que no son ASCII con algún marcador de posición, como '_'. Si conozco el idioma en el que está escrito el archivo, hay posibilidades adicionales, como la romanización.
¿Qué herramienta de Unix o biblioteca de lenguaje de programación disponible en Unix me puede dar una conversión decente (el mejor esfuerzo) de UTF-8 a ASCII?
La mayor parte del texto está en idiomas europeos basados en el tipo latino.
iconv
y tr
, hay Unidecode . No estoy familiarizado con él, pero podría hacer lo que quiera, si puede usar Python.