file
le dice "Texto ASCII extendido no ISO" porque detecta que esto es:
- lo más probable es que sea un archivo de "texto" por la falta de caracteres de control (valores de bytes 0–31) que no sean saltos de línea;
- "ASCII extendido" porque hay caracteres fuera del rango ASCII (valores de bytes ≥128);
- "No ISO" porque hay caracteres en el rango de 128-159 ( ISO 8859 reserva este rango para los caracteres de control).
Debe averiguar en qué codificación parece estar este archivo. Puede probar el reconocimiento automático de Enca . Es posible que deba empujarlo en la dirección correcta diciéndole en qué idioma está el texto.
enca x.txt
enca -L polish x.txt
Para convertir el archivo, pase el -x
opción:enca -L polish x.txt -x utf8 >x.utf8.txt
Si no puede o no quiere usar Enca, puede adivinar la codificación manualmente. Un poco de mirar a mi alrededor me dijo que este es un texto polaco y que las palabras son trwały, stały, usuważ, por lo que estamos buscando una traducción donde ³
→ ł
y æ
→ ż
. Esto parece latino-2 o latino-10 o más probable (dado el CP1250 “no ISO” que está viendo como latino1 . Para convertir el archivo a UTF-8, puede usar recode o iconv .
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt