Hay muchos archivos de texto sin formato que se codificaron en conjuntos de caracteres variantes.
Quiero convertirlos a UTF-8, pero antes de ejecutar iconv, necesito saber su codificación original. La mayoría de los navegadores tienen una Auto Detect
opción en las codificaciones, sin embargo, no puedo verificar esos archivos de texto uno por uno porque hay demasiados.
Solo conociendo la codificación original, puedo convertir los textos por iconv -f DETECTED_CHARSET -t utf-8
.
¿Hay alguna utilidad para detectar la codificación de archivos de texto sin formato? NO tiene que ser 100% perfecto, no me importa si hay 100 archivos mal convertidos en 1,000,000 de archivos.
python-chardet
en el repositorio del universo de Ubuntu.