¿Hay alguna manera de determinar el juego de caracteres utilizado para un archivo de forma dado?
¿Hay alguna manera de determinar el juego de caracteres utilizado para un archivo de forma dado?
Respuestas:
Prueba y error. Intente abrir el archivo .dbf con Ms Excel o con OpenOffice usando una configuración diferente hasta que todo salga bien.
Mire esta publicación para obtener más pistas: /programming/319095/how-do-i-determine-the-character-set-of-a-string
Hay dos formas para que los programas determinen el conjunto de caracteres para un shapefile.
La file
utilidad puede adivinar la codificación de un archivo de texto. Úselo ogr2ogr
para una conversión que conserve la codificación original si no hay un .cpg
archivo :
ogr2ogr -f CSV file.csv file.dbf
file file.csv
Salida de ejemplo:
file.csv: ISO-8859 text
Lo he probado con dos de las codificaciones más frecuentes, UTF-8 y latin1. Funciona de fábrica en Ubuntu, no estoy seguro acerca de OS X. No conozco una file
utilidad en Windows.
NOTA : Tan pronto como haya un .cpg
archivo correspondiente que indique la codificación, ogr2ogr
lo respetará y la salida estará en UTF-8. Pero si la salida CSV se ve bien, sabrá que la información en el .cpg
archivo es precisa.
Otra tabla para convertir el byte 29 de * .dbf a la página de códigos: http://webhelp.esri.com/arcpad/8.0/referenceguide/index.htm#locales/task_code.htm