Estas son las razones que recuerdo que se dieron para no hacer que UTF-8 u otra representación Unicode sea la codificación de caracteres predeterminada para el lenguaje de script Ruby, que se desarrolla principalmente en Japón:
- Razón 1: unificación Han . Los conjuntos de caracteres (no estoy seguro si los "alfabetos" serían correctos aquí) usados en China, Corea y Japón están todos relacionados, han evolucionado a partir de la historia común, no estoy seguro de los detalles. El consorcio Unicode decidió desperdiciar un solo punto de código Unicode para codificar todas las variantes (chino, japonés y coreano) del mismo carácter histórico, incluso si su apariencia difiere en los 3 idiomas. Su razonamiento es que la apariencia debe estar determinada por la fuente utilizada para mostrar el texto.
Aparentemente, este razonamiento es percibido como tan ridículo por los usuarios japoneses como lo sería argumentar a los lectores ingleses que, debido a que el alfabeto latino se ha desarrollado a partir del alfabeto griego, es suficiente tener un solo punto de código para el alfabeto griego " α "y en latín" a ", y deja que la apariencia se decida por la fuente en uso. (Lo mismo para "β" = "b", "γ" = "g", etc.)
(Tenga en cuenta que, si ese fuera el caso, no podría incluir caracteres griegos aquí en stackexchange).
- Razón 2: conversiones de caracteres ineficientes.
La conversión de caracteres de Unicode a codificaciones japonesas heredadas y viceversa requiere tablas, es decir, no existe un cálculo simple del valor de punto de código Unicode al valor de punto de código heredado y viceversa. También hay una cierta pérdida de información al convertir porque no todos los puntos de código en una codificación tienen una representación única en la otra codificación.
Es posible que se hayan dado más razones que ya no recuerdo.