General
Esos caracteres no están destinados al texto regular del alfabeto latino, sino a la fonética, el texto del alfabeto cirílico, para su uso como símbolos matemáticos (que representan variables) o similares. La única forma compatible con Unicode para codificar texto en el alfabeto latino básico es usar los caracteres predominantemente utilizados para este propósito (es decir, del bloque Unicode latino básico).
Al igual que con muchos otros estándares, debe pensar dos veces antes de violar Unicode. Además, Unicode comprende tantos sistemas de escritura, casos de uso y cosas que simplemente existen para la compatibilidad con otros estándares 1 que comprender completamente todas sus motivaciones es una ciencia propia. En pocas palabras, a menos que realmente sepas lo que estás haciendo, es extremadamente probable que algo se rompa y que ni siquiera hayas pensado remotamente.
Ejemplos específicos
Accesibilidad
El texto codificado no solo existe para representarse en alguna fuente. También puede ser interpretado, por ejemplo, por lectores de pantalla. Y un lector de pantalla no debería necesitar adivinar si
𝓽𝓱𝓮
está destinado a ser el artículo definido o el producto matemático 2 de las variables 𝓽, 𝓱 y 𝓮, para lo que están hechos esos caracteres. El mejor comportamiento será, por lo tanto, deletrear estos caracteres, por ejemplo, diciendo literalmente lo siguiente:
negrita pequeña t, negrita pequeña h, negrita pequeña e
No debería decir simplemente "el" en su lugar porque entonces no leería correctamente los textos matemáticos cuyos símbolos forman una palabra pronouncable. 3
Portabilidad
Si su texto está bien representado en su máquina, esto no significa que también estará en el lector. El ejemplo más obvio es que el lector no tiene ninguna fuente que admita estos caracteres o que el texto lo representa un software que no admite fuentes de reserva. Es cierto que esto se está volviendo cada vez menos común. Sin embargo, tenga en cuenta que algunas personas como los disléxicos necesitan fuentes especiales que tienen menos probabilidades de admitir estos caracteres.
Pero incluso si la máquina del lector solo usa una fuente diferente, esto puede hacer que el texto sea considerablemente menos legible. Para un primer ejemplo , esto se representa con dos fuentes diferentes:
Free Serif procesa el texto como probablemente desearía que se procesara al usar caracteres especiales para simular texto, es decir, simular escritura a mano con un trazo continuo. Sin embargo, estos caracteres están hechos para usarse como símbolos matemáticos, conectando lo que no tiene sentido. Por lo tanto, el renderizado por STIX , que está diseñado específicamente para fines matemáticos, está más en línea con la forma en que estos caracteres están destinados a ser utilizados.
En un segundo ejemplo , suponga que usted o el lector escriben en cursiva “сᴜт мy вᴀʀ” por alguna razón. Con una buena fuente, obtendrás 4 :
La razón de esto es que las pequeñas mayúsculas se simularon (parcialmente) con letras cirílicas, y las cursivas cirílicas a veces se ven muy diferentes de sus contrapartes verticales . De nuevo, este es el comportamiento correcto.
Capacidad de búsqueda
Como primer ejemplo, considere lo que desea que haga una búsqueda razonable con el carácter character (escritura matemática W ). Suponga que la búsqueda tiene dos modos, el modo predeterminado y el modo exacto (generalmente denominado mayúsculas y minúsculas ). Este personaje debería ser:
se encuentra al buscar w o W en el modo predeterminado: para aquellos que no desean molestarse en ingresar o copiar y pegar el carácter especial en el campo de búsqueda;
encontrado al buscar 𝒲 en modo exacto - para aquellos que desean buscar donde se menciona la variable correspondiente en un documento matemático³;
no se encuentra al buscar 𝓌, w o W en modo exacto debido a interrumpir una búsqueda similar a la anterior.
Sin embargo, si usa este carácter para simular texto normal, se debe encontrar al buscar W o 𝒲 en modo exacto, lo cual está en conflicto con lo anterior.
Como segundo ejemplo, considere que los caracteres cirílicos nunca deben encontrarse al buscar caracteres latinos y viceversa, ya que son cosas completamente diferentes. Sin embargo, si usa caracteres cirílicos para simular minúsculas latinas, necesita que esto suceda, si no desea que se rompa la capacidad de búsqueda. Esto llevaría a las personas a encontrar muchas cosas inútiles si buscan una palabra rara del alfabeto latino que coincida con las pequeñas mayúsculas falsas de alguna palabra popular del alfabeto cirílico (y viceversa).
Una opción de búsqueda exacta no puede resolver este problema, ya que está reservado para otros fines en esos alfabetos.
En general , es imposible construir una búsqueda (sin una cantidad increíble de opciones) que no se rompa usando caracteres especiales para simular texto latino con estilo.
1 ¿Sabes que XKCD acerca del inevitable fracaso de unificar estándares ? Bueno, Unicode tuvo éxito.
2 o lo que sea que esté el operador vacío en la convención pertinente
3 Soy consciente de que muy pocos textos matemáticos hoy en día admiten esta codificación o algo compatible, pero el punto es que algún día esperan hacerlo. Su texto que abusa de Unicode todavía puede estar alrededor y leerse entonces.
4 A menos que esté buscando macedonio o serbio, en el que obtendrá un resultado diferente pero aún indeseable.