Basándome en los comentarios que he recibido, analicé esto un poco más. Parece que actualmente la mejor práctica es renunciar al uso de entidades HTML y usar el carácter UTF-8 real en su lugar . Las razones enumeradas son las siguientes:
- Las codificaciones UTF-8 son más fáciles de leer y editar para aquellos que entienden lo que significa el carácter y saben cómo escribirlo.
- Las codificaciones UTF-8 son tan ininteligibles como las codificaciones de entidades HTML para aquellos que no las entienden, pero tienen la ventaja de ser representadas como caracteres especiales en lugar de codificaciones hexadecimales o decimales difíciles de entender.
Siempre que la codificación de su página esté configurada correctamente en UTF-8, debe usar el carácter real en lugar de una entidad HTML. Leí varios documentos sobre este tema, pero los más útiles fueron:
Del artículo UTF-8: El secreto de la codificación de caracteres :
Wikipedia es un gran caso de estudio para una aplicación que originalmente usaba ISO-8859-1 pero cambió a UTF-8 cuando se volvió demasiado engorroso para admitir idiomas extranjeros. Los bots ahora revisarán los artículos y convertirán las entidades de personajes en sus personajes reales correspondientes en aras de la facilidad de uso y la capacidad de búsqueda .
Ese artículo también ofrece un buen ejemplo sobre la codificación china. Aquí está el ejemplo abreviado por el bien de la pereza:
UTF-8:
這兩個字是甚麼意思
Entidades HTML :
這兩個字是甚麼意思
Las codificaciones de entidad UTF-8 y HTML no tienen sentido para mí, pero al menos la codificación UTF-8 es reconocible como un idioma extranjero y se representará correctamente en un cuadro de edición. El artículo continúa diciendo lo siguiente sobre la versión codificada por entidad HTML:
Extremadamente inconveniente para aquellos de nosotros que realmente sabemos qué son las entidades de carácter, ¡totalmente ininteligible para los usuarios pobres que no lo saben! Incluso las entidades de caracteres "inteligibles", un poco más fáciles de usar, como & theta; dejará rascándose la cabeza a los usuarios que no están interesados en aprender HTML. Por otro lado, si ven θ en un cuadro de edición, sabrán que es un carácter especial y lo tratarán en consecuencia, incluso si no saben cómo escribir ese carácter ellos mismos.
Como han señalado otros, todavía tiene que usar entidades HTML para caracteres XML reservados (ampersand, menor que, mayor que).