Editar: La pregunta ahora dice "millones de nuevos personajes". Esto facilita la respuesta:
No se . Utf-8 es una codificación Unicode. Unicode tiene un espacio de código que permite 1,114,112 puntos de código distintos , y actualmente menos de un millón no está asignado. Por lo tanto, no es posible admitir millones de caracteres nuevos en Unicode. Por definición, ninguna codificación Unicode puede admitir más caracteres de los que define Unicode. (Por supuesto, puede hacer trampas al codificar un nivel adicional; cualquier tipo de datos puede representarse con solo dos caracteres después de todo).
Para responder la pregunta original:
Unicode no admite idiomas como tales, admite caracteres, símbolos utilizados para representar el idioma en forma escrita.
No todos los lenguajes humanos tienen una representación escrita, por lo que no todos los lenguajes humanos pueden ser compatibles con Unicode. Además, muchos animales se comunican pero no tienen un lenguaje escrito. Las ballenas, por ejemplo, tienen una forma de comunicación que es lo suficientemente compleja como para llamar a un idioma, pero no tiene ninguna forma escrita (y tampoco puede ser capturada por la notación fonética existente). Por lo tanto, ni siquiera todos los idiomas en la tierra pueden ser compatibles con Unicode.
Peor aún es algo como el lenguaje de las abejas. No solo no tiene una forma escrita, no puede representarse significativamente en forma escrita. El lenguaje es un tipo de baile que básicamente apunta en una dirección pero se basa en la posición actual del sol. Por lo tanto, el baile solo tiene valor informativo en el lugar y momento particular donde se realiza. Una representación simbólica o textual debería incluir información (ubicación, posición del sol) que el lenguaje de las abejas actualmente no puede expresar.
Incluso una forma de comunicación escrita o simbólica podría no ser posible representar en Unicode. Por ejemplo, Unicode no puede admitir ilustraciones o cómics sin palabras, ya que el conjunto de glifos no es finito. Notarás mucha comunicación pictórica en entornos internacionales como un aeropuerto, por lo que no es inconcebible que una raza de extraterrestres que viajan al espacio haya evolucionado para usar un lenguaje pictórico.
Incluso si una raza alienígena tuviera un lenguaje con un sistema de escritura con un conjunto finito de símbolos, este sistema podría no ser compatible con Unicode. Unicode espera que la escritura sea una secuencia lineal de símbolos. La notación musical es un ejemplo de un sistema de escritura que no se puede representar completamente en Unicode, porque el significado está codificado tanto en la elección de símbolos como en la colocación vertical y horizontal. (Unicode admite símbolos musicales individuales, pero no puede codificar una partitura). Una raza alienígena que se comunicó utilizando música polifónica (no es raro) o un canal de comunicación de complejidad similar, podría muy bien tener un sistema de escritura que parezca una partitura orquestal, y Unicode no puede soportar esto.
Pero, por el simple argumento, supongamos que todos los idiomas, incluso los idiomas extraños, pueden expresarse como una secuencia lineal de símbolos seleccionados de un conjunto finito. ¿Es Unicode lo suficientemente grande como para una invasión alienígena? Unicode tiene actualmente menos de un millón de puntos de código sin asignar. El idioma chino contiene cien mil caracteres de acuerdo con el diccionario chino más completo (actualmente, Unicode no admite todos ellos como caracteres distintos). Entonces, solo diez idiomas con la complejidad del chino usarían todo Unicode. En la tierra tenemos cientos de sistemas de escritura distintos, pero afortunadamente la mayoría son alfabéticos en lugar de ideográficos y, por lo tanto, contienen una pequeña cantidad de caracteres. Si todos los idiomas escritos usaran ideogramas como el chino, Unicode ni siquiera sería lo suficientemente grande para la Tierra. El uso de alfabetos se deriva del habla, que solo usa un número limitado de fonemas, pero eso es particular para la fisiología humana. Entonces, incluso un solo planeta alienígena con solo una docena de sistemas de escritura ideográfica podría exceder lo que Unicode puede soportar. Ahora considere si este alienígena ya ha invadido otros planetas antes de la Tierra e incluyó sus sistemas de escritura en el conjunto de caracteres que deben ser compatibles.
La expansión o modificación de las codificaciones actuales, o la introducción de nuevas codificaciones no resolverán esto, ya que la limitación está en el número de puntos de código admitidos por Unicode.
Entonces la respuesta es más probable que no.