U + 4E00..U + 9FFF es parte del conjunto completo, pero no todos
U + 4E00..U + 9FFF es parte del conjunto completo, pero no todos
Respuestas:
Puede que encuentre una lista completa a través de las preguntas frecuentes de CJK Unicode (que incluyen caracteres "chinos, japoneses y coreanos")
El documento " Escritura de Asia Oriental " menciona:
Bloques que contienen ideogramas Han
Los caracteres ideográficos Han se encuentran en cinco bloques principales del estándar Unicode, como se muestra en la Tabla 12-2
Tabla 12-2. Bloques que contienen ideogramas Han
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Nota: los rangos de bloques pueden evolucionar con el tiempo: el último está en CJK Unified Ideographs .
Véase también Wikipedia:
Unicode tiene actualmente 74605 caracteres CJK. Los caracteres CJK no solo incluyen caracteres utilizados en chino, sino también en kanji japonés, hanja coreano y Chu Nom vietnamita . Algunos caracteres CJK no son caracteres chinos.
Puntos de código U + 4E00 a U + 9FCC.
Puntos de código U + 3400 a U + 4DB5 . Unicode 3.0 (1999).
Puntos de código U + 20000 a U + 2A6D6. Unicode 3.1 (2001).
Puntos de código U + 2A700 a U + 2B734 . Unicode 5.2 (2009).
Puntos de código U + 2B740 a U + 2B81D . Unicode 6.0 (2010).
Si lo anterior no es lo suficientemente espagueti, eche un vistazo a los problemas conocidos . Diviértete =)
Los rangos exactos de caracteres chinos (excepto las extensiones) son [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
El suplemento de radicales CJK es un bloque Unicode que contiene formas alternativas, a menudo posicionales, de los radicales Kangxi. Se utilizan encabezados en índices de diccionario y otras colecciones de ideogramas de CJK organizadas por trazo radical.
Kanbun es un bloque Unicode que contiene caracteres de anotación utilizados en copias japonesas de textos chinos clásicos para indicar el orden de lectura.
CJK Unified Ideographs Extension-A es un bloque Unicode que contiene ideogramas Han raros.
CJK Unified Ideographs es un bloque Unicode que contiene los ideogramas CJK más comunes utilizados en chino y japonés modernos.
Los ideogramas de compatibilidad CJK es un bloque Unicode creado para contener caracteres Han que se codificaron en varias ubicaciones en otras codificaciones de caracteres establecidas, además de sus asignaciones de ideogramas unificados CJK, con el fin de mantener la compatibilidad de ida y vuelta entre Unicode y esas codificaciones.
Para obtener más detalles, consulte aquí , y las extensiones se proporcionan en otras respuestas.
Unicode versión 11.0.0
En Unicode, los scripts en chino, japonés y coreano (CJK) comparten un trasfondo común, conocido colectivamente como caracteres CJK.
Estos rangos a menudo contienen puntos de código no asignados o reservados (como U + 2E9A , U + 2EF4 - 2EFF),
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Por lo tanto, el rango es
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Son Common Han que se utilizan solo por compatibilidad.
Es casi imposible verlos aparecer en cualquier libro, artículo, escrito, etc. chino.
todos los caracteres aquí tienen un carácter chino idéntico al glifo correspondiente. Como 金 (U + F90A) y 金 (U + 91D1), son idénticos en Glyph.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
Este es un rango amplio, algunos signos de puntuación tal vez nunca se usen, algunos signos de puntuación como los que ……”“
se usan tanto en chino.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
También hay muchos símbolos relacionados con el chino, como los símbolos del hexagrama de Yijing o Kanbun , pero de todos modos está fuera de tema. Escribo caracteres no chinos en CJK para tener una mejor explicación de qué son los caracteres chinos. Y los rangos anteriores ya cubren casi todos los caracteres que aparecen en escritura china, excepto matemáticas y otras notación especial.
Símbolos y puntuación de CJK
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Formularios de ancho medio y ancho completo
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
Los bloques de código Unicode que dieron las otras respuestas ciertamente cubren la mayoría de los caracteres Unicode chinos, pero también revise algunos de estos otros bloques de código.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
Vea mi discusión más completa aquí . Y este sitio es conveniente para navegar por Unicode.
Para resumir, parece que estos son ellos:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]