当前位置:文档之家› Unicode编码表

Unicode编码表

Unicode编码表
Unicode编码表

Unicode编码表

以下为Unicode编码清单,具体字符的编码表请下载Unicode编码表

1. 【0020-007F】 Basic Latin 基本拉丁字母

2. 【00A0-00FF】 Latin-1 Supplement 拉丁字母补充-1

3. 【0100-017F】 Latin Extended-A 拉丁字母扩充-A

4. 【0180-024F】 Latin Extended-B 拉丁字母扩充-B

5. 【0250-02AF】 IPA Extensions 国际音标扩充

6. 【02B0-02EF】 Spacing Modifier Letters 进格修饰字符

7. 【0300-036F】 Combining Diacritical Marks 组合音标附加符号

8. 【0370-03FF】 Greek and Coptic 希腊字母

9. 【0400-04FF】 Cyrillic 西里尔字母

10. 【0500-052F】 Cyrillic Supplement 西里尔字母补充

11. 【0530-058F】 Armenian 亚美尼亚文

12. 【0590-05FF】 Hebrew 希伯来文

13. 【0600-06FF】 Arabic 基本阿拉伯文

14. 【0700-074F】 Syriac 叙利亚文

15. 【0750-077F】 Arabic Supplement 阿拉伯文补充

16. 【0780-07BF】 Thaana 塔纳文

17. 【07C0-07FF】N’Ko

18. 【0900-097F】 Devanagari 天城体梵文字母

19. 【0980-09FF】 Bengali 孟加拉国文

20. 【0A00-0A7F】 Gurmukhi 古尔穆基文

21. 【0A80-0AFF】 Gujarati 古吉拉特文

22. 【0B00-0B7F】 Oriya 奥里亚文

23. 【0B80-0BFF】 Tamil 泰米尔文

24. 【0C00-0C7F】 Telugu 泰卢固文

25. 【0C80-0CFF】 Kannada 卡纳达文

26. 【0D00-0D7F】 Malayalam 马拉亚拉姆文

27. 【0D80-0DFF】 Sinhala 僧伽罗文

28. 【0E00-0E7F】 Thai 泰文

29. 【0E80-0EFF】 Lao 老挝文;寮国文

30. 【0F00-0FFF】 Tibetan 藏文

31. 【1000-109F】 Myanmar 缅甸文

32. 【10A0-10FF】 Georgian 格鲁吉亚文

33. 【1100-11FF】 Hangul Jamo 谚文字母

34. 【1200-137F】 Ethiopic 埃塞俄比亚文

35. 【1380-139F】 Ethiopic Supplement 埃塞俄比亚文补充

36. 【13A0-13FF】 Cherokee 切罗基文

37. 【1400-167F】 Unified Canadian Aboriginal Syllabics 加拿大土著统一音节文字

38. 【1680-169F】 Ogham 欧甘文

39. 【16A0-16FF】 Runic 北欧古文

40. 【1700-171F】 Tagalog 他加禄文

41. 【1720-173F】 Hanunoo 哈努诺文

42. 【1740-175F】 Buhid 布什德文

43. 【1760-177F】 Tagbanwa 塔格巴努亚文

44. 【1780-17FF】 Khmer 高棉文

45. 【1800-18AF】 Mongolian 蒙古文

46. 【1900-194F】 Limbu 林布文

47. 【1950-197F】 Tai Le 傣哪文;德宏傣文

48. 【1980-19DF】 New Tai Lue 新傣仂文

49. 【19E0-19FF】 Khmer Symbols 高棉符号

50. 【1A00-1A1F】 Buginese 布吉文

51. 【1B00-1B7F】 Balinese 巴利文

52. 【1D00-1D7F】 Phonetic Extensions 音标扩充

53. 【1D80-1DBF】 Phonetic Extensions Supplement 音标扩充补充

54. 【1DC0-1DFF】 Combining Diacritical Marks Supplement 组合音标附加符号

55. 【1E00-1EFF】 Latin Extended Additional 拉丁字母扩充附加

56. 【1F00-1FFF】 Greek Extended 希腊文扩充

57. 【2000-206F】 General Punctuation 一般标点符号

58. 【2070-209F】 Superscripts and Subscripts 下标及上标

59. 【20A0-20CF】 Currency Symbols 货币符号

60. 【20D0-20FF】 Combining Diacritical Marks for Symbols 符号用组合附加符号

61. 【2100-214F】 Letterlike Symbols 似字母符号

62. 【2150-218F】 Number Forms 数字形式

63. 【2190-21FF】 Arrows 箭头符号

64. 【2200-22FF】 Mathematical Operators 数学运算符号

65. 【2300-23FF】 Miscellaneous Technical 混合专门符号

66. 【2400-243F】 Control Pictures 控制图像

67. 【2440-245F】 Optical Character Recognition 光学字符识别

68. 【2460-24FF】 Enclosed Alphanumerics 括号字母数字

69. 【2500-257F】 Box Drawing 制表符

70. 【2580-259F】 Block Elements 区块组件

71. 【25A0-25FF】 Geometric Shapes 几何形状

72. 【2600-26FF】 Miscellaneous Symbols 混合什锦符号

73. 【2700-27BF】 Dingbats 什锦符号

74. 【27C0-27EF】 Miscellaneous Mathematical Symbols-A 混合数学符号-A

75. 【27F0-27FF】 Supplemental Arrows-A 补充性箭头符号-A

76. 【2800-28FF】 Braille Patterns 盲文;盲人点字

77. 【2900-297F】 Supplemental Arrows-B 补充性箭头符号-B

78. 【2980-29FF】 Miscellaneous Mathematical Symbols-B 混合数学符号-B

79. 【2A00-2AFF】 Supplemental Mathematical Operators 补充性数学运算符号

80. 【2B00-2BFF】 Miscellaneous Symbols and Arrows 混合什锦符号和箭头符号

81. 【2C00-2C5F】 Glagolitic 格拉戈尔字母

82. 【2C60-2C7F】 Latin Extended-C 拉丁字母扩充-C

83. 【2C80-2CFF】 Coptic 科普特文

84. 【2D00-2D2F】 Georgian Supplement 格鲁吉亚文补充

85. 【2D30-2D7F】 Tifinagh 提非纳格字母

86. 【2D80-2DDF】 Ethiopic Extended 埃塞俄比亚文扩充

87. 【2E00-2E7F】 Supplemental Punctuation 补充性标点符号

88. 【2E80-2EFF】 CJK Radicals Supplement 中日韩部首补充

89. 【2F00-2FDF】 Kangxi Radicals 康熙部首

90. 【2FF0-2FFF】 Ideographic Description Characters 汉字结构描述字符

91. 【3000-303F】 CJK Symbols and Punctuation 中日韩符号和标点

92. 【3040-309F】 Hiragana 平假名

93. 【30A0-30FF】 Katakana 片假名

94. 【3100-312F】 Bopomofo 注音符号

95. 【3130-318F】 Hangul Compatibility Jamo 谚文兼容字母

96. 【3190-319F】 Kanbun 汉文标注号

97. 【31A0-31BF】 Bopomofo Extended 注音符号扩充

98. 【31C0-31EF】 CJK Strokes 中日韩笔画部件

99. 【31F0-31FF】 Katakana Phonetic Extensions 片假名音标扩充

100.【3200-32FF】 Enclosed CJK Letters and Months 中日韩括号字母及月份101.【3300-33FF】 CJK Compatibility 中日韩兼容字符

102.【3400-4DBF】 CJK Unified Ideographs Extension A 中日韩统一表意文字扩充A

103.【4DC0-4DFF】 Yijing Hexagram Symbols 易经六十四卦象

104.【4E00-9FFF】 CJK Unified Ideographs 中日韩统一表意文字

105.【A000-A48F】 Yi Syllables 彝文音节

106.【A490-A4CF】 Yi Radicals 彝文字母

107.【A700-A71F】 Modifier Tone Letters 声调符号

108.【A720-A7FF】 Latin Extended-D 拉丁字母扩充-D

109.【A800-A82F】 Syloti Nagri

110.【A840-A87F】 Phags-pa 八思巴字母

111.【AC00-D7AF】 Hangul Syllables 谚文音节

112.【D800-DB7F】 High Surrogates 高半代用区

113.【DB80-DBFF】 High Private Use Surrogates 高半专用代用区

114.【DC00-DFFF】 Low Surrogates 低半代用区

115.【E000-F8FF】 Private Use Area 专用区

116.【F900-FAFF】 CJK Compatibility Ideographs 中日韩兼容表意文字117.【FB00-FB4F】 Alphabetic Presentation Forms 字母变体显现形式118.【FB50-FDFF】 Arabic Presentation Forms-A 阿拉伯文变体显现形式-A 119.【FE00-FE0F】 Variation Selectors 字型变换选取器

120.【FE10-FE1F】 Vertical Forms 竖式标点

121.【FE20-FE2F】 Combining HalF】 Marks 组合半角标示

122.【FE30-FE4F】 CJK Compatibility Forms 中日韩相容形式

123.【FE50-FE6F】 Small Form Variants 小写变体

124.【FE70-FEFF】 Arabic Presentation Forms-B 阿拉伯文变体显现形式-B 125.【FF00-FFEF】 Halfwidth and Fullwidth Forms 半角及全角字符

126.【FFF0-FFFF】 Specials 特殊区域

127.【10000-1007F】 Linear B Syllabary 线形文字B音节文字

128.【10080-100FF】 Linear B Ideograms 线形文字B表意文字

129.【10100-1013F】 Aegean Numbers 爱琴数字

130.【10140-1018F】 Ancient Greek Numbers 古希腊数字

131.【10300-1032F】 Old Italic 古意大利文

132.【10330-1034F】 Gothic 哥特文

133.【10380-1039F】 Ugaritic 乌加里特楔形文字

134.【103A0-103DF】 Old Persian 古波斯文

135.【10400-1044F】 Deseret 犹他大学音标

136.【10450-1047F】 Shavian 肃伯纳字母

137.【10480-104AF】 Osmanya

138.【10800-1083F】 Cypriot Syllabary 塞浦路斯音节文字

139.【10900-1091F】 Phoenician 腓尼基字母

140.【10A00-10A5F】 Kharoshthi 佉卢字母

141.【12000-123FF】 Cuneiform 楔形文字

142.【12400-1247F】 Cuneiform Numbers and Punctuation 楔形文字数字及标点

143.【1D000-1D0FF】 Byzantine Musical Symbols 东正教音乐符号

144.【1D100-1D1FF】 Musical Symbols 音乐符号

145.【1D200-1D24F】 Ancient Greek Musical Notation 古希腊音乐谱记号146.【1D300-1D35F】 Tai Xuan Jing Symbols 太玄经符号

147.【1D360-1D37F】 Counting Rod Numerals 算筹记数式

148.【1D400-1D7FF】 Mathematical Alphanumeric Symbols 数学用字母数字符号

149.【20000-2A6DF】 CJK Unified Ideographs Extension B 中日韩统一表意文字扩充B

150.【2F800-2FA1F】 CJK Compatibility Ideographs Supplement 中日韩兼容表意文字补充

151.【E0000-E007F】 Tags 语言编码卷标

152.【E0100-E01EF】 Variation Selectors Supplement 字型变换选取器补充153.【FFF80-FFFFF】 Supplementary Private Use Area-A 补充专用区-A 154.【10FF80-10FFFF】 Supplementary Private Use Area-B 补充专用区-B

Unicode汉字编码表

Unicode汉字编码表 1 unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码,看一下Unicode对汉字的编码: ------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

unicode中的中文编码说明

编码表 平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP). 平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP). 平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP). 平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP). 平面4 to 13 (40000–DFFFF)尚未使用 平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP) 平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA) 平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA) 注意1 现在网上大多数用于判断中文字符的是U+4E00..U+9FA5这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等; 2E80-A4CF加上F900-FAFF加上FE30-FE4F。 其中: 2E80-A4CF 包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根 F900-FAFF 中日朝兼容表意文字 FE30-FE4F 中日朝兼容形式 所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF || F900-FAFF||FE30-FE4F 注意2 全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

常用汉字的Unicode码表

包含汉字: 的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之 都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给 名法间斯知世什两次使身者被高已亲其进此话常与活正感见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重 三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许稜先口由死安写性马光白或住难 望教命花结乐色更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原 吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约 各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴奇管类未朋且婚台夜青 北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻 尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算 义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改 据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初 养香停际致阳纸李纳验助激够严证帝饭忘趣支春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止 组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低 玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责 例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适 乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗 换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降 夏困刘罪亡鞋健模败伴守挥鲜财孤枪禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿 招释介烧误 unicode 编码 的一是了我不人在他有这%u4e2a上们来

Unicode汉字编码表

Unicode汉字编码表 1 Unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来 编码,看一下Unicode对汉字的编码:

------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯 4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿 4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏 4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也 4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯 4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿 4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏 4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟 4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯 4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿 4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏 4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟 4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯 4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿 4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏 4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟 4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

常用汉字Unicode码表

\u7684\u4e00\u662f\u4e86\u6211\u4e0d\u4eba\u5728\u4ed6\u6709\u8fd9\u4e2a\u4e0a\u4 eec\u6765\u5230\u65f6\u5927\u5730\u4e3a\u5b50\u4e2d\u4f60\u8bf4\u751f\u56fd\u5e74\u 7740\u5c31\u90a3\u548c\u8981\u5979\u51fa\u4e5f\u5f97\u91cc\u540e\u81ea\u4ee5\u4f1a\ u5bb6\u53ef\u4e0b\u800c\u8fc7\u5929\u53bb\u80fd\u5bf9\u5c0f\u591a\u7136\u4e8e\u5fc3 \u5b66\u4e48\u4e4b\u90fd\u597d\u770b\u8d77\u53d1\u5f53\u6ca1\u6210\u53ea\u5982\u4 e8b\u628a\u8fd8\u7528\u7b2c\u6837\u9053\u60f3\u4f5c\u79cd\u5f00\u7f8e\u603b\u4ece\u 65e0\u60c5\u5df1\u9762\u6700\u5973\u4f46\u73b0\u524d\u4e9b\u6240\u540c\u65e5\u624 b\u53c8\u884c\u610f\u52a8\u65b9\u671f\u5b83\u5934\u7ecf\u957f\u513f\u56de\u4f4d\u52 06\u7231\u8001\u56e0\u5f88\u7ed9\u540d\u6cd5\u95f4\u65af\u77e5\u4e16\u4ec0\u4e24\u 6b21\u4f7f\u8eab\u8005\u88ab\u9ad8\u5df2\u4eb2\u5176\u8fdb\u6b64\u8bdd\u5e38\u4e0e \u6d3b\u6b63\u611f\u89c1\u660e\u95ee\u529b\u7406\u5c14\u70b9\u6587\u51e0\u5b9a\u6 72c\u516c\u7279\u505a\u5916\u5b69\u76f8\u897f\u679c\u8d70\u5c06\u6708\u5341\u5b9e\ u5411\u58f0\u8f66\u5168\u4fe1\u91cd\u4e09\u673a\u5de5\u7269\u6c14\u6bcf\u5e76\u522 b\u771f\u6253\u592a\u65b0\u6bd4\u624d\u4fbf\u592b\u518d\u4e66\u90e8\u6c34\u50cf\u7 73c\u7b49\u4f53\u5374\u52a0\u7535\u4e3b\u754c\u95e8\u5229\u6d77\u53d7\u542c\u8868 \u5fb7\u5c11\u514b\u4ee3\u5458\u8bb8\u7a1c\u5148\u53e3\u7531\u6b7b\u5b89\u5199\u6 027\u9a6c\u5149\u767d\u6216\u4f4f\u96be\u671b\u6559\u547d\u82b1\u7ed3\u4e50\u8272 \u66f4\u62c9\u4e1c\u795e\u8bb0\u5904\u8ba9\u6bcd\u7236\u5e94\u76f4\u5b57\u573a\u5e 73\u62a5\u53cb\u5173\u653e\u81f3\u5f20\u8ba4\u63a5\u544a\u5165\u7b11\u5185\u82f1\u 519b\u5019\u6c11\u5c81\u5f80\u4f55\u5ea6\u5c71\u89c9\u8def\u5e26\u4e07\u7537\u8fb9\ u98ce\u89e3\u53eb\u4efb\u91d1\u5feb\u539f\u5403\u5988\u53d8\u901a\u5e08\u7acb\u8c6 1\u6570\u56db\u5931\u6ee1\u6218\u8fdc\u683c\u58eb\u97f3\u8f7b\u76ee\u6761\u5462\u7 5c5\u59cb\u8fbe\u6df1\u5b8c\u4eca\u63d0\u6c42\u6e05\u738b\u5316\u7a7a\u4e1a\u601d\ u5207\u600e\u975e\u627e\u7247\u7f57\u94b1\u7d36\u5417\u8bed\u5143\u559c\u66fe\u79 bb\u98de\u79d1\u8a00\u5e72\u6d41\u6b22\u7ea6\u5404\u5373\u6307\u5408\u53cd\u9898 \u5fc5\u8be5\u8bba\u4ea4\u7ec8\u6797\u8bf7\u533b\u665a\u5236\u7403\u51b3\u7aa2\u4f 20\u753b\u4fdd\u8bfb\u8fd0\u53ca\u5219\u623f\u65e9\u9662\u91cf\u82e6\u706b\u5e03\u5 4c1\u8fd1\u5750\u4ea7\u7b54\u661f\u7cbe\u89c6\u4e94\u8fde\u53f8\u5df4\u5947\u7ba1\u 7c7b\u672a\u670b\u4e14\u5a5a\u53f0\u591c\u9752\u5317\u961f\u4e45\u4e4e\u8d8a\u89c2 \u843d\u5c3d\u5f62\u5f71\u7ea2\u7238\u767e\u4ee4\u5468\u5427\u8bc6\u6b65\u5e0c\u4e 9a\u672f\u7559\u5e02\u534a\u70ed\u9001\u5174\u9020\u8c08\u5bb9\u6781\u968f\u6f14\u 6536\u9996\u6839\u8bb2\u6574\u5f0f\u53d6\u7167\u529e\u5f3a\u77f3\u53e4\u534e\u8ae3 \u62ff\u8ba1\u60a8\u88c5\u4f3c\u8db3\u53cc\u59bb\u5c3c\u8f6c\u8bc9\u7c73\u79f0\u4e3d \u5ba2\u5357\u9886\u8282\u8863\u7ad9\u9ed1\u523b\u7edf\u65ad\u798f\u57ce\u6545\u5 386\u60ca\u8138\u9009\u5305\u7d27\u4e89\u53e6\u5efa\u7ef4\u7edd\u6811\u7cfb\u4f24\ u793a\u613f\u6301\u5343\u53f2\u8c01\u51c6\u8054\u5987\u7eaa\u57fa\u4e70\u5fd7\u975 9\u963f\u8bd7\u72ec\u590d\u75db\u6d88\u793e\u7b97\u4e49\u7adf\u786e\u9152\u9700\u 5355\u6cbb\u5361\u5e78\u5170\u5ff5\u4e3e\u4ec5\u949f\u6015\u5171\u6bdb\u53e5\u606f \u529f\u5b98\u5f85\u7a76\u8ddf\u7a7f\u5ba4\u6613\u6e38\u7a0b\u53f7\u5c45\u8003\u7a8 1\u76ae\u54ea\u8d39\u5012\u4ef7\u56fe\u5177\u521a\u8111\u6c38\u6b4c\u54cd\u5546\u7 93c\u7ec6\u4e13\u9ec4\u5757\u811a\u5473\u7075\u6539\u636e\u822c\u7834\u5f15\u98df\ u4ecd\u5b58\u4f17\u6ce8\u7b14\u751a\u67d0\u6c89\u8840\u5907\u4e60\u6821\u9ed8\u52 a1\u571f\u5fae\u5a18\u987b\u8bd5\u6000\u6599\u8c03\u5e7f\u8716\u82cf\u663e\u8d5b\u 67e5\u5bc6\u8bae\u5e95\u5217\u5bcc\u68a6\u9519\u5ea7\u53c2\u516b\u9664\u8dd1\u4ea

Unicode字符集

Unicode通用字符集 Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode 也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版 unicode,ISBN-10: 0321480910)对外发表。 2006年7月的最新版本的Unicode 是5.0版本。2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta于2005年12月12日推出,5.2版本(unicode standard)于2009年10月1日正式推出,以供各会员评价。 目前Unicode标准,6.1版已发布(2012年1月31日)。在unicode联盟网站上可以查看完整的6.1的核心规范。 Unicode定义了大到足以代表人类所有可读字符的字符集。 Java语言就用到了Unicode编码,从而实现了该语言的国际通用性。 编辑本段Unicode 的编码和实现 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。 编码方式 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode 用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 通用字符集(Universal Character Set,UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。UCS-2用两个字节编码,UCS-4用4个字节编码。 历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟。前者开发的ISO/IEC 10646 项目,后者开发的统一码项目。因此最初制定了不同的标准。 1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。在发布的时候,Unicode一般都会采用有关字码最常见的字型,但ISO 10646一般都尽可能采用Century字型。 UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前

Unicode字符列表

Unicode字符列表(超完整)Unicode, 字符, 列表 代码显示描述 U+0020 空格 U+0021 ! 叹号 U+0022 " 双引号 U+0023 # 井号 U+0024 $ 价钱/货币符号 U+0025 % 百分比符号 U+0026 & 英文“and”的简写符号U+0027 ' 引号 U+0028 ( 开圆括号 U+0029 ) 关圆括号 U+002A * 星号 U+002B + 加号 U+002C , 逗号 U+002D - 连字号/减号 U+002E . 句号 U+002F / 由右上至左下的斜线 U+0030 0 数字 0 U+0031 1 数字 1 U+0032 2 数字 2 U+0033 3 数字 3 U+0034 4 数字 4 U+0035 5 数字 5 U+0036 6 数字 6 U+0037 7 数字 7 U+0038 8 数字 8 U+0039 9 数字 9 U+003A : 冒号 U+003B ; 分号 U+003C < 小于符号 U+003D = 等于号 U+003E > 大于符号 U+003F ? 问号 U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母 A U+0042 B 拉丁字母 B U+0043 C 拉丁字母 C U+0044 D 拉丁字母 D U+0045 E 拉丁字母 E U+0046 F 拉丁字母 F U+0047 G 拉丁字母 G

U+0049 I 拉丁字母 I U+004A J 拉丁字母 J U+004B K 拉丁字母 K U+004C L 拉丁字母 L U+004D M 拉丁字母 M U+004E N 拉丁字母 N U+004F O 拉丁字母 O U+0050 P 拉丁字母 P U+0051 Q 拉丁字母 Q U+0052 R 拉丁字母 R U+0053 S 拉丁字母 S U+0054 T 拉丁字母 T U+0055 U 拉丁字母 U U+0056 V 拉丁字母 V U+0057 W 拉丁字母 W U+0058 X 拉丁字母 X U+0059 Y 拉丁字母 Y U+005A Z 拉丁字母 Z U+005B [ 开方括号 U+005C \ 由左上至右下的斜线 U+005D ] 关方括号 U+005E ^ 抑扬(重音)符号 U+005F _ 底线 U+0060 ` 重音符 U+0061 a 拉丁字母 a U+0062 b 拉丁字母 b U+0063 c 拉丁字母 c U+0064 d 拉丁字母 d U+0065 e 拉丁字母 e U+0066 f 拉丁字母 f U+0067 g 拉丁字母 g U+0068 h 拉丁字母 h U+0069 i 拉丁字母 i U+006A j 拉丁字母 j U+006B k 拉丁字母 k U+006C l 拉丁字母 l(L的小写)U+006D m 拉丁字母 m U+006E n 拉丁字母 n U+006F o 拉丁字母 o U+0070 p 拉丁字母 p U+0071 q 拉丁字母 q U+0072 r 拉丁字母 r U+0073 s 拉丁字母 s

汉字GB编码,Unicode编码,区位码, 大小端

汉字GB编码,Unicode编码,区位码,大小端 汉字GB编码,是对ascii码的一个扩展, 用来表示和存储汉字。最初设计的7位ascii码以 及扩展后的8位ansi编码,只能表示控制字符,英文字母,数字和一些常用符号。于是 GB码首先被提出并用于汉字的编码表示。GB码完全兼容ascii码,但丢弃掉了ansi比ascii 所多出来的全部符号。 GB码同样采用单字节方式存储和处理,比如'A'的ascii码为0x41, 汉字'王'的GB码为0xCDF5, 那么字符串“A王”保存在一个char[4]当中的话,内容应该是[0]=0x41, [1]=0xcd, [2]=0xf5, [3]=0x00,在处理这样的字符串时,需要首先判断字节最高位,因为ascii码只占用了字节的低7位,因此最高位永远是0,所以若判断最高位为0,则按ascii码处理,若为1,则按GB码处理,需要读入连续的两个字节,则可以得到一 个GB字符,如cdf5拼起来,则得到’王’的GB码。 Unicode码,是另一套编码规则,使用2个字节来表示一个字符,可以表示2^16 = 65536 个不同的字符。 Unicode同样对ascii兼容,对每个ascii码不足16位(两个字节)的部分 补0即是相同字符的Unicode码,此外,Unicode码还定义了中文等全球N多种文字及符号, 比如王的Unicode码即为0x738b. 下面的例子说明了汉字GB和Unicode码的区别: char cn_char_u[]={L'王'};//8b //low byte of 738b is passed to cn_char_u, x86 acts as little-endian, low byte maps low address char cn_char[]={'王'};//f5 //low byte of cdf5 is passed to cn_char //char cn_str_u[]={L"王"};//738b //illegal statement of assignment, not accept by compiler char cn_str[]={"王"};//cdf5 //cn_str[0] = cd, cn_str[1] = f5, cn_str[2]= \0 WCHAR cn_str_w_u[]={L"王"}; //738b //WCHAR cn_str_w[]={"王"}; //f5cd //illegal statement of assignment WCHAR cn_char_w_u[] = {L'王'}; //738b WCHAR cn_char_w[] = {'王'}; //cdf5

Unicode字符编码标准

Unicode字符编码标准 1. 编码知识 1.1 文本和字符 在计算机程序中或者数据文件里,文本(text)是作为数字序列存储的。序列中的数字是具有不同大小、取值和解释的整数。如何解释这些整数是由字符集(character set)、编码(encoding)决定的。 文本主要是由字符(character)组成。在格式文本(fancy text, or rich text)中包括显示属性,如颜色、斜体字、上标等,但仍然是以字符组成的纯文本(plain text)为基础的。有时,格式文本与纯文本之间的区别很复杂,依赖于具体的应用。什么是字符?典型地,是字母。也可以是数字、句点、连字号、标点符号和数学符号,对于中文,也可以是汉字。还包括定义行尾和段落等的控制字符(一般不可见)。 有了字符,就可以为它们分配数字编码。为字符分配什么数字值,依赖于具体情况。一个简单的字符,如字母"a",在不同的程序或者数据文件中可能具有不同的整数值。 1.2 字符集:具有数字编码的字符 在信息处理中,所使用的整数总有上限,依赖于存储整数的位的数目。这也决定了可以同时区分的字符的数量。 在设计字符集时,首先要决定所需字符的数目,并确定所需字符的清单。根据字符的数目,可以设定整数值的上限,这个整数范围称为编码空间(code space),其中的一个特定整数称为一个码点(code point)。 然后,为字符清单中的每个字符指定一个整数值,也就是一个码点。这样就得到一个字符集,称作编码字符集(Coded Character Set)。 1.3 编码单元、字节和编码 在计算机系统的实现中,整数以特定大小的单元表示,通常为8位(1字节),16位,或32位。在字符编码中,这样的单元称为编码单元(code unit)。根据编码空间的大小和具体要求,来选择合适的编码单元。通常,所选择编码单元对应的整数范围要大于编码空间的整数范围,这样每个码点就只需一个编码单元表示,并且在字符码点与编码单元间的转换非常简便,因为字符码点对应的整数值与相应编码单元的整数值相同。如果编码单元对应的整数范围小于编码空间的整数范围,就需要多个编码单元表示一个码点。 字节是计算机系统中最基本的表示单元,无论是存储在内存中,还是将文本写入文件或通过网络发送,总是要读写若干字节。因此,在实际应用中,还需要将编码单元进一步表示为字节序列。 将字符表示为字节序列的过程就称为编码(encoding),更重要的是,还包括如何对字节序列进行解释以取得字符。1.4 不同的字符集 在一些常用的编码中,每个字符只使用一个字节表示,称单字节字符集(single-byte character set, SBCS)。这些字符集都仅限于256个字符。 在ASCII之后,目前应用最广泛的单字节字符集是ISO-8859-1。它是ASCII的一个8位超集,并且提供西欧语言所需的大多数字符。它的一个改进的版本,ISO-8859-15,还包括新的欧元符号和更多的一些法语和芬兰语字母。 双字节字符集(double-byte character set, DBCS)用于为东亚书写系统中所使用成千上万个表意字符提供足够空间。这里的编码仍是基于字节的,不过是两个字节一起表示一个单一的字符。 即使在东亚,文本中也会包含小字母表中的字母,如拉丁字母表。这些字母使用单字节表示的效率会更高。因此,提出了多字节字符集(multi-byte character set, MBDC),使用可变数目的字节来表示字符。多字节字符集通常与ASCII 兼容,也就是说,在这种编码中,拉丁字母使用与ASCII中相同的字节来表示。一些不常用的字符可能会使用三个甚至四个字节编码。 1.4 常见字符集 1.4.1 ASCII: The American Standard Code form Information Interchange ASCII是一个使用7位单元的字符集,及针对7位字节的简单编码方式。尽管局限于很少的一些字符,ASCII是最重要的一种字符集,因为它是目前大多数字符集的基础。 ASCII只提供了128个数字值(也可称作码点,code point),其中33个被保留用作特殊功能。只有95个码点用作"真正的"文本字符。这些图形字符大多时大写和小写拉丁字母,数字和标点符号,外加一些特殊的括号、下划线和重音符号。 1.4.2 EBCDIC: The Extended Binary-Coded Decimal Interchange Code EBCDIC是由IBM设计的编码格式,使用8位字节,被一些字符集用于大型机。EBCDIC在与ASCII相近的时期开发的,具有一些相似的特性。 1.4.3 Unicode Unicode标准定义了一个字符集和几种编码。 Unicode最有吸引力的特点是它涵盖了几乎世界上的所有字符,可以只通过一个唯一的数字(Unicode码点)来访问和

JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

【适用范围】 适用EOS所有版本,操作系统不限,数据库不限 【问题描述和定位】 JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换 【解决方案和步骤】 1、函数介绍 在Java中,字符串用统一的Unicode编码,每个字符占用两个字节,与编码有关的两个主要函数为:1)将字符串用指定的编码集合解析成字节数组,完成Unicode-〉charsetName转换 public byte[] getBytes(String charsetName) throws UnsupportedEncodingException 2)将字节数组以指定的编码集合构造成字符串,完成charsetName-〉Unicode转换 public String(byte[] bytes, String charsetName) throws UnsupportedEncodingException 2、Unicode与各编码之间的直接转换 下面以对中文字符串"a中文"的编码转换为例,来了解各种编码之间的转换 1)Unicode和GBK 测试结果如下,每个汉字转换为两个字节,且是可逆的,即通过字节可以转换回字符串 String-GBK〉ByteArray:\u0061\u4E2D\u6587(a中文)-〉0x61 0xD6 0xD0 0xCE 0xC4 ByteArray-GBK〉String:0x61 0xD6 0xD0 0xCE 0xC4-〉\u0061\u4E2D\u6587(a中文)2)Unicode和UTF-8 测试结果如下,每个汉字转换为三个字节,且是可逆的,即通过字节可以转换回字符串 String-UTF-8〉ByteArray:\u0061\u4E2D\u6587(a中文)-〉0x61 0xE4 0xB8 0xAD 0xE 6%0x96 0x87 ByteArray-UTF-8〉String:0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87-〉\u0061\u4E2D\u6 587(a中文)

方便查找的unicode 汉字编码表!十进制表示

unicode 汉字编码表! 1-13页是安字母排序的常用简体字 啊:21834 阿:38463 埃:22467 挨:25384 哎:21710 唉:21769 哀:21696 皑:30353 癌:30284 蔼:34108矮:30702 艾:33406 碍:30861 爱:29233 隘:38552 鞍:38797 氨:27688 安:23433 俺:20474 按:25353 暗:26263 岸:23736 胺:33018 案:26696 肮:32942 昂:26114 盎:30414 凹:20985 敖:25942 熬:29100 翱:32753 袄:34948 傲:20658 奥:22885 懊:25034 澳:28595 芭:33453 捌:25420 扒:25170 叭:21485 吧:21543 笆:31494 八:20843 疤:30116 巴:24052 拔:25300 跋:36299 靶:38774 把:25226 耙:32793 坝:22365 霸:38712 罢:32610 爸:29240 白:30333 柏:26575 百:30334 摆:25670 佰:20336 败:36133 拜:25308 稗:31255 斑:26001 班:29677 搬:25644 扳:25203 般:33324 颁:39041 板:26495 版:29256 扮:25198 拌:25292 伴:20276 瓣:29923 半:21322 办:21150 绊:32458 邦:37030 帮:24110 梆:26758 榜:27036 膀:33152 绑:32465 棒:26834 磅:30917 蚌:34444 镑:38225 傍:20621 谤:35876 苞:33502 胞:32990 包:21253 褒:35090 剥:21093 薄:34180 雹:38649 保:20445 堡:22561 饱:39281 宝:23453 抱:25265 报:25253 暴:26292 豹:35961 鲍:40077 爆:29190 杯:26479 碑:30865 悲:24754 卑:21329 北:21271 辈:36744 背:32972 贝:36125 钡:38049 倍:20493 狈:29384 备:22791 惫:24811 焙:28953 被:34987 奔:22868 苯:33519 本:26412 笨:31528 崩:23849 绷:32503 甭:29997 泵:27893 蹦:36454 迸:36856 逼:36924 鼻:40763 比:27604 鄙:37145 笔:31508 彼:24444 碧:30887 蓖:34006 蔽:34109 毕:27605 毙:27609 毖:27606 币:24065 庇:24199 痹:30201 闭:38381 敝:25949 弊:24330 必:24517 辟:36767 壁:22721 臂:33218 避:36991 陛:38491 鞭:38829 边:36793 编:32534 贬:36140 扁:25153 便:20415 变:21464 卞:21342 辨:36776 辩:36777 辫:36779 遍:36941 标:26631 彪:24426 膘:33176 表:34920 鳖:40150 憋:24971 别:21035 瘪:30250 彬:24428 斌:25996 濒:28626 滨:28392 宾:23486 摈:25672 兵:20853 冰:20912 柄:26564 丙:19993 秉:31177 饼:39292 炳:28851 病:30149 并:24182 玻:29627 菠:33760 播:25773 拨:25320 钵:38069 波:27874 博:21338 勃:21187 搏:25615 铂:38082 箔:31636 伯:20271 帛:24091 舶:33334 脖:33046 膊:33162 渤:28196 泊:27850 驳:39539 捕:25429 卜:21340 哺:21754 补:34917 埠:22496 不:19981 布:24067 步:27493 簿:31807 部:37096 怖:24598 擦:25830 猜:29468 裁:35009 材:26448 才:25165 财:36130 睬:30572 踩:36393 采:37319 彩:24425 菜:33756 蔡:34081 餐:39184 参:21442 蚕:34453 残:27531 惭:24813 惨:24808 灿:28799 苍:33485 舱:33329 仓:20179 沧:27815 藏:34255 操:25805 糙:31961 槽:27133 曹:26361 草:33609 厕:21397 策:31574 侧:20391 册:20876 测:27979 层:23618 蹭:36461 插:25554 叉:21449 茬:33580 茶:33590 查:26597 碴:30900

Unicode字符编码表

注:除非有特别指明,否则以下符号皆属“半角”而非“全角”。代码显示描述 U+0020 空格 U+0021 ! 叹号 U+0022 " 双引号 U+0023 # 井号 U+0024 $ 价钱/货币符号 U+0025 % 百分比符号 U+0026 & 英文“and”的简写符号 U+0027 ' 引号 U+0028 ( 开圆括号 U+0029 ) 关圆括号 U+002A * 星号 U+002B + 加号 U+002C , 逗号 U+002D - 连字号/减号 U+002E . 句号 U+002F / 由右上至左下的斜线 U+0030 0 数字0 U+0031 1 数字1 U+0032 2 数字2 U+0033 3 数字3 U+0034 4 数字4 U+0035 5 数字5 U+0036 6 数字6 U+0037 7 数字7 U+0038 8 数字8 U+0039 9 数字9 U+003A : 冒号 U+003B ; 分号 U+003C < 小于符号 U+003D = 等于号 U+003E > 大于符号 U+003F ? 问号 U+0040 @ 英文“at”的简写符号 U+0041 A 拉丁字母A

U+0043 C 拉丁字母C U+0044 D 拉丁字母D U+0045 E 拉丁字母E U+0046 F 拉丁字母F U+0047 G 拉丁字母G U+0048 H 拉丁字母H U+0049 I 拉丁字母I U+004A J 拉丁字母J U+004B K 拉丁字母K U+004C L 拉丁字母L U+004D M 拉丁字母M U+004E N 拉丁字母N U+004F O 拉丁字母O U+0050 P 拉丁字母P U+0051 Q 拉丁字母Q U+0052 R 拉丁字母R U+0053 S 拉丁字母S U+0054 T 拉丁字母T U+0055 U 拉丁字母U U+0056 V 拉丁字母V U+0057 W 拉丁字母W U+0058 X 拉丁字母X U+0059 Y 拉丁字母Y U+005A Z 拉丁字母Z U+005B [ 开方括号 U+005C \ 由左上至右下的斜线U+005D ] 关方括号 U+005E ^ 抑扬(重音)符号U+005F _ 底线 U+0060 ` 重音符 U+0061 a 拉丁字母a U+0062 b 拉丁字母b U+0063 c 拉丁字母c U+0064 d 拉丁字母d U+0065 e 拉丁字母e

Unicode编码表

Unicode编码表 以下为Unicode编码清单,具体字符的编码表请下载Unicode编码表 1. 【0020-007F】 Basic Latin 基本拉丁字母 2. 【00A0-00FF】 Latin-1 Supplement 拉丁字母补充-1 3. 【0100-017F】 Latin Extended-A 拉丁字母扩充-A 4. 【0180-024F】 Latin Extended-B 拉丁字母扩充-B 5. 【0250-02AF】 IPA Extensions 国际音标扩充 6. 【02B0-02EF】 Spacing Modifier Letters 进格修饰字符 7. 【0300-036F】 Combining Diacritical Marks 组合音标附加符号 8. 【0370-03FF】 Greek and Coptic 希腊字母 9. 【0400-04FF】 Cyrillic 西里尔字母 10. 【0500-052F】 Cyrillic Supplement 西里尔字母补充 11. 【0530-058F】 Armenian 亚美尼亚文 12. 【0590-05FF】 Hebrew 希伯来文 13. 【0600-06FF】 Arabic 基本阿拉伯文 14. 【0700-074F】 Syriac 叙利亚文 15. 【0750-077F】 Arabic Supplement 阿拉伯文补充 16. 【0780-07BF】 Thaana 塔纳文 17. 【07C0-07FF】N’Ko 18. 【0900-097F】 Devanagari 天城体梵文字母 19. 【0980-09FF】 Bengali 孟加拉国文 20. 【0A00-0A7F】 Gurmukhi 古尔穆基文 21. 【0A80-0AFF】 Gujarati 古吉拉特文 22. 【0B00-0B7F】 Oriya 奥里亚文 23. 【0B80-0BFF】 Tamil 泰米尔文 24. 【0C00-0C7F】 Telugu 泰卢固文 25. 【0C80-0CFF】 Kannada 卡纳达文 26. 【0D00-0D7F】 Malayalam 马拉亚拉姆文 27. 【0D80-0DFF】 Sinhala 僧伽罗文 28. 【0E00-0E7F】 Thai 泰文 29. 【0E80-0EFF】 Lao 老挝文;寮国文 30. 【0F00-0FFF】 Tibetan 藏文 31. 【1000-109F】 Myanmar 缅甸文 32. 【10A0-10FF】 Georgian 格鲁吉亚文 33. 【1100-11FF】 Hangul Jamo 谚文字母 34. 【1200-137F】 Ethiopic 埃塞俄比亚文 35. 【1380-139F】 Ethiopic Supplement 埃塞俄比亚文补充 36. 【13A0-13FF】 Cherokee 切罗基文 37. 【1400-167F】 Unified Canadian Aboriginal Syllabics 加拿大土著统一音节文字 38. 【1680-169F】 Ogham 欧甘文 39. 【16A0-16FF】 Runic 北欧古文 40. 【1700-171F】 Tagalog 他加禄文

相关主题
相关文档 最新文档