当前位置:文档之家› Unicode字符列表

Unicode字符列表

Unicode字符列表
Unicode字符列表

Unicode字符列表(超完整)Unicode, 字符, 列表

代码显示描述

U+0020 空格

U+0021 ! 叹号

U+0022 " 双引号

U+0023 # 井号

U+0024 $ 价钱/货币符号

U+0025 % 百分比符号

U+0026 & 英文“and”的简写符号U+0027 ' 引号

U+0028 ( 开圆括号

U+0029 ) 关圆括号

U+002A * 星号

U+002B + 加号

U+002C , 逗号

U+002D - 连字号/减号

U+002E . 句号

U+002F / 由右上至左下的斜线

U+0030 0 数字 0

U+0031 1 数字 1

U+0032 2 数字 2

U+0033 3 数字 3

U+0034 4 数字 4

U+0035 5 数字 5

U+0036 6 数字 6

U+0037 7 数字 7

U+0038 8 数字 8

U+0039 9 数字 9

U+003A : 冒号

U+003B ; 分号

U+003C < 小于符号

U+003D = 等于号

U+003E > 大于符号

U+003F ? 问号

U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母 A

U+0042 B 拉丁字母 B

U+0043 C 拉丁字母 C

U+0044 D 拉丁字母 D

U+0045 E 拉丁字母 E

U+0046 F 拉丁字母 F

U+0047 G 拉丁字母 G

U+0049 I 拉丁字母 I

U+004A J 拉丁字母 J

U+004B K 拉丁字母 K

U+004C L 拉丁字母 L

U+004D M 拉丁字母 M

U+004E N 拉丁字母 N

U+004F O 拉丁字母 O

U+0050 P 拉丁字母 P

U+0051 Q 拉丁字母 Q

U+0052 R 拉丁字母 R

U+0053 S 拉丁字母 S

U+0054 T 拉丁字母 T

U+0055 U 拉丁字母 U

U+0056 V 拉丁字母 V

U+0057 W 拉丁字母 W

U+0058 X 拉丁字母 X

U+0059 Y 拉丁字母 Y

U+005A Z 拉丁字母 Z

U+005B [ 开方括号

U+005C \ 由左上至右下的斜线

U+005D ] 关方括号

U+005E ^ 抑扬(重音)符号

U+005F _ 底线

U+0060 ` 重音符

U+0061 a 拉丁字母 a

U+0062 b 拉丁字母 b

U+0063 c 拉丁字母 c

U+0064 d 拉丁字母 d

U+0065 e 拉丁字母 e

U+0066 f 拉丁字母 f

U+0067 g 拉丁字母 g

U+0068 h 拉丁字母 h

U+0069 i 拉丁字母 i

U+006A j 拉丁字母 j

U+006B k 拉丁字母 k

U+006C l 拉丁字母 l(L的小写)U+006D m 拉丁字母 m

U+006E n 拉丁字母 n

U+006F o 拉丁字母 o

U+0070 p 拉丁字母 p

U+0071 q 拉丁字母 q

U+0072 r 拉丁字母 r

U+0073 s 拉丁字母 s

U+0075 u 拉丁字母 u

U+0076 v 拉丁字母 v

U+0077 w 拉丁字母 w

U+0078 x 拉丁字母 x

U+0079 y 拉丁字母 y

U+007A z 拉丁字母 z

U+007B { 开卷曲括号

U+007C | 直棒

U+007D } 关卷曲括号

U+007E ~ 波浪纹

拉丁字母-1

代码显示描述

U+00A1 ? 倒转的叹号

U+00A2 ? (货币单位)分钱、毫子

U+00A3 ? (货币)英镑

U+00A4 ¤(货币)当货币未有符号时以此替代

U+00A5 ? (货币)日圆

U+00A6 ? 两条断开的直线

U+00A7 §文件分不同部分

U+00A8 ¨(语言)分音

U+00A9 ? 版权符

U+00AA ? (意大利文、葡萄牙文、西班牙文)阴性序数U+00AB ? 双重角形引号

U+00AC ? 逻辑非

U+00AE ?? 商标

U+00AF ? 长音

U+00B0 ?角度

U+00B1 a正负号

U+00B2 ? 二次方

U+00B3 ? 三次方

U+00B4 ? 锐音符

U+00B5 ? 百万分之一,10?6

U+00B6 ? 文章分段

U+00B7 ?间隔号

U+00B8 ? 软音符

U+00B9 ? 一次方

U+00BA ? (意大利文、葡萄牙文、西班牙文)阳性序数U+00BB ? 指向右的双箭头

U+00BC ? 四分之一

U+00BD ? 二分之一

U+00BE ? 四分之三

U+00BF ? 倒转的问号

U+00C1 ? 在拉丁字母 A 上加重音符

U+00C2 ? 在拉丁字母 A 上加抑扬符“^”

U+00C3 ? 在拉丁字母 A 上加“~”

U+00C4 ? 在拉丁字母 A 上加分音符“..”

U+00C5 ? 在拉丁字母 A 上加角度符“?”

U+00C6 ? 拉丁字母 A、E 的混合

U+00C7 ? 在拉丁字母 C 下加软音符

U+00C8 ? 在拉丁字母 E 上加重音符

U+00C9 ? 在拉丁字母 E 上加锐音符

U+00CA ? 在拉丁字母 E 上加抑扬符

U+00CB ? 在拉丁字母 E 上加分音符

U+00CC ? 在拉丁字母 I 上加重音符

U+00CD ? 在拉丁字母 I 上加锐音符

U+00CE ? 在拉丁字母 I 上加抑扬符

U+00CF ? 在拉丁字母 I 上加分音符

U+00D0 ? 古拉丁字母 ?,现只有法罗文和冰岛文使用

U+00D1 ? 在拉丁字母 N 上加波浪纹“~”

U+00D2 ? 在拉丁字母 O 上加锐音符

U+00D3 ? 在拉丁字母 O 上加重音符

U+00D4 ? 在拉丁字母 O 上加抑扬符

U+00D5 ? 在拉丁字母 O 上加波浪纹“~”

U+00D6 ? 在拉丁字母 O 上加分音符

U+00D7 ?乘号,亦可拖按“Alt”键,同时按“41425”五键U+00D8 ? 在拉丁字母 O 由右上至左下加对角斜线“/”

U+00D9 ? 在拉丁字母 U 上加重音符

U+00DA ? 在拉丁字母 U 上加锐音符

U+00DB ? 在拉丁字母 U 上加抑扬符

U+00DC ? 在拉丁字母 U 上加分音符

U+00DD ? 在拉丁字母 Y 上加锐音符

U+00DE ? 古拉丁字母 ?,现已被“Th”取替

U+00DF ? 德文字母 ?

U+00E0 -在拉丁字母 a 上加重音符

U+00E1 ?在拉丁字母 a 上加锐音符

U+00E2 ? 在拉丁字母 a 上加抑扬符

U+00E3 ? 在拉丁字母 a 上加波浪纹“~”

U+00E4 ? 在拉丁字母 a 上加分音符

U+00E5 ? 在拉丁字母 a 上加角度符“?”

U+00E6 ? 拉丁字母 a、e 的混合

U+00E7 ? 在拉丁字母 c 上加软音符

U+00E8 ˉ在拉丁字母 e 上加锐音符

U+00E9 °在拉丁字母 e 上加重音符

U+00EA ±在拉丁字母 e 上加抑扬符

U+00EB ? 在拉丁字母 e 上加分音符

U+00EC 2在拉丁字母 i 上加重音符

U+00ED 3在拉丁字母 i 上加锐音符

U+00EE ? 在拉丁字母 i 上加抑扬符

U+00EF ? 在拉丁字母 i 上加分音符

U+00F0 ? 古拉丁字母 ?的小写

U+00F1 ? 在拉丁字母 n 上加波浪纹“~”

U+00F2 ′在拉丁字母 o 上加重音符

U+00F3 μ在拉丁字母 o 上加锐音符

U+00F4 ? 在拉丁字母 o 上加抑扬符

U+00F5 ? 在拉丁字母 o 上加波浪纹“~”

U+00F6 ? 在拉丁字母 o 上加分音符

U+00F7 ?除号,亦可拖按“Alt”键,同时按“41426”五键U+00F8 ? 在拉丁字母 o 由右上至左下加对角斜线“/”

U+00F9 ·在拉丁字母 u 上加重音符

U+00FA ?在拉丁字母 u 上加锐音符

U+00FB ? 在拉丁字母 u 上加抑扬符

U+00FC 1在拉丁字母 u 上加分音符

U+00FD ? 在拉丁字母 u 上加锐音符

U+00FE ? 古拉丁字母 ?,现已被“th”取替

U+00FF ? 在拉丁字母 u 上加分音符

拉丁字母(扩展 A)

代码显示描述

U+0100 ? 在拉丁字母 A 上加长音符

U+0101 o在拉丁字母 a 上加长音符

U+0102 ? 在拉丁字母 A 上加短音符

U+0103 ? 在拉丁字母 a 上加短音符

U+0104 ? 在拉丁字母 A 上加反尾形符

U+0105 ? 在拉丁字母 a 上加反尾形符

拉丁字母(扩展 C)

代码显示描述

U+2C60 ? 在拉丁字母“L”中间加两条横线“=”

U+2C61 ? 在拉丁字母“l”(L 的小写)中间加一条横线“-”U+2C62 ? 在拉丁字母“L”(大写)中间加一条波浪线“~”

U+2C63 ? 在拉丁字母“P”中间加一条横线“-”

U+2C64 ? 在拉丁字母“R”下加一条尾巴

U+2C65 ? 在拉丁字母“a”上加一条对角斜线“/”

U+2C66 ? 在拉丁字母“t”上加一条对角斜线“/”

U+2C67 ? 在拉丁字母“H”下加一条尾巴

U+2C68 ? 在拉丁字母“h”下加一条尾巴

U+2C69 ? 在拉丁字母“K”下加一条尾巴

U+2C6A ? 在拉丁字母“k”下加一条尾巴

U+2C6B ? 在拉丁字母“Z”下加一条尾巴

U+2C6C ? 在拉丁字母“z”下加一条尾巴

U+2C74 ? 在拉丁字母“v”的起笔加一个弯勾U+2C75 ? 拉丁字母“H”的左半部

U+2C76 ? 拉丁字母“h”的左半部

U+2C77 ? 希腊字母“φ”的上半部

彝文字母

拉丁字母(扩展 D)

代码显示描述

U+A720 ? 强调音调音昂的改造字母

U+A721 ? 强调音调低沉的改造字母

特殊

代码显示描述

U+FFFC 取代无法显示字符的“OBJ”

U+FFFD ? 无法显示的字符以它取代

中文标点符号unicode码

名称Unicode 符号

句号3002 。

问号FF1F ?

叹号 FF01 !

逗号FF0C ,

顿号3001 、

分号FF1B ;

冒号FF1A :

引号300C 「

300D 」

引号300E 『

300F 』

引号2018 ‘

2019 ’

引号201C “

201D ”

括号FF08 (

FF09 )

括号3014 〔

3015 〕

括号3010 【

3011 】

破折号 2014 —

省略号2026 …

连接号 2013 –

间隔号 FF0E .

书名号300A 《

300B 》

书名号3008 〈

3009 〉

Unicode 编码表

Unicode 编码表

BMP SMP SIP SSP

0000—0FFF 8000—8FFF 10000—10FFF 20000—20FFF 28000—28FFF E0000—E0FFF 1000—1FFF 9000—9FFF 21000—21FFF 29000—29FFF

2000—2FFF A000—AFFF 12000—12FFF 22000—22FFF 2A000—2AFFF

3000—3FFF B000—BFFF 23000—23FFF

4000—4FFF C000—CFFF 24000—24FFF 2F000—2FFFF

5000—5FFF D000—DFFF 1D000—1DFFF 25000—25FFF

6000—6FFF E000—EFFF 26000—26FFF

7000—7FFF F000—FFFF 1F000—1FFFF 27000—27FFF

Unicode汉字编码表

Unicode汉字编码表 1 unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码,看一下Unicode对汉字的编码: ------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

ANSI与UNICODE字符函数对照表

宽字符处理函数函数与普通函数对照表 字符分类:宽字符函数普通C函数描述 iswalnum()isalnum()测试字符是否为数字或字母 iswalpha()isalpha()测试字符是否是字母 iswcntrl()iscntrl()测试字符是否是控制符 iswdigit()isdigit()测试字符是否为数字 iswgraph()isgraph()测试字符是否是可见字符 iswlower()islower()测试字符是否是小写字符 iswprint()isprint()测试字符是否是可打印字符 iswpunct()ispunct()测试字符是否是标点符号 iswspace()isspace()测试字符是否是空白符号 iswupper()isupper()测试字符是否是大写字符 iswxdigit()isxdigit()测试字符是否是十六进制的数字 大小写转换: 宽字符函数普通C函数描述 towlower()tolower()把字符转换为小写 towupper()toupper()把字符转换为大写 字符比较:宽字符函数普通C函数描述 wcscoll()strcoll()比较字符串 日期和时间转换: 宽字符函数描述 strftime()根据指定的字符串格式和locale设置格式化日期和时间 wcsftime()根据指定的字符串格式和locale设置格式化日期和时间,并返回宽字符串strptime()根据指定格式把字符串转换为时间值,是strftime的反过程 打印和扫描字符串: 宽字符函数描述 fprintf()/fwprintf()使用vararg参量的格式化输出 fscanf()/fwscanf()格式化读入 printf()使用vararg参量的格式化输出到标准输出 scanf()从标准输入的格式化读入 sprintf()/swprintf()根据vararg参量表格式化成字符串 sscanf()以字符串作格式化读入 vfprintf()/vfwprintf()使用stdarg参量表格式化输出到文件 vprintf()使用stdarg参量表格式化输出到标准输出 vsprintf()/vswprintf()格式化stdarg参量表并写到字符串

UNICODE字符集中特有汉字的输入方法

例说UNICODE字符集中特有汉字的输入方法 有个字读音“xi”字型为上“亩”下“心”,遇到手写不了的证件,只能用拼音代替,或者打成其他的字再到单位开证明,有时要跑好几趟才能办成诸如存取款、买保险、购机票等事情。下面结合这个“上‘亩’下‘心’”的汉字为例,谈谈UNICODE字符集中特有汉字的输入方法: 1.这个汉字属于超大字符集《CJK统一汉字扩充B》,Unicode字符代码是20164。 2.为了顺利处理UNICODE汉字中特有汉字,在Windows XP操作系统中需安装“配套超大字集支持包”(https://www.doczj.com/doc/5913860378.html,/software/UniFonts.exe,目前版本是6.0版),不过安装支持包时选择“完全安装”的话会影响到一极少部分软件的使用(例如会引起“企业电子报税管理系统”的申报主界面出现重复图形按钮及字体变大的现象,影响正常显示和使用,又如会引起中国电信“天翼宽带客户端V1.1.5”拨号软件在拨号过程中显示的字体变小,经测试,多个版本都有这个问题,但在卸载这个“超大字集支持包”并重启后,可以恢复正常,如果安装时不选择“自动链接系统外文显示字体”也不会出现这些异常),因此建议选择“核心安装”或在选择“自定义安装”后不选择“自动链接系统外文显示字体”。另外在Windows 2000中系统还需要首先安装补丁(surreg.exe)方可使用超大字符集。 3.Windows Viata和Windows 7中都支持UNICODE汉字(包括CJK、CJK-ExtA、CJK-ExtB),用海峰五笔(目前最新版本为9.5,官方下载地址:1. https://www.doczj.com/doc/5913860378.html,/software/SunWb.exe)可以直接打出来,86版和98版的五笔编码都是ylnu,还有一些五笔输入法,例如菩提五笔、新概念五笔输入法等都能完成UNICODE汉字的输入,在word、Excel等中输入后,会自动调用“宋体-方正超大字符集”显示。 4.使用郑码输入法 5.0版或 6.0版也可以免费输入:windows xp和windows7中均内置了郑码输入法(xp为5.0版、windows7为6.0版),可以替换码表为“全汉字集郑码码表”(本郑码码表包含CJK、CJK-A、CJK-B、CJK-C、CJK-D 全汉字集单字、以及简体、繁体词组,附目前可用下载地址:https://www.doczj.com/doc/5913860378.html,/)或者“超大字集郑码【官方大字集郑码】+扩展B,70296个字35000条(windows7下使用,附目前可用下载地址:https://www.doczj.com/doc/5913860378.html,/)”(xp的码表是winzm.MB,window 7的码表是TableTextServiceSimplifiedZhengMa.txt)然后轻松输入。这个“上‘亩’下‘心’” 的汉字“”的郑码是skwz,具体资源如果不可下载时请通过搜索得到。 5.在系统已支持UNICODE字符集时,不使用输入法,也可以直接在文档中插 入Unicode字符代码,例20164就是“”的Unicode字符代码,可以将代码20164 输入文档,然后按Alt+X将其转换成字符。 6.操作系统支持的字符集正在一步步地扩大,当年只支持GB-2312,现在已广泛支持GBK了,而且Windows Viata和Windows 7都开始支持UNICODE汉字(包括CJK、CJK-ExtA、CJK-ExtB)了。能全面输入、显示或者说广泛支持UNICODE汉字,只是迟早的事。 7.目前,要让更多的人也能顺利打出此字,需要大家一起努力。要让人家会处理你要的汉字,必要时要能说服人家,安装一些你早已准备好的软件等。

unicode编码区对照表

unicode編碼區對照表 2150-218F Number Forms 數字形式 2190-21FF Arrows 箭頭符號 2200-22FF Mathematical Operators 數學運算符號 2300-23FF Miscellaneous Technical 混合專門符號 3000-303F CJK Symbols and Punctuation 中日韓符號和標點3040-309F Hiragana 平假名 30A0-30FF Katakana 片假名 3100-312F Bopomofo 注音符號 31C0-31EF CJK Strokes 中日韓筆畫部件 31F0-31FF Katakana Phonetic Extensions 片假名音標擴充3200-32FF Enclosed CJK Letters and Months 中日韓括號字母及月份 3300-33FF CJK Compatibility 中日韓相容字元 3400-4DBF CJK Unified Ideographs Extension A 中日韓統一表意文字擴充A 4DC0-4DFF Yijing Hexagram Symbols 易經六十四卦象 4E00-9FFF CJK Unified Ideographs 中日韓統一表意文字 其他。。。。

0000-007F Basic Latin 基本拉丁字母 0080-00FF Latin-1 Supplement 拉丁字母補充-1 0100-017F Latin Extended-A 拉丁字母擴充-A 0180-024F Latin Extended-B 拉丁字母擴充-B 0250-02AF IPA Extensions 國際音標擴充 02B0-02FF Spacing Modifier Letters 進格修飾字元 0300-036F Combining Diacritical Marks 組合音標附加符號0370-03FF Greek and Coptic 希臘字母 0400-04FF Cyrillic 西里爾字母 0500-052F Cyrillic Supplement 西里爾字母補充 0530-058F Armenian 亞美尼亞文 0590-05FF Hebrew 希伯來文 0600-06FF Arabic 基本阿拉伯文 0700-074F Syriac 敘利亞文 0750-077F Arabic Supplement 阿拉伯文補充 0780-07BF Thaana 塔納文 07C0-07FF N'Ko 0900-097F Devanagari 天城體梵文字母 0980-09FF Bengali 孟加拉文 0A00-0A7F Gurmukhi 古爾穆基文 0A80-0AFF Gujarati 古吉拉特文 0B00-0B7F Oriya 奧里亞文

unicode中的中文编码说明

编码表 平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP). 平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP). 平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP). 平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP). 平面4 to 13 (40000–DFFFF)尚未使用 平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP) 平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA) 平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA) 注意1 现在网上大多数用于判断中文字符的是U+4E00..U+9FA5这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等; 2E80-A4CF加上F900-FAFF加上FE30-FE4F。 其中: 2E80-A4CF 包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根 F900-FAFF 中日朝兼容表意文字 FE30-FE4F 中日朝兼容形式 所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF || F900-FAFF||FE30-FE4F 注意2 全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

Unicode码

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版,ISBN-10: 0321480910)对外发表。 2006年6月的最新版本的 Unicode 是 2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta已于2005年12月12日推出,以供各会员评价。 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。 1.编码方式 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 Unicode字符集可以简写为UCS(Unicode Character Set)。早期的Unicode 标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码,UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。 每个平面有2^16=65536个码位。Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode 5.0.0版本中,已定义的码位只有238605

Unicode字符编码分布表――标点符号类

Unicode 5.1字符编码分布表——标点符号类标点符号数学符号专用符号 通用标点符号数字和数字符号综合符号控制符集合: C0(U+00–U+001F,U+007F)、C1(U+0080–U+009F)ASCII标点符号(U+0020 –U+002F,U+003A– U+0040,U+005B–(相关查阅: 专用文字) U+0060,U+007B– U+007E)xx盲文(U+2800 排版控制符(U+2000–U+206F)–U+28FF) 拉丁文第一增补集标点符 装饰符号(U+2700 - 号(U+00A0–ASCII数字(U+0030–U+0039)不可见操作符(U+2061–U+2064)U+27BF) U+00BF) 通用标点符号(U+2000全角ASCII数字(U+FF11– –U+206F)U+FF19) 增补标点符号(U+2E00数字形式符号(U+2150– –U+2E7F)U+218F)综合符号(U+2600– 专用符号(U+FFF0–U+FF)U+26FF)

综合符号和箭头 (U+2B00– U+2BFF) 《xx经》符号 (U+1D300– U+1D35F)语言标签(U+E00–U+E007F)中日韩标点符号上标和下标符号(U+2070– U+209F)变体选择符(U+FE00–U+FE0F)中日韩标点符号 类字母符号 (U+3000–U+303F)《易经》两仪四象 (U+268A– U+268F) 增补变体选择符(U+E0100–U+E01EF) 【译注】《xx》八卦 (U+2630– U+2637) 《xx》六十四卦象 (U+4DC0– U+4DFF) 全角ASCII标点符号 (U+FF01–U+FF0F,

常用汉字的Unicode码表

包含汉字: 的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之 都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给 名法间斯知世什两次使身者被高已亲其进此话常与活正感见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重 三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许稜先口由死安写性马光白或住难 望教命花结乐色更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原 吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约 各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴奇管类未朋且婚台夜青 北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻 尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算 义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改 据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初 养香停际致阳纸李纳验助激够严证帝饭忘趣支春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止 组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低 玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责 例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适 乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗 换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降 夏困刘罪亡鞋健模败伴守挥鲜财孤枪禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿 招释介烧误 unicode 编码 的一是了我不人在他有这%u4e2a上们来

Unicode字符集

Unicode通用字符集 Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode 也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版 unicode,ISBN-10: 0321480910)对外发表。 2006年7月的最新版本的Unicode 是5.0版本。2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta于2005年12月12日推出,5.2版本(unicode standard)于2009年10月1日正式推出,以供各会员评价。 目前Unicode标准,6.1版已发布(2012年1月31日)。在unicode联盟网站上可以查看完整的6.1的核心规范。 Unicode定义了大到足以代表人类所有可读字符的字符集。 Java语言就用到了Unicode编码,从而实现了该语言的国际通用性。 编辑本段Unicode 的编码和实现 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。 编码方式 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode 用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 通用字符集(Universal Character Set,UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。UCS-2用两个字节编码,UCS-4用4个字节编码。 历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟。前者开发的ISO/IEC 10646 项目,后者开发的统一码项目。因此最初制定了不同的标准。 1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。在发布的时候,Unicode一般都会采用有关字码最常见的字型,但ISO 10646一般都尽可能采用Century字型。 UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前

Unicode汉字编码表

Unicode汉字编码表 1 Unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来 编码,看一下Unicode对汉字的编码:

------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯 4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿 4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏 4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也 4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯 4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿 4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏 4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟 4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯 4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿 4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏 4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟 4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯 4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿 4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏 4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟 4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

VC中Unicode字符串的处理

From:https://www.doczj.com/doc/5913860378.html,/kf/201108/102015.html Unicode :宽字节字符集 1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数? 可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。 调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。 2. 如何对DBCS(双字节字符集)字符串进行操作? 函数描述 PTSTR CharNext (LPCTSTR ); 返回字符串中下一个字符的地址 PTSTR CharPrev (LPCTSTR, LPCTSTR );返回字符串中上一个字符的地址 BOOL IsDBCSLeadByte( BYTE );如果该字节是DBCS字符的第一个字节,则返回非0值 3. 为什么要使用Unicode? (1)可以很容易地在不同语言之间进行数据交换。 (2)使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。 (3)提高应用程序的运行效率。 Windows 2000是使用Unicode从头进行开发的,如果调用任何一个Windows函数并给它传递一个ANSI字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序,就能够使你的应用程序更加有效地运行。 Windows CE 本身就是使用Unicode的一种操作系统,完全不支持ANSI Windows 函数 Windows 98 只支持ANSI,只能为ANSI开发应用程序。 Microsoft公司将COM从16位Windows转换成Win32时,公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。 4. 如何编写Unicode源代码? Microsoft公司为Unicode设计了WindowsAPI,这样,可以尽量减少代码的影响。实际上,可以编写单个源代码文件,以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏(UNICODE和_UNICODE),就可以修改然后重新编译该源文件。 _UNICODE宏用于C运行期头文件,而UNICODE宏则用于Windows头文件。当编译源代码模块时,通常必须同时定义这两个宏。 5. Windows定义的Unicode数据类型有哪些? 数据类型说明 WCHAR Unicode字符 PWSTR 指向Unicode字符串的指针 PCWSTR 指向一个恒定的Unicode字符串的指针 对应的ANSI数据类型为CHAR,LPSTR和LPCSTR。 ANSI/Unicode通用数据类型为TCHAR,PTSTR,LPCTSTR。 6. 如何对Unicode进行操作?

Unicode字符列表

Unicode字符列表(超完整)Unicode, 字符, 列表 代码显示描述 U+0020 空格 U+0021 ! 叹号 U+0022 " 双引号 U+0023 # 井号 U+0024 $ 价钱/货币符号 U+0025 % 百分比符号 U+0026 & 英文“and”的简写符号U+0027 ' 引号 U+0028 ( 开圆括号 U+0029 ) 关圆括号 U+002A * 星号 U+002B + 加号 U+002C , 逗号 U+002D - 连字号/减号 U+002E . 句号 U+002F / 由右上至左下的斜线 U+0030 0 数字 0 U+0031 1 数字 1 U+0032 2 数字 2 U+0033 3 数字 3 U+0034 4 数字 4 U+0035 5 数字 5 U+0036 6 数字 6 U+0037 7 数字 7 U+0038 8 数字 8 U+0039 9 数字 9 U+003A : 冒号 U+003B ; 分号 U+003C < 小于符号 U+003D = 等于号 U+003E > 大于符号 U+003F ? 问号 U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母 A U+0042 B 拉丁字母 B U+0043 C 拉丁字母 C U+0044 D 拉丁字母 D U+0045 E 拉丁字母 E U+0046 F 拉丁字母 F U+0047 G 拉丁字母 G

U+0049 I 拉丁字母 I U+004A J 拉丁字母 J U+004B K 拉丁字母 K U+004C L 拉丁字母 L U+004D M 拉丁字母 M U+004E N 拉丁字母 N U+004F O 拉丁字母 O U+0050 P 拉丁字母 P U+0051 Q 拉丁字母 Q U+0052 R 拉丁字母 R U+0053 S 拉丁字母 S U+0054 T 拉丁字母 T U+0055 U 拉丁字母 U U+0056 V 拉丁字母 V U+0057 W 拉丁字母 W U+0058 X 拉丁字母 X U+0059 Y 拉丁字母 Y U+005A Z 拉丁字母 Z U+005B [ 开方括号 U+005C \ 由左上至右下的斜线 U+005D ] 关方括号 U+005E ^ 抑扬(重音)符号 U+005F _ 底线 U+0060 ` 重音符 U+0061 a 拉丁字母 a U+0062 b 拉丁字母 b U+0063 c 拉丁字母 c U+0064 d 拉丁字母 d U+0065 e 拉丁字母 e U+0066 f 拉丁字母 f U+0067 g 拉丁字母 g U+0068 h 拉丁字母 h U+0069 i 拉丁字母 i U+006A j 拉丁字母 j U+006B k 拉丁字母 k U+006C l 拉丁字母 l(L的小写)U+006D m 拉丁字母 m U+006E n 拉丁字母 n U+006F o 拉丁字母 o U+0070 p 拉丁字母 p U+0071 q 拉丁字母 q U+0072 r 拉丁字母 r U+0073 s 拉丁字母 s

常用汉字Unicode码表

\u7684\u4e00\u662f\u4e86\u6211\u4e0d\u4eba\u5728\u4ed6\u6709\u8fd9\u4e2a\u4e0a\u4 eec\u6765\u5230\u65f6\u5927\u5730\u4e3a\u5b50\u4e2d\u4f60\u8bf4\u751f\u56fd\u5e74\u 7740\u5c31\u90a3\u548c\u8981\u5979\u51fa\u4e5f\u5f97\u91cc\u540e\u81ea\u4ee5\u4f1a\ u5bb6\u53ef\u4e0b\u800c\u8fc7\u5929\u53bb\u80fd\u5bf9\u5c0f\u591a\u7136\u4e8e\u5fc3 \u5b66\u4e48\u4e4b\u90fd\u597d\u770b\u8d77\u53d1\u5f53\u6ca1\u6210\u53ea\u5982\u4 e8b\u628a\u8fd8\u7528\u7b2c\u6837\u9053\u60f3\u4f5c\u79cd\u5f00\u7f8e\u603b\u4ece\u 65e0\u60c5\u5df1\u9762\u6700\u5973\u4f46\u73b0\u524d\u4e9b\u6240\u540c\u65e5\u624 b\u53c8\u884c\u610f\u52a8\u65b9\u671f\u5b83\u5934\u7ecf\u957f\u513f\u56de\u4f4d\u52 06\u7231\u8001\u56e0\u5f88\u7ed9\u540d\u6cd5\u95f4\u65af\u77e5\u4e16\u4ec0\u4e24\u 6b21\u4f7f\u8eab\u8005\u88ab\u9ad8\u5df2\u4eb2\u5176\u8fdb\u6b64\u8bdd\u5e38\u4e0e \u6d3b\u6b63\u611f\u89c1\u660e\u95ee\u529b\u7406\u5c14\u70b9\u6587\u51e0\u5b9a\u6 72c\u516c\u7279\u505a\u5916\u5b69\u76f8\u897f\u679c\u8d70\u5c06\u6708\u5341\u5b9e\ u5411\u58f0\u8f66\u5168\u4fe1\u91cd\u4e09\u673a\u5de5\u7269\u6c14\u6bcf\u5e76\u522 b\u771f\u6253\u592a\u65b0\u6bd4\u624d\u4fbf\u592b\u518d\u4e66\u90e8\u6c34\u50cf\u7 73c\u7b49\u4f53\u5374\u52a0\u7535\u4e3b\u754c\u95e8\u5229\u6d77\u53d7\u542c\u8868 \u5fb7\u5c11\u514b\u4ee3\u5458\u8bb8\u7a1c\u5148\u53e3\u7531\u6b7b\u5b89\u5199\u6 027\u9a6c\u5149\u767d\u6216\u4f4f\u96be\u671b\u6559\u547d\u82b1\u7ed3\u4e50\u8272 \u66f4\u62c9\u4e1c\u795e\u8bb0\u5904\u8ba9\u6bcd\u7236\u5e94\u76f4\u5b57\u573a\u5e 73\u62a5\u53cb\u5173\u653e\u81f3\u5f20\u8ba4\u63a5\u544a\u5165\u7b11\u5185\u82f1\u 519b\u5019\u6c11\u5c81\u5f80\u4f55\u5ea6\u5c71\u89c9\u8def\u5e26\u4e07\u7537\u8fb9\ u98ce\u89e3\u53eb\u4efb\u91d1\u5feb\u539f\u5403\u5988\u53d8\u901a\u5e08\u7acb\u8c6 1\u6570\u56db\u5931\u6ee1\u6218\u8fdc\u683c\u58eb\u97f3\u8f7b\u76ee\u6761\u5462\u7 5c5\u59cb\u8fbe\u6df1\u5b8c\u4eca\u63d0\u6c42\u6e05\u738b\u5316\u7a7a\u4e1a\u601d\ u5207\u600e\u975e\u627e\u7247\u7f57\u94b1\u7d36\u5417\u8bed\u5143\u559c\u66fe\u79 bb\u98de\u79d1\u8a00\u5e72\u6d41\u6b22\u7ea6\u5404\u5373\u6307\u5408\u53cd\u9898 \u5fc5\u8be5\u8bba\u4ea4\u7ec8\u6797\u8bf7\u533b\u665a\u5236\u7403\u51b3\u7aa2\u4f 20\u753b\u4fdd\u8bfb\u8fd0\u53ca\u5219\u623f\u65e9\u9662\u91cf\u82e6\u706b\u5e03\u5 4c1\u8fd1\u5750\u4ea7\u7b54\u661f\u7cbe\u89c6\u4e94\u8fde\u53f8\u5df4\u5947\u7ba1\u 7c7b\u672a\u670b\u4e14\u5a5a\u53f0\u591c\u9752\u5317\u961f\u4e45\u4e4e\u8d8a\u89c2 \u843d\u5c3d\u5f62\u5f71\u7ea2\u7238\u767e\u4ee4\u5468\u5427\u8bc6\u6b65\u5e0c\u4e 9a\u672f\u7559\u5e02\u534a\u70ed\u9001\u5174\u9020\u8c08\u5bb9\u6781\u968f\u6f14\u 6536\u9996\u6839\u8bb2\u6574\u5f0f\u53d6\u7167\u529e\u5f3a\u77f3\u53e4\u534e\u8ae3 \u62ff\u8ba1\u60a8\u88c5\u4f3c\u8db3\u53cc\u59bb\u5c3c\u8f6c\u8bc9\u7c73\u79f0\u4e3d \u5ba2\u5357\u9886\u8282\u8863\u7ad9\u9ed1\u523b\u7edf\u65ad\u798f\u57ce\u6545\u5 386\u60ca\u8138\u9009\u5305\u7d27\u4e89\u53e6\u5efa\u7ef4\u7edd\u6811\u7cfb\u4f24\ u793a\u613f\u6301\u5343\u53f2\u8c01\u51c6\u8054\u5987\u7eaa\u57fa\u4e70\u5fd7\u975 9\u963f\u8bd7\u72ec\u590d\u75db\u6d88\u793e\u7b97\u4e49\u7adf\u786e\u9152\u9700\u 5355\u6cbb\u5361\u5e78\u5170\u5ff5\u4e3e\u4ec5\u949f\u6015\u5171\u6bdb\u53e5\u606f \u529f\u5b98\u5f85\u7a76\u8ddf\u7a7f\u5ba4\u6613\u6e38\u7a0b\u53f7\u5c45\u8003\u7a8 1\u76ae\u54ea\u8d39\u5012\u4ef7\u56fe\u5177\u521a\u8111\u6c38\u6b4c\u54cd\u5546\u7 93c\u7ec6\u4e13\u9ec4\u5757\u811a\u5473\u7075\u6539\u636e\u822c\u7834\u5f15\u98df\ u4ecd\u5b58\u4f17\u6ce8\u7b14\u751a\u67d0\u6c89\u8840\u5907\u4e60\u6821\u9ed8\u52 a1\u571f\u5fae\u5a18\u987b\u8bd5\u6000\u6599\u8c03\u5e7f\u8716\u82cf\u663e\u8d5b\u 67e5\u5bc6\u8bae\u5e95\u5217\u5bcc\u68a6\u9519\u5ea7\u53c2\u516b\u9664\u8dd1\u4ea

Unicode字符编码标准

Unicode字符编码标准 1. 编码知识 1.1 文本和字符 在计算机程序中或者数据文件里,文本(text)是作为数字序列存储的。序列中的数字是具有不同大小、取值和解释的整数。如何解释这些整数是由字符集(character set)、编码(encoding)决定的。 文本主要是由字符(character)组成。在格式文本(fancy text, or rich text)中包括显示属性,如颜色、斜体字、上标等,但仍然是以字符组成的纯文本(plain text)为基础的。有时,格式文本与纯文本之间的区别很复杂,依赖于具体的应用。什么是字符?典型地,是字母。也可以是数字、句点、连字号、标点符号和数学符号,对于中文,也可以是汉字。还包括定义行尾和段落等的控制字符(一般不可见)。 有了字符,就可以为它们分配数字编码。为字符分配什么数字值,依赖于具体情况。一个简单的字符,如字母"a",在不同的程序或者数据文件中可能具有不同的整数值。 1.2 字符集:具有数字编码的字符 在信息处理中,所使用的整数总有上限,依赖于存储整数的位的数目。这也决定了可以同时区分的字符的数量。 在设计字符集时,首先要决定所需字符的数目,并确定所需字符的清单。根据字符的数目,可以设定整数值的上限,这个整数范围称为编码空间(code space),其中的一个特定整数称为一个码点(code point)。 然后,为字符清单中的每个字符指定一个整数值,也就是一个码点。这样就得到一个字符集,称作编码字符集(Coded Character Set)。 1.3 编码单元、字节和编码 在计算机系统的实现中,整数以特定大小的单元表示,通常为8位(1字节),16位,或32位。在字符编码中,这样的单元称为编码单元(code unit)。根据编码空间的大小和具体要求,来选择合适的编码单元。通常,所选择编码单元对应的整数范围要大于编码空间的整数范围,这样每个码点就只需一个编码单元表示,并且在字符码点与编码单元间的转换非常简便,因为字符码点对应的整数值与相应编码单元的整数值相同。如果编码单元对应的整数范围小于编码空间的整数范围,就需要多个编码单元表示一个码点。 字节是计算机系统中最基本的表示单元,无论是存储在内存中,还是将文本写入文件或通过网络发送,总是要读写若干字节。因此,在实际应用中,还需要将编码单元进一步表示为字节序列。 将字符表示为字节序列的过程就称为编码(encoding),更重要的是,还包括如何对字节序列进行解释以取得字符。1.4 不同的字符集 在一些常用的编码中,每个字符只使用一个字节表示,称单字节字符集(single-byte character set, SBCS)。这些字符集都仅限于256个字符。 在ASCII之后,目前应用最广泛的单字节字符集是ISO-8859-1。它是ASCII的一个8位超集,并且提供西欧语言所需的大多数字符。它的一个改进的版本,ISO-8859-15,还包括新的欧元符号和更多的一些法语和芬兰语字母。 双字节字符集(double-byte character set, DBCS)用于为东亚书写系统中所使用成千上万个表意字符提供足够空间。这里的编码仍是基于字节的,不过是两个字节一起表示一个单一的字符。 即使在东亚,文本中也会包含小字母表中的字母,如拉丁字母表。这些字母使用单字节表示的效率会更高。因此,提出了多字节字符集(multi-byte character set, MBDC),使用可变数目的字节来表示字符。多字节字符集通常与ASCII 兼容,也就是说,在这种编码中,拉丁字母使用与ASCII中相同的字节来表示。一些不常用的字符可能会使用三个甚至四个字节编码。 1.4 常见字符集 1.4.1 ASCII: The American Standard Code form Information Interchange ASCII是一个使用7位单元的字符集,及针对7位字节的简单编码方式。尽管局限于很少的一些字符,ASCII是最重要的一种字符集,因为它是目前大多数字符集的基础。 ASCII只提供了128个数字值(也可称作码点,code point),其中33个被保留用作特殊功能。只有95个码点用作"真正的"文本字符。这些图形字符大多时大写和小写拉丁字母,数字和标点符号,外加一些特殊的括号、下划线和重音符号。 1.4.2 EBCDIC: The Extended Binary-Coded Decimal Interchange Code EBCDIC是由IBM设计的编码格式,使用8位字节,被一些字符集用于大型机。EBCDIC在与ASCII相近的时期开发的,具有一些相似的特性。 1.4.3 Unicode Unicode标准定义了一个字符集和几种编码。 Unicode最有吸引力的特点是它涵盖了几乎世界上的所有字符,可以只通过一个唯一的数字(Unicode码点)来访问和

相关主题
文本预览
相关文档 最新文档