四字节:非常用CJK汉字
应用:Windows,Mac,Java,···
2020/11/9
22
UCS/Unicode的优缺点
优点:编码空间极大,能容纳足够多的各种字符 集(13亿字符)
缺点:4字节的字符编码使存储空间浪费严重 克 服 : 在 UCS/Unicode 编 码 空 间 中 , 把 第 1 和 第 2
2020/11/9
7
文本处理
文本处理
文本准备
文本编辑
文本处理软件
电子 文本
(编辑器)
格式化的 电子文本
文本展现
其他 媒体
(阅读器)
网 络 传 输
2020/11/9
8
组成文本的基本元素是字符 (character) ,字符与数值信息一 样,在计算机中也采用二进位编码 表示。
2020/11/9
9
5.1.1 字符的编码
16
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1”
1 X XX X XX X 1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111 (用十六进制表示为C4CF)
2020/11/9
编码方 法
双字节存储和 表示,每个字 节的最高位均 为“1”
双字节存储和 表示,第1个 字节的最高位 必为“1”
部分双字节、 部分4字节表 示,双字节表 示方案与GBK 相同
(1) UTF-8采用单字 节可变长编码
(2) UTF-16采用双 字节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!