西文字符编码与汉字编码18页PPT
- 格式:ppt
- 大小:2.28 MB
- 文档页数:18
一.西文字符编码目前计算机中使用最广泛的西文字符集及其编码是ASCII字符集和ASCII 码,即美国国际信息交换码。
1.标准ASCII字符集共收录了96个可打印字符,32个控制字符,共128个。
其编码规则是:用7位二进制数对每一个字符进行编码,在计算机内部则用字符的ASCII码存储和表示该字符。
而计算机中一般是用1个字节来存储的,每个字节中多出来的最高位一般保持为0。
0 000 0000 ------0……………0 111 1111 ------127常见的ASCII字符要知道:数字字符的ASCII 大写字符的ASCII小写字符的ASCII“0”...48 “A”...65 “a” (97)“1”...49 “B”...66 “b” (98)…………“9”...57 “Z”...90“z” (122)空格字符的ASCII是 32。
2.扩展ASCII码;将标准ASCII最高位置1,得到十进制代码128-255,称为扩展ASCII,可代表扩展的另128个字符。
扩展的ASCII=标准的ASCII+扩展字符集。
二.汉字的编码汉字的特点是数量大、字形复杂、同音字多。
国家标准有一下几个:GB2312:1981年颁布的第一个国家标准,所有字符在计算机内部都采用2个字节来表示,每个字节的最高位规定为1,不支持繁体字。
GBK:1995年版本的,除了收录有GB2312中的所有汉字和符号外,还收录了繁体字在内的大量汉字和符号。
与GB2312向下兼容,即与GB2312相同的字符,其编码也相同。
UCS/Unicode:是国际标准GB18030:与GB2312、GBK保持向下兼容,还扩充了UCS/Unicode中的其它字符Big5:主要在台湾地区使用,支持繁体字。
以下讲解的是GB2312-80汉字编码字汇组成第一部分:字母、数字和各种符号共682个(包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等,统称为GB2312图形符号), 01-09区。
编码标准.字符的表示——字符是人与计算机交互过程中不可缺少的重要信息。
要使计算机能处理、存储字符信息,首先也必须用二进制“0”和“1”代码对字符进行编码。
下面以西文字符和汉字字符为例,介绍常用的编码标准。
(1)ASCII编码ASCII 编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集,全称叫美国国家信息交换标准代码(American Standard Code for Information Interchange)。
ASCII 码是一种7位二进制编码,能表示2 7=128种国际上最通用的西文字符,是目前计算机中,特别是微型计算机中使用最普遍的字符编码集。
ASCII编码包括4类最常用的字符。
①数字“0”~“9”。
ASCII编码的值分别为0110000B~0111001B,对应十六进制数为30H~39H。
②26个英文字母。
大写字母“A”~“Z”的ASCII编码值为41H~5AH,小写字母“a”~“z”的ASCII编码值为61H~7AH。
③用字符。
如“+”、“-”、“=”、“*”和“/”等共32个。
④制符号。
如空格符和车符等共34个。
ASCII码是一种7位编码,它存时必须占全一个字节,也即占用8位:b 7b 6b 5b 4b 3b 2b 1b 0,其中b 7恒为0,其余几位为ASCII码值。
(2)汉字编码1981年颁行的《信息交换用汉字编码字符集·基本集》(代号为GB2312-80)是交换码的国家标准,所以交换码也称为国标码。
GB2312-80共收集和定义了 7445个基本汉字。
其中,使用频度较高的 3755个汉字定义为一级汉字。
使用频率较低的 3008个汉字定义为二级汉字,共有 6763个汉字。
另外还定义了拉丁字母、俄文字母、汉语拼音字母、数字和常用符号等 682个。
GB2312- 80规定每个汉字用 2个字节的二进制编码,每个字节最高位为 0,其余 7位用于表示汉字信息。
汉字编码表示与显示一、汉字的编码1981年5月,我国国家标准总局颁布了《信息交换用汉字编码字符集》(GB2312-80),简称国家标准汉字编码,也叫国标码。
国标码共收进标准字符7445个。
其中一级汉字3755个,二级汉字3008个,共计6763个汉字。
由于汉字的字符多,一个字节即8位二进制代码不足以表示所有的常用汉字。
同时为了不与西文的ASCII码混淆,汉字国标码的每个汉字或符号都使用2个字节(16位二进制)代码来表示。
西文字符采用一个字节表示,即ASCII码,一般只用七位来表示128个字符,而把最高位用作奇偶校验(或者不用)。
国标码介绍:在GB2312-80代码表中,纵向分为0~93,共94行;横向也是0~93,共94列。
行与列分别用b7b6b5b4b3b2b1七位二进制码表示,第一字节表示行,第二字节表示列。
其值从0100001到1111110(十六进制为21-7E)。
这正是ASCII码的可打印字符的编码范围。
国标码是将第一字节和第二字节连写而得。
由于二进太长,一般用十六进制表示。
区位码介绍:在国标GB2312-80中,国标码除了用双七位二进制表示外,还可以表示成区位码的形式。
即在国标代码表中,将行号称为区号,列号称为位号,分别有94个区和94个位。
区号和位号用十进制表示,不足两位前面补0。
这样每个汉字或符号都可用4位十进制表示。
区位码因此可以用来作输入码。
是汉字输入的基本编码方法之一。
机内码介绍:在计算机中双字节汉字与单字节西文字符混合使用、处理,汉字编码的各个字节若不予以特别标识,就会与单字节的ASCII码混淆不清;为此,将标识汉字的两个字节编码的最高位置为1,这种最高位为1的双字节汉字编码就是中国大陆普遍采用的汉字机内码,简称内码,是计算机内部存储、处理汉字所使用的代码。
内码、国标码、区位码三者的关系是:高字节内码=高字节国标码+80H=区码+20H+80H=区码+0A0H=区码+160低字节内码=低字节国标码+80H=位码+20H+80H=位码+0A0H=位码+160 繁体汉字在一些地区和领域仍在使用,国家又制定出相应的繁体汉字字符集,国家标准代号是GB12345-90“信息交换用汉字编码字符集——辅助集”,包含了717个图形符号和6866个繁体汉字。