国标码区位码等的区别
- 格式:docx
- 大小:27.75 KB
- 文档页数:9
国标码、机内码、区位码国家标准代码:国标码国家标准代码,简称国标码。
是中华人民共和国的中文常用汉字编码集,亦为新加坡采用。
国家标准强制标准冠以“GB”,推荐标准冠以“GB/T”,国标码是一个四位十六进制数。
现时中华人民共和国官方强制使用GB 18030标准,但较旧的计算机仍然使用GB 2312。
“GB”在计算机领域中常常表示GB 2312-80或GB 18030-2005。
两者是汉语编码系统的标准,在中国大陆和新加坡用于简体中文。
机内码:国标码是不可能在计算机内部直接采用的,于是,;汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,如:由上面我们知道,“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B即为B1A3H,因此,“保”字的机内码就是B1A3H。
区位码1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
区位码是一个四位的十进制数,每个区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
ASCⅡ目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。
计算机编码知识区位码、国标码、机内码、输入码、字计算机编码知识--区位码、国标码、机内码、输入码、字形码2010年07月12日星期一1748在计算机中各种信息都是以二进制编码的形式存在的也就是说不管是文字、图形、声音、动画还是电影等各种信息在计算机中都是以0和1组成的二进制代码表示的计算机之所以能区别这些信息的不同是因为它们采用的编码规则不同。
比如同样是文字英文字母与汉字的编码规则就不同英文字母用的是单字节的ASCII码汉字采用的是双字节的汉字内码但随着需求的变化这两种编码有被统一的UNICODE码由Unicode协会开发的能表示几乎世界上所有书写语言的字符编码标准所取代的趋势当然图形、声音等的编码就更复杂多样了。
这也就告诉我们信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域。
1、字符英文包括字母、数字、标点、运算符等编码字符的编码采用国际通用的ASCII码American Standard Code for Information Interchange美国信息交换标准代码每个ASCII码以1个字节Byte储存从0到数字127代表不同的常用符号例如大写A的ASCII码是65小写a则是97。
由于ASCII码只用了字节的七个位最高位并不使用所以后来又将最高的一个位也编入这套编码码中成为八个位的延伸ASCIIExtendedASCII码这套内码加上了许多外文和表格等特殊符号成为目前常用的编码。
基本的ASCII字符集共有128个字符其中有96个可打印字符包括常用的字母、数字、标点符号等另外还有32个控制字符。
标准ASCII码使用7个二进位对字符进行编码对应的ISO标准为ISO646标准。
下表展示了基本ASCII字符集及其编码字母和数字的ASCII码的记忆是非常简单的。
我们只要记住了一个字母或数字的ASCII码例如记住A为650的ASCII码为48知道相应的大小写字母之间差32就可以推算出其余字母、数字的ASCII码。
1.国家标准汉字代码体系汉字字数繁多,属性丰富,因而汉字代码体系也较复杂,包括:(1)汉字机内码。
它们是汉字在计算机汉字系统内部的表示方法,是计算机汉字系统的基础代码。
(2)汉字交换码。
它们是国标汉字(如机内码)进行信息交换的代码标准。
(3)汉字输入码。
它们是在计算机标准键盘上输入汉字用到的各种代码体系。
(4)汉字点阵码。
它们是在计算机屏幕上显示和在打印机上打印输出汉字的代码体系。
(5)汉字字形控制码。
为了打印各种风格的字体和字形所制定的代码。
这些代码系统有的必须有统一的国家标准,有的则不要求统一。
近年来我国已经制定系列汉字信息处理方面的国家标准,今后将继续完善,并与国际上求得统一。
2.国家标准汉字交换码(国标码)我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。
在国标码的字符集中共收录了一级汉字3755个,二级汉字3008 个,图形符号682个,三项字符总计7445个。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。
国标码的范围是2121H—7E7EH。
3、区位码:国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码在国标GB2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。
即:中文内码之一,代表中文,在广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和),称为汉字的输入法,、五笔字型码、拼音码、、拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
区位码国标码机内码的转换公式
区位码、国标码和机内码是用于汉字编码的三种不同方式。
每种方式
都有相应的转换公式。
1. 区位码(QW Code):
区位码是按照笔画的先后顺序给每个汉字编码的方式。
汉字的区位码
由两个数字组成,前一个数字表示汉字所在的汉字区的编码,后一个数字
表示汉字在该区的顺序编码。
转换公式如下:
区位码=(区码-16)*94+位码+161
2. 国标码(GB Code):
国标码是按照笔画的先后顺序给每个汉字编码的方式,与区位码相似。
汉字的国标码由两个数字组成,前一个数字表示汉字所在的编码区的编码,后一个数字表示汉字在该区的顺序编码。
转换公式如下:
国标码=(区码-16)*94+位码+161
3. 机内码(Internal Code):
机内码是计算机内部使用的编码方式,与区位码和国标码不同,它用
一个整数表示一个汉字。
机内码的转换公式如下:
机内码=(区码+128)*256+位码
需要注意的是,上述公式中的区码和位码应该是指汉字的区位码或国
标码的区码和位码,而不是指ASCII码或Unicode码。
这些转换公式可以用于不同编码间的转换。
例如,如果已知一个汉字
的区位码,可以通过区位码的转换公式将其转换为国标码或机内码。
同样
地,如果已知一个汉字的国标码或机内码,也可以通过相应的公式将其转换为区位码或其他编码。
总结:区位码国标码和机内码是用于汉字编码的三种不同方式,每种方式都有相应的转换公式。
在转换时需要根据公式将一个编码方式的值转换为另一种编码方式的值。
汉字国标码,机内码和区位码的不同汉字是中华文化的瑰宝,是中华民族的文化符号。
在现代社会中,汉字的应用范围越来越广泛,汉字输入也成为人们日常生活中不可或缺的一部分。
汉字输入需要用到汉字国标码、机内码和区位码,这三种码制虽然都是用来表示汉字的,但它们之间存在着不同,下面我们就来一一探究。
一、汉字国标码汉字国标码是由国家标准化委员会制定的一种汉字编码体系,也称为GB码或GB2312码。
它是在1980年提出的,是我国第一个汉字编码标准,其编码范围包括了6763个常用汉字和682个生僻字,共计7445个汉字。
汉字国标码采用两字节表示一个汉字,每个字节的取值范围是0xA1~0xFE,共计94个字符,其中0xA1~0xA9和0xF7~0xFE 是用来表示第一字节的,0xA1~0xFE是用来表示第二字节的。
汉字国标码的优点是编码规范,兼容性好,适用范围广,能够兼容各种操作系统和软件程序,因此在汉字输入中得到了广泛应用。
但其缺点也比较明显,就是字符集太小,不支持繁体字和一些特殊符号。
二、机内码机内码是计算机内部使用的一种二进制编码体系,也称为ASCII 码。
它是由美国信息交换标准委员会在1963年制定的,其编码范围包括了128个字符,包括了英文字母、数字、标点符号和控制字符等。
机内码采用一个字节表示一个字符,每个字节的取值范围是0~127。
机内码的优点是编码简单,易于处理,因此在计算机内部得到广泛应用。
但其缺点也很明显,就是只支持英文字母等ASCII字符,不支持汉字和其他语言的字符。
三、区位码区位码是中国大陆地区常用的一种汉字编码体系,也称为GB码。
它是在1956年由中国科学院信息处理研究室提出的,是我国第一个汉字编码标准。
区位码采用一个字节表示一个汉字,其中第一个字节表示该汉字所在的区,第二个字节表示该汉字在该区的位置。
区号取值范围是0xA1~0xFE,共计94个区,每个区号包含了94个位置码,位置码取值范围也是0xA1~0xFE。
即GB国标码:中文内码之一,代表中文简化字,在中国大陆广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一字节0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而ASCII码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和字形码),称为汉字的输入法,区位码、五笔字型码、拼音码、智能ABC、微软拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
1.查一下国标码、区位码、汉字内码一样么?有什么区别?答:国家标准汉字交换码(国标码):我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。
在国标码的字符集中共收录了一级汉字3755个,二级汉字3008 个,图形符号682个,三项字符总计7445个。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。
国标码的范围是2121H—7E7EH。
区位码:国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码在国标GB2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。
区位码的前两位是它的区号,后两位是它的位号。
用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。
汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区3l位。
所有的汉字和符号所在的区分为以下四个组:(1)01区到15区。
图形符号区,其中01区到09区为标准符号区,10区到15区为自定义符号区。
01区到09区的具体内容如下;1)01区。
一般符号202个,如间隔符、标点、运算符、单位符号及制表符;2)02区。
简述汉字区位码、国标码和内码之间的关系汉字区位码、国标码和内码是汉字编码中重要的概念,它们之间有着密切的关系。
汉字区位码是一种按汉字笔画和位置编排的编码方式,它是早期汉字编码的一种常用方式。
汉字区位码的编码规则简单,但是由于其编码范围过于狭窄,存在着很多不足之处,比如无法表示异体字和繁体字等。
为了解决汉字区位码的不足,国家发布了《信息交换用汉字编码字符集》(GB2312),并提出了国标码。
国标码以汉字区位码为基础,加入了许多新的编码,极大地扩展了其编码范围。
国标码的编码方式相对简单,但是有许多汉字存在多种表示方式,会出现编码冲突的情况。
为了解决国标码的编码冲突问题,国家发布了《通用字符集》(GB18030),并提出了内码的概念。
内码是指在计算机内部表示汉字和字符的编码方式,它采用了多字节编码方式,可以表示全部的汉字和字符,同时还能支持Unicode编码。
内码的编码方式相对复杂,但是可以满足多种不同的需求。
综上所述,汉字区位码、国标码和内码是汉字编码中不可或缺的概念,它们之间的关系密切,相互依存,为汉字在计算机中的表示和使用提供了重要的支持。
- 1 -。
即:中文内码之一,代表中文,在广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和),称为汉字的输入法,、五笔字型码、拼音码、、拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
汉字库分布情况如下:一级汉字16-55区二级汉字56-87区三级汉字1-9区空闲未用10-15区通常,在DOS下的各汉字系统中,同时按Alt键和F1键即可调用区位码输入方法。
而在Windows中常用Ctrl+空格键和Ctrl+Shift键调出区位码。
如“2901”代表“健”字,“4582”代表“万”字,“8150”代表“楮”字,这些都是汉字,用区位码还可以很轻松地输入特殊符号,比如,“0189”代表“※”(符号),“0528”代表“ゼ”(日本语),“0711”代表“Й”(俄文),“0949”代表“┭”(制表符)。
在区位码中,01-09区为特殊字符,10-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列),在区位码汉字输入方法中,汉字编码无重码,在熟练掌握汉字的区位码后,录入汉字的速度是很快的,但若想记忆住全部区位码是相当困难的,常使用于录入特殊符号,如制表符、希腊字母等,这里简单介绍几个区。
部分国际区位编码区号:01 【各类符号】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190100、。
· ˉ ˇ ¨〃々- ~‖ … ' ' " " 〔〕0120 〈〉《》「」『』〖〗【】± × ÷∶∧∨∑ ∏0140 ∪∩ ∈∷√ ⊥∥∠⌒⊙∫ ∮≡ ≌≈ ∽∝≠ ≮≯0160 ≤ ≥ ∞ ∵∴♂♀° ′ ″ ℃$¤¢£‰ § № ☆★0180 ○ ● ◎◇◆□ ■ △▲ ※→ ← ↑ ↓ 〓区号:02 【各类数字】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190200 ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ⒈⒉⒊0220 ⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔⒕⒖⒗⒘⒙⒚⒛⑴⑵⑶0240 ⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀⒁⒂⒃⒄⒅⒆⒇①②③0260 ④⑤⑥⑦⑧⑨⑩一二三四五六七八九十0280 ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ区号:03 【符号、字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190300 !"#¥%&'()*+,-./01230320 456789:;<=>?@ABCDEFG0340 HIJKLMNOPQRSTUVWXYZ[0360 \]^_`abcdefghijklmno0380 pqrstuvwxyz{|} ̄区号:06 【罗马字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190600 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ0620Υ Φ Χ Ψ Ω α β γ δ ε ζ η0640θ ι κ λ μ ν ξ ο π ρ σ τ υ φ χ ψ ω0660 0680区号:08 【汉语拼音】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190800 ā á ǎ à ē é ě è ī í ǐ ì ō ó ǒ ò ū ú ǔ0820 ù ǖ ǘ ǚ ǜ ü ê ㄅㄆㄇ0840 ㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙㄚㄛ0860 ㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ0880区号:09 【制表字符】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190900 ─ ━│ ┃┄┅┆┈┉┉┊┋┌ ┍┎┏0920 ┐ ┑┒┓└ ┕┖┗┘ ┙┚┛├ ┝┞┟┠┡┢┣0940 ┤ ┥┦┧┨┩┪┫┬ ┭┮┯┰┱┲┳┴ ┵┶┷0960 ┸┹┺┻┼ ┽┾┿╀╁┃╃╄╅╆╇╈╉╊╋0980以国家标准局1980年颁布的《信息交换用汉字编码字符集》基本集(代号为GB2312-80)规定的汉字交换码作为国家标准汉字编码。
GB2312-80中共有7445个字符符号:汉字符号6763个,一级汉字3755个(按汉语拼音字母顺序排列),二级汉字3008个(按部首笔划顺序排列),非汉字符号682个。
GB2312-80规定,所有的国标码汉字及符号组成一个94×94的方阵。
在此方阵中,每一行称为一个“区”,每一列称为一个“位”。
这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。
一个汉字所在的区号和位号的组合就构成了该汉字的“区位码”。
其中,高两位为区号,低两位为位号。
这样区位码可以惟一地确定某一汉字或字符;反之,任何一个汉字或符号都对应一个惟一的区位码,没有重码。
区位码分布情况如下:由上可以看出,所有汉字与符号的94个区,可以分为四个组:①1-15区:为图形符号区。
其中1-9区为标准符号区;10-15区为自定义符号区。
②16-55区:为一级汉字区,包含3755个汉字。
这些区中的汉字按汉语拼音顺序排序,同音字按笔画顺序列出。
③56-87区:为二级汉字区,包含3008个汉字。
这些区中的汉字是按部首笔划顺序排序的。
④88-94区:为自定义汉字区。
国标码规定,每个汉字(包括非汉字的一些符号)由2字节代码表示。
每个字节的最高位为0,只使用低7位,而低7位的编码中又有34个是用于控制的,这样每个字节只有27 - 34 = 94个编码用于汉字。
2个字节就有94×94=8836个汉字编码。
在表示一个汉字的2个字节中,高字节对应编码表中的行号,称为区号;低字节对应编码表中的列号,称为位号。
汉字国标码的范围用二进制表示是:00100001 00100001 01111110 01111110(1+32)10 (1+32)10 (94+32)10 (94+32)10 7位ASCII码是128个字符组成的字符集。
其中编码值0 31(00000000 00011111)不对应任何印刷字符,通常称为控制符,用于计算机通信中的通信控制或对计算机设备的功能控制。
编码值32(00100000)是空格字符SP。
编码值127(1111111)是删除字符DEL。
汉字国标码的起始二进制位置选择00100001即(33)10是为了跳过ASCII码的32个控制字符和空格字符。
所以,汉字国标码的高位和低位分别比对应的区位码大(32)10或(00100000)2或(20)H,即:国标码高位= 区码+ 20H (H表示十六进制),国标码低位= 位码+ 20H。
汉字是一种象形文字,无法直接用标准西文键盘输入,必须经过转换间接输入;汉字的字数也较多,不能用单字节的ASCⅡ(256个字符)来表示。
因此,按照不同的目的和需要,产生了多种汉字编码系统与汉字输入方法。
目前采用两个字节(可以表示64K字符)的汉字编码方案。
由于汉字的应用范围较广(东南亚国家),汉字的编码字符集不相同,中国大陆常用GB / GBK码,台湾BIG5。
汉字处理过程汉字系统对每个汉字预先规定输入计算机中的代码,即汉字的外部码(例如拼音输入码)。
计算机为了识别汉字,要把汉字的外部码转换成内部码(二进制代码)进行存储和处理。
输出时,还将汉字的内部码转换成汉字的字形码。
计算机处理汉字的总过程如下:键盘管理程序汉字处理程序外部(输入)码→ 机内码→ 字形(输出)码(键盘) (计算机存储、传输) (计算机输出汉字)↑ ↓↑ ↓汉字信息交换码(国标码) 汉字信息↓ ↑其它系统代码交换码用于计算机与其他系统或设备之间进行汉字代码信息交换的标准汉字代码,目前最常使用的是国标码1981年的GB2312-80, 7445; 2000的GB18030-2000,27000特点每个汉字(图形符号)用两个字节表示,每个字节只用低7位,即最高位为0的二进制码。
在128种编码表示中,有94种用来表示汉字的编码。
此标准的汉字编码表有94行、94列,分别为区号和位号。
汉字编码使用的高字节称为区码,低字节称为位码。
汉字分为两级:一级为使用频度高的常用汉字;二级为次常用的汉字;内部码也称汉字内码或汉字机内码,是计算机对汉字进行存储、运算、传码的实际代码。
特点是由0和1组成的二进制代码。
一个汉字对应一个机内码,即汉字数目=机内码数目;一般用两个字节表示一个汉字的内码且每个字节最高位为1。
还有少数三字节、四字节等内部码最多能表示128×128 = 16384 个汉字和图形符号;机内码目前虽未完全统一,但已趋于标准化。