(好)汉字机内码、国标码和区位码定义区别
- 格式:doc
- 大小:40.50 KB
- 文档页数:3
国标码、机内码、区位码国家标准代码:国标码国家标准代码,简称国标码。
是中华人民共和国的中文常用汉字编码集,亦为新加坡采用。
国家标准强制标准冠以“GB”,推荐标准冠以“GB/T”,国标码是一个四位十六进制数。
现时中华人民共和国官方强制使用GB 18030标准,但较旧的计算机仍然使用GB 2312。
“GB”在计算机领域中常常表示GB 2312-80或GB 18030-2005。
两者是汉语编码系统的标准,在中国大陆和新加坡用于简体中文。
机内码:国标码是不可能在计算机内部直接采用的,于是,;汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,如:由上面我们知道,“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B即为B1A3H,因此,“保”字的机内码就是B1A3H。
区位码1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
区位码是一个四位的十进制数,每个区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
ASCⅡ目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。
计算机编码知识区位码、国标码、机内码、输入码、字计算机编码知识--区位码、国标码、机内码、输入码、字形码2010年07月12日星期一1748在计算机中各种信息都是以二进制编码的形式存在的也就是说不管是文字、图形、声音、动画还是电影等各种信息在计算机中都是以0和1组成的二进制代码表示的计算机之所以能区别这些信息的不同是因为它们采用的编码规则不同。
比如同样是文字英文字母与汉字的编码规则就不同英文字母用的是单字节的ASCII码汉字采用的是双字节的汉字内码但随着需求的变化这两种编码有被统一的UNICODE码由Unicode协会开发的能表示几乎世界上所有书写语言的字符编码标准所取代的趋势当然图形、声音等的编码就更复杂多样了。
这也就告诉我们信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域。
1、字符英文包括字母、数字、标点、运算符等编码字符的编码采用国际通用的ASCII码American Standard Code for Information Interchange美国信息交换标准代码每个ASCII码以1个字节Byte储存从0到数字127代表不同的常用符号例如大写A的ASCII码是65小写a则是97。
由于ASCII码只用了字节的七个位最高位并不使用所以后来又将最高的一个位也编入这套编码码中成为八个位的延伸ASCIIExtendedASCII码这套内码加上了许多外文和表格等特殊符号成为目前常用的编码。
基本的ASCII字符集共有128个字符其中有96个可打印字符包括常用的字母、数字、标点符号等另外还有32个控制字符。
标准ASCII码使用7个二进位对字符进行编码对应的ISO标准为ISO646标准。
下表展示了基本ASCII字符集及其编码字母和数字的ASCII码的记忆是非常简单的。
我们只要记住了一个字母或数字的ASCII码例如记住A为650的ASCII码为48知道相应的大小写字母之间差32就可以推算出其余字母、数字的ASCII码。
即:中文内码之一,代表中文,在广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和),称为汉字的输入法,、五笔字型码、拼音码、、拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
区位码国标码机内码的转换公式
区位码、国标码和机内码是用于汉字编码的三种不同方式。
每种方式
都有相应的转换公式。
1. 区位码(QW Code):
区位码是按照笔画的先后顺序给每个汉字编码的方式。
汉字的区位码
由两个数字组成,前一个数字表示汉字所在的汉字区的编码,后一个数字
表示汉字在该区的顺序编码。
转换公式如下:
区位码=(区码-16)*94+位码+161
2. 国标码(GB Code):
国标码是按照笔画的先后顺序给每个汉字编码的方式,与区位码相似。
汉字的国标码由两个数字组成,前一个数字表示汉字所在的编码区的编码,后一个数字表示汉字在该区的顺序编码。
转换公式如下:
国标码=(区码-16)*94+位码+161
3. 机内码(Internal Code):
机内码是计算机内部使用的编码方式,与区位码和国标码不同,它用
一个整数表示一个汉字。
机内码的转换公式如下:
机内码=(区码+128)*256+位码
需要注意的是,上述公式中的区码和位码应该是指汉字的区位码或国
标码的区码和位码,而不是指ASCII码或Unicode码。
这些转换公式可以用于不同编码间的转换。
例如,如果已知一个汉字
的区位码,可以通过区位码的转换公式将其转换为国标码或机内码。
同样
地,如果已知一个汉字的国标码或机内码,也可以通过相应的公式将其转换为区位码或其他编码。
总结:区位码国标码和机内码是用于汉字编码的三种不同方式,每种方式都有相应的转换公式。
在转换时需要根据公式将一个编码方式的值转换为另一种编码方式的值。
汉字国标码,机内码和区位码的不同汉字是中华文化的瑰宝,是中华民族的文化符号。
在现代社会中,汉字的应用范围越来越广泛,汉字输入也成为人们日常生活中不可或缺的一部分。
汉字输入需要用到汉字国标码、机内码和区位码,这三种码制虽然都是用来表示汉字的,但它们之间存在着不同,下面我们就来一一探究。
一、汉字国标码汉字国标码是由国家标准化委员会制定的一种汉字编码体系,也称为GB码或GB2312码。
它是在1980年提出的,是我国第一个汉字编码标准,其编码范围包括了6763个常用汉字和682个生僻字,共计7445个汉字。
汉字国标码采用两字节表示一个汉字,每个字节的取值范围是0xA1~0xFE,共计94个字符,其中0xA1~0xA9和0xF7~0xFE 是用来表示第一字节的,0xA1~0xFE是用来表示第二字节的。
汉字国标码的优点是编码规范,兼容性好,适用范围广,能够兼容各种操作系统和软件程序,因此在汉字输入中得到了广泛应用。
但其缺点也比较明显,就是字符集太小,不支持繁体字和一些特殊符号。
二、机内码机内码是计算机内部使用的一种二进制编码体系,也称为ASCII 码。
它是由美国信息交换标准委员会在1963年制定的,其编码范围包括了128个字符,包括了英文字母、数字、标点符号和控制字符等。
机内码采用一个字节表示一个字符,每个字节的取值范围是0~127。
机内码的优点是编码简单,易于处理,因此在计算机内部得到广泛应用。
但其缺点也很明显,就是只支持英文字母等ASCII字符,不支持汉字和其他语言的字符。
三、区位码区位码是中国大陆地区常用的一种汉字编码体系,也称为GB码。
它是在1956年由中国科学院信息处理研究室提出的,是我国第一个汉字编码标准。
区位码采用一个字节表示一个汉字,其中第一个字节表示该汉字所在的区,第二个字节表示该汉字在该区的位置。
区号取值范围是0xA1~0xFE,共计94个区,每个区号包含了94个位置码,位置码取值范围也是0xA1~0xFE。
1.查一下国标码、区位码、汉字内码一样么?有什么区别?答:国家标准汉字交换码(国标码):我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。
在国标码的字符集中共收录了一级汉字3755个,二级汉字3008 个,图形符号682个,三项字符总计7445个。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。
国标码的范围是2121H—7E7EH。
区位码:国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码在国标GB2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。
区位码的前两位是它的区号,后两位是它的位号。
用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。
汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区3l位。
所有的汉字和符号所在的区分为以下四个组:(1)01区到15区。
图形符号区,其中01区到09区为标准符号区,10区到15区为自定义符号区。
01区到09区的具体内容如下;1)01区。
一般符号202个,如间隔符、标点、运算符、单位符号及制表符;2)02区。
简述汉字区位码、国标码和内码之间的关系汉字区位码、国标码和内码是汉字编码中重要的概念,它们之间有着密切的关系。
汉字区位码是一种按汉字笔画和位置编排的编码方式,它是早期汉字编码的一种常用方式。
汉字区位码的编码规则简单,但是由于其编码范围过于狭窄,存在着很多不足之处,比如无法表示异体字和繁体字等。
为了解决汉字区位码的不足,国家发布了《信息交换用汉字编码字符集》(GB2312),并提出了国标码。
国标码以汉字区位码为基础,加入了许多新的编码,极大地扩展了其编码范围。
国标码的编码方式相对简单,但是有许多汉字存在多种表示方式,会出现编码冲突的情况。
为了解决国标码的编码冲突问题,国家发布了《通用字符集》(GB18030),并提出了内码的概念。
内码是指在计算机内部表示汉字和字符的编码方式,它采用了多字节编码方式,可以表示全部的汉字和字符,同时还能支持Unicode编码。
内码的编码方式相对复杂,但是可以满足多种不同的需求。
综上所述,汉字区位码、国标码和内码是汉字编码中不可或缺的概念,它们之间的关系密切,相互依存,为汉字在计算机中的表示和使用提供了重要的支持。
- 1 -。
区位码、国标码、机内码⼀、区位码1980年,为了使每⼀个有⼀个全国统⼀的,我国颁布了第⼀个汉字编码的: GB2312-80《信息交换⽤汉字编码》基本集,这个字符集是我国中⽂信息处理技术的发展基础,也是⽬前国内所有汉字系统的统⼀标准。
是⼀个四位⼗六进制数,区位码是⼀个四位的⼗进制数,每个国标码或区位码都对应着⼀个唯⼀的汉字或符号,但因为⼗六进制数我们很少⽤到,所以⼤家常⽤的是区位码,它的前两位叫做区码,后两位叫做位码。
汉字库分布情况如下:⼀级汉字 16-55区⼆级汉字 56-87区三级汉字 1-9区空闲未⽤ 10-15区 通常,在DOS下的各中,同时按Alt键和F1键即可调⽤区位码输⼊⽅法。
⽽在Windows中常⽤Ctrl+空格键和Ctrl+Shift键调出区位码。
如“2901”代表“健”字,“4582”代表“万”字,“8150”代表“楮”字,这些都是汉字,⽤区位码还可以很轻松地输⼊特殊符号,⽐如,“0189”代表“※”(符号),“0528”代表“ゼ”(⽇本语),“0711”代表“Й”(俄⽂),“0949”代表“┭”(制表符)。
在区位码中,01-09区为特殊字符,10-55区为⼀级汉字(3755个最常⽤的汉字,按拼⾳字母的次序排列),56-87区为⼆级汉字(3008个汉字,按部⾸次序排列),在区位码汉字输⼊⽅法中,汉字编码⽆重码,在熟练掌握汉字的区位码后,录⼊汉字的速度是很快的,但若想记忆住全部区位码是相当困难的,常使⽤于录⼊特殊符号,如制表符、希腊字母等,这⾥简单介绍⼏个区。
区位码 - 部分国际区位编码 区号:01 【各类符号】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190100 、。
· ¯ ˇ ¨ 〃々 - ~‖ … ' ' " " 〔〕0120 〈〉《》「」『』〖〗【】 ± × ÷ ∶∧∨ ∑ ∏0140 ∪∩∈∷ √ ⊥∥∠⌒⊙∫∮≡≌≈∽∝ ≠ ≮≯0160 ≤ ≥ ∞ ∵∴♂♀ ° ′″℃$ ¤ ¢£ ‰ § № ☆★0180 ○●◎◇◆□■△▲※→←↑↓〓 区号:02 【各类数字】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190200 ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ⒈⒉⒊0220 ⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔⒕⒖⒗⒘⒙⒚⒛⑴⑵⑶0240 ⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀⒁⒂⒃⒄⒅⒆⒇①②③0260 ④⑤⑥⑦⑧⑨⑩⼀⼆三四五六七⼋九⼗0280 ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ 区号:03 【符号、字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190300 !"#¥%&'()*+,-./01230320 456789:;<=>?@ABCDEFG0340 HIJKLMNOPQRSTUVWXYZ[0360 \]^_`abcdefghijklmno0380 pqrstuvwxyz{|} ̄ 区号:06 【罗马字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190600 ΑΒΓ Δ ΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤ0620ΥΦΧΨΩαβγδεζη0640θικλ µ νξοπρστυφχψω0660 0680 区号:08 【汉语拼⾳】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190800 ā á ǎ à ē é ě è ī í ǐ ì ō ó ǒ ò ū ú ǔ0820 ù ǖǘǚǜ ü ê ㄅㄆㄇ0840 ㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙㄚㄛ0860 ㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ0880 区号:09 【制表字符】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190900 ─━│┃┄┅┆┈┉┉┊┋┌┍┎┏0920 ┐┑┒┓└┕┖┗┘┙┚┛├┝┞┟┠┡┢┣0940 ┤┥┦┧┨┩┪┫┬┭┮┯┰┱┲┳┴┵┶┷0960 ┸┹┺┻┼┽┾┿╀╁┃╃╄╅╆╇╈╉╊╋0980⼆、机外码机外码⽬前常⽤的机外码主要有区位码,国标码,⾸尾码,拼⾳码,五笔字型等三、国标码中国国家标准汉字信息交换码⼆、区位码、国标码、机内码汉字机内码,⼜称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加⼯和传输汉字时所⽤的由0和1符号组成的代码。
1.国家标准汉字代码体系汉字字数繁多,属性丰富,因而汉字代码体系也较复杂,包括:(1)汉字机内码。
它们是汉字在计算机汉字系统内部的表示方法,是计算机汉字系统的基础代码。
(2)汉字交换码。
它们是国标汉字(如机内码)进行信息交换的代码标准。
(3)汉字输入码。
它们是在计算机标准键盘上输入汉字用到的各种代码体系。
(4)汉字点阵码。
它们是在计算机屏幕上显示和在打印机上打印输出汉字的代码体系。
(5)汉字字形控制码。
为了打印各种风格的字体和字形所制定的代码。
这些代码系统有的必须有统一的国家标准,有的则不要求统一。
近年来我国已经制定系列汉字信息处理方面的国家标准,今后将继续完善,并与国际上求得统一。
2.国家标准汉字交换码(国标码)我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。
在国标码的字符集中共收录了一级汉字3755个,二级汉字3008 个,图形符号682个,三项字符总计7445个。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。
国标码的范围是2121H—7E7EH。
3、区位码:国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码在国标GB2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。
区位码的前两位是它的区号,后两位是它的位号。
用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。
汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区3l位。
所有的汉字和符号所在的区分为以下四个组:(1)01区到15区。
图形符号区,其中01区到09区为标准符号区,10区到15区为自定义符号区。
01区到09区的具体内容如下;1)01区。
一般符号202个,如间隔符、标点、运算符、单位符号及制表符;2)02区。
序号60个,如1.~20.、(1)~(20)、①~⑩及(一)~(十);3)03区。
数字22个,如0—9及X一XII,英文字母52个,其中大写A—Z、小写a—z各26个;4)04区。
日文平假名83个;5)05区。
日文片假名86个;6)06区。
希腊字母48个;7)07区。
俄文字母66个;8)08区。
汉语拼音符号a—z26个;9)09区。
汉语拼音字母37个。
(2)16区到55区。
一级常用汉字区,包括了3755个一统汉字。
这40个区中的汉字是按汉语拼音排序的,同音字按笔划顺序排序。
其中55区的90一94位未定义汉字。
(3)56区到87区。
二级汉字区,包括了3008个二级汉字,按部首排序。
(4)88区到94区。
自定义汉字区。
第10区到第15区的自定义符号区和第88区到第94区的自定义汉字区可由用户自行定义国标码中未定义的符号和汉字。
3. 国家标准汉字机内码(内码)汉字的机内码是指在计算机中表示一个汉字的编码。
机内码与区位码稍有区别。
如上所述,汉字区位码的区码和位码的取值均在1~94之间,如直接用区位码作为机内码,就会与基本ASCII码混淆。
为了避免机内码与基本ASCII码的冲突,需要避开基本ASCII码中的控制码(00H~1FH),还需与基本ASCII码中的字符相区别。
为了实现这两点,可以先在区码和位码分别加上20H,在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。
经过这些处理,用机内码表示一个汉字需要占两个字节,分别称为高位字节和低位字节,这两位字节的机内码按如下规则表示:高位字节=区码+20H+80H(或区码+A0H)低位字节=位码+20H+80H(或位码+AOH)由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。
例如,汉字“啊”的区位码为1601,区码和位码分别用十六进制表示即为1001H,它的机内码的高位字节为B0H,低位字节为A1H,机内码就是B0A1H。
4. 汉字的输入码在计算机标准键盘上,汉字的输入和西文的输入有很大的不同。
西文的输入,击一次键就直接输入了相应的字符或代码,“键入”和“输入”是同一个含义。
但是在计算机上进行汉字输入时,“键入”是指击键的动作即键盘操作的过程,而“输入”则是把所需的汉字或字符送到指定的地方,是键盘操作的目的。
目前已有多种汉字输入方法,因此就有多种汉字输入码。
汉字输入码是面向输入者的,使用不同的输入码其操作过程不同,但是得到的结果是一样的。
不管采用何种输入方法,所有输入的汉字都以机内码的形式存储在介质中,而在进行汉字传输时,又都以交换码的形式发送和接收。
国标GB2312—80规定的区位码和沿用多年的电报码都可以作为输入码。
这类汉字编码和输入码是一一对应的,具有标准的性质,它们编码用的字符是10个阿拉伯数字,每个汉字的码长均为等长的四个数码。
其他编码的种类很多,可从以下几点加以讨论:(2)编码类型。
可分为拼音码、字形码、音形结合码等类型。
(2)编码规则。
不同的编码方案有很大的不同,有的规则简单,学习起来较容易记忆,‘有的规则复杂,较难记亿。
(3)编码字符集。
有用字母键的,有用数字键的,有用字母键加数字键的,或者用了更多的键作编码字符集的。
(4)编码长度。
它与编码字符集的大小有关,字符集越大,编码长度越短。
采用26个字母的编码,其码长一般为四位。
(5)对应关系。
除上面提到的区位码和电报码为一一对应的无重码编码外,其他现有的编码方案均有一定数量的重码。
所谓重码即一码对应多字。
有许多编码为了增加输入的灵活性,同一汉字用多个码来对应,例如双音编码。
(6)单宁和词汇的编码。
现有的编码方案,为了提高效率,除了单字外还规定了词汇的编码,甚至使用者可以自行增加词汇库中的词汇,但在提高效率的同时也增加了记亿和操作的复杂性。
(7)码表的类型和大小。
从汉字输入码到机内码的转换一股需要在机内检索码表。
如果输入码和机内码存在简单的函数关系,有公式可以计算,如区位码等编码就不需要码表,其他没有简单函数关系的编码就需要码表。
码表大小与数据结构、单字数量、词汇数量等因素有关。
国标血2312—80规定的6763个一、二级汉字,备类编码的码表从几千字节到几万字节。
随着词汇旦的增加,有的码表达到了若干兆字节。
5. 汉字的点阵码汉字的显示和输出,普遍采用点阵方法。
由于汉字数量多且字形变化大,对不同字形汉字的输出,就有不同的点阵字形。
所谓汉字的点阵码,就是汉字点阵字形的代码。
存储在介质中的全部汉字的点阵码又称为字库。
.16x16点阵的汉字其点阵有16行,每一行上有16个点。
如果每一个点用一个二进制位来表示,则每一行有16个二进制位,需用两个字节来存放每一行上的16个点,并且规定其点阵中二进制位0为白点,1为黑点,这样一个16X16点阵的汉字需要用2×t6即32 个字节来存放。
依次类推,24×24点阵和32×32点阵的汉字则依次要用72个字节和128 个字节存放一个汉字,构成它在字库中的字模信息。
要显示或打印输出一个汉字时,计算机汉字系统根据该汉字的机内码找出其字模信息在字库中的位置,再取出其字模信息作为字形在屏幕上显示或在打印机上打印输出。
汉字机内码、国标码和区位码三者之间的关系:区位码(十进制)的两个字节分别转换为十六进制后加20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H 得到对应的机内码。
(1)区位码先转换成十六进制数表示(2)国标码=区位码的十六进制表示+2020H(3)机内码=国标码+8080H=区位码+A0A0H举例:以汉字“大”为例,“大”字的区内码为20831、区号为20,位号为832、将区位号2083转换为十六进制表示为1453H3、1453H+2020H=3473H,得到国标码3473H4、3473H+8080H=B4F3H,得到机内码为B4F3H。