国标码和机内码
- 格式:docx
- 大小:15.52 KB
- 文档页数:2
十六进制汉字编码规则:国字对应的汉字机内码是B9FA。
因为机内码=国标码+8080H397A+8080=B9FA机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”(即为8080H),就变成汉字机内码。
国字对应的汉字机内码是B9FA。
因为机内码=国标码+8080H 397A+8080=B9FA 机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”(即为8080H),就变成...由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。
汉字区位码的区码和位码的取值均在1~94之间,如直接用...国字的十六进制编码为397A,其对应的汉字机内码是什么——国字对应的汉字机内码是B9FA。
因为机内码=国标码+8080H 397A+8080=B9FA 机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”(即为8080H),就变成...在电子计算机内关于汉字的机内码介绍? ——目前占主导地位的汉字机内码是将区码和位码分别加上数AOH作为机内码。
如“啊”字的区位码的十六进制表示为1001H,而“啊”字的机内码则为BOAIH。
这样汉字机内码的两个字节的最高位均为“1”,很容易与西文的ASCII码...汉字机内码为什么是16进制的呢——汉字机内码用16进制表示更方便,更直观:在计算机机器的内部实际上所有数据、代码,都使用的是2进制机器码。
为什么16进制表示起来方便,易懂,那就涉及比较难懂的专业的实际情况,又涉及比较抽象的数学理论。
二、...如果一汉字的机内码是(CEF3)H,那么它的国标码是十六进制的。
——(4E73)H。
计算机编码知识区位码、国标码、机内码、输入码、字计算机编码知识--区位码、国标码、机内码、输入码、字形码2010年07月12日星期一1748在计算机中各种信息都是以二进制编码的形式存在的也就是说不管是文字、图形、声音、动画还是电影等各种信息在计算机中都是以0和1组成的二进制代码表示的计算机之所以能区别这些信息的不同是因为它们采用的编码规则不同。
比如同样是文字英文字母与汉字的编码规则就不同英文字母用的是单字节的ASCII码汉字采用的是双字节的汉字内码但随着需求的变化这两种编码有被统一的UNICODE码由Unicode协会开发的能表示几乎世界上所有书写语言的字符编码标准所取代的趋势当然图形、声音等的编码就更复杂多样了。
这也就告诉我们信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域。
1、字符英文包括字母、数字、标点、运算符等编码字符的编码采用国际通用的ASCII码American Standard Code for Information Interchange美国信息交换标准代码每个ASCII码以1个字节Byte储存从0到数字127代表不同的常用符号例如大写A的ASCII码是65小写a则是97。
由于ASCII码只用了字节的七个位最高位并不使用所以后来又将最高的一个位也编入这套编码码中成为八个位的延伸ASCIIExtendedASCII码这套内码加上了许多外文和表格等特殊符号成为目前常用的编码。
基本的ASCII字符集共有128个字符其中有96个可打印字符包括常用的字母、数字、标点符号等另外还有32个控制字符。
标准ASCII码使用7个二进位对字符进行编码对应的ISO标准为ISO646标准。
下表展示了基本ASCII字符集及其编码字母和数字的ASCII码的记忆是非常简单的。
我们只要记住了一个字母或数字的ASCII码例如记住A为650的ASCII码为48知道相应的大小写字母之间差32就可以推算出其余字母、数字的ASCII码。
汉字国标码 (gb2312-80) 规定的汉字编码,每个汉字用概念汉字国标码 (gb2312-80) 规定的汉字编码,每个汉字用 2为每个汉字编上唯一的代码,方便计算机识别与处理。
2. 国标码1980年,我国颁布了汉字编码的标准:GB2312-80《信息交换汉字编码字符集》,简称国标码。
国标码是4位十六进制数组成。
3. 区位码GB2312是一种汉字编码方式,具体由区位码实现,GB2312将所有汉字编入一个94*94的二维表中,行和列共同定位一个字,行就是“区”,列就是“位”,合并就为区内码。
区位码是一组4位十进制的数,前两位是区码,后两位是位码。
例如:譬如“万” 字在 45 区 82 位, 所以“万” 字的区位码是: 4582.00-09 区(682个): 是符号、数字、英文字符...制表符等;10-15 区: 空白, 留待扩展;16-55 区(3755个): 常用汉字(也有叫一级汉字), 按拼音排序;56-87 区(3008个): 非常用汉字(也有叫二级汉字), 这是按部首排序的;88-94 区: 空白, 留待扩展4. 机内码机内码是微软为了解决汉字编码与ASCLL编码冲突。
从而规定把每个字节的最高位都从 0 换成 1(这之前它们都是 0),或者说把每个字节(区和位)都再加上 80H(128的十六进制表示),从而得到“机内码”,简称"内码"。
关系与转换1.三者的关系国标码 = 区位码 + 2020H;机内码 = 国标码 +8080H;2020H解释因为ASCLL码中分为控制型编码和有形字符编码,前32位是控制码(如回车,退格等),沿用前32个,覆盖后面的。
故国标码规定在区位码的基础上每个字节分别加上20H(32的十六进制表示)。
8080H解释为避免与ASCLL编码冲突,从而规定把每个字节的最高位都从0 换成 1(这之前它们都是 0),或者说把每个字节(区和位)都再加上 80H(128的十六进制表示)。
即GB国标码:中文内码之一,代表中文简化字,在中国大陆广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一字节0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而ASCII码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和字形码),称为汉字的输入法,区位码、五笔字型码、拼音码、智能ABC、微软拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
一个汉字的国标码需用2字节存储,其
如果是一个汉字的内码需用2个字节存储,其每个字节的最高二进制
位的值就为1.1。
国标码是汉字编码的标准,而不是存储的标准。
就国标码的编码而言,其前后字节的最高位均为0。
汉字的存储,使用的是机内码。
国标码是汉字信息交换的标准编码,
但因其前后字节的最高位为0,与ASCII码发生冲突,于是,汉字的机内
码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即
将两个字节的最高位由0改1,其余7位不变,因此机内码前后字节最高
位都为1。
扩展资料:
因为汉字处理系统要保证中西文的兼容,当系统中同时存在ASCII码
和汉字国标码时,将会产生二义性。
例如:有两个字节的内容为30H和
21H,它既可表示汉字“啊”的国标码,又可表示西文“0”和“!”的ASCII码。
为此,汉字机内码应对国标码加以适当处理和变换。
国标码的机内码为二字节长的代码,它是在相应国标码的每个字节最
高位上加“1”,即
汉字机内码=汉字国标码+8080H
例如,上述“啊”字的国标码是3021H,其汉字机内码则是B0A1H。
汉字机内码的基础是汉字国标码。
汉字的编码1.汉字信息的交换码汉字信息交换码简称交换码,也叫国标码。
规定了7 445个字符编码,其中有682个非汉字图形符和6763个汉字的代码。
有一级常用字3 755个,二级常用字3 008个。
两个字节存储一个国标码。
国标码的编码范围是2121 H一7E7EH。
区位码和国标码之间的转换方法是将一个汉字的十进制区号和十进制位号分别转换成十六进制数,然后再分别加上20H,就成为此汉字的国标码:汉字国标码=区号(十六进制数)+20H位号(十六进制数)+ 20H而得到汉字的国标码之后,我们就可以使用以下公式计算汉字的机内码:汉字机内码=汉字国标码+8080H2.汉字偷入码汉字输人码也叫外码,都是由键盘上的字符和数字组成的。
目前流行的编码方案有全拼输人法、双拼输入法、自然码输人法和五笔输人法等。
3.汉字内码汉字内码是在计算机内部对汉字进行存储、处理的汉字代码,它应能满足存储、处理和传输的要求。
一个汉字输人计算机后就转换为内码。
内码需要两个字节存储,每个字节以最高位置‘1”作为内码的标识。
4.汉字字型码汉字字型码也叫字模或汉字输出码。
在计算机中,8个二进制位组成一个字节,它是度量空间的基本单可见一个16 x 16点阵的字型码需要16 x 16/8=32字节存储空间。
汉字字型通常分为通用型和精密型两类。
5.汉字地址码汉字地址码是指汉字库中存储汉字字型信息的逻辑地址码。
它与汉字内码有着简单的对应关系,以简化内码到地址码的转换。
6.各种汉字代码之间的关系汉字的输人、处理和输出的过程,实际上是汉字的各种代码之间的转换过程。
如图1- 1表示了这些汉字代码在汉字信息处理系统中的位置及它们之间的关系.。
国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,;这样就得了一个与国标码有一个相对位置差的代码,;再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。
如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D->1103H->+20H->3123H。
输入码、区位码、国标码与机内码国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码。
GB2312 80中共有7445个字符符号:汉字符号6763个一级汉字3755个(按汉语拼音字母顺序排列)二级汉字3008个(按部首笔划顺序排列)非汉字符号682个GB2312 80规定,我们知道,键盘是当前微机的主要输入设备,;输入码就是使用英文键盘输入汉字时的编码。
目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为码为“BAO”,用区位码,输入码为“1703”,用五笔字型则为“WKS”。
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。
汉字交换码(国标码)主要用于汉字信息交换,我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),;所有的国标码汉字及符号组成一个94行94列的二维代码表中。
在此方阵中,每一行称为一个"区",每一列称为一个"位"。
这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。
汉字信息的编码知识1.汉字的编码(1)国标码:是指我国1980年公布的“信息交换汉字编码字符集”,代号为“GB2312-80”。
由连续的两个字节组成。
(2)机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码。
(3)输入码:汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
(4)字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。
目的是为了能显示和打印汉字。
编码的转换举例汉字区位码 16进制国标码机内码文4636 2E24H 4E44H CEC4H“文”的区位码为4636,区码和位码分别用16进制表示即为“2E24H”,0010 1110 0010 0100转换成国标码“4E44H”,0100 1110 0100 0100机内码为“CEC4H”, 1100 1110 1100 01002.汉字的输入方法汉字输入方法目前有两大类四种。
(1)键盘输入法。
这是最常用的,利用各种汉字输入方法的编码敲击键盘来输入汉字;(2)非键盘输入法。
目前主要有三种方法。
手写笔输入法:利用汉字识别技术,通过书写笔在感应板上书写汉字把其输入的方法。
语音输入法:利用语音识别技术,通过口说来输入汉字。
扫描识别输入,是将印或写在纸上的汉字通过扫描仪输入计算机,再经相应软件处理后转换成汉字机内码。
3.汉字字符集的概念有两种汉字字符集。
(1)国标码字符集GB2312-80:该字符集收录了6763个常用汉字,其中一级汉字3755个,二级汉字3008个。
另外还收录了各种符号682个,合计7445个。
(2)GBK汉字集:GBK即汉字扩充内码规范,又称大字符集,一共收录了20900个汉字。
在Windows简体中文版中,又增加了101个补充字,一共有21001个字。
它包容了GB2312-80的6763个常用汉字,台湾BIG5码收录了13000多个汉字,是目前见到的收录汉字最多的汉字系统。
输入码、区位码、国标码与机内码
国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》(代号为
GB2312 80)规定的汉字交换码作为国家标准汉字编码。 GB2312 80中共有7445
个字符符号: 汉字符号6763个 一级汉字3755个(按汉语拼音字母顺序排列)
二级汉字3008个(按部首笔划顺序排列) 非汉字符号682个 GB2312 80规定,
我们知道,键盘是当前微机的主要输入设备,;输入码就是使用英文键盘输入汉
字时的编码。目前,我国已推出的输入码有数百种,但用户使用较多的约为十几
种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,
如“保”字,用全拼,输入码为码为“BAO”,用区位码,输入码为“1703”,
用五笔字型则为“WKS”。
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,
汉字信息处理也必须有一个统一的标准编码。 汉字交换码(国标码)主要用于
汉字信息交换,我国国家标准局于1981年5月颁布了《信息交换用汉字编码字
符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进
行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),;
所有的国标码汉字及符号组成一个94行94列的二维代码表中。在此方阵中,每
一行称为一个"区",每一列称为一个"位"。这个方阵实际上组成一个有94个区
(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。每两
个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,
此即区位码,其中,高两位为区号,低两位为位号。这样区位码可以唯一地确定
某一汉字或字符;反之,任何一个汉字或符号都对应一个唯一的区位码,没有重
码。如“保”字在二维代码表中处于17区第3位,区位码即为“1703 ”。
国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将
十进制区码和位码转换为十六进制的区码和位码,;这样就得了一个与国标码有
一个相对位置差的代码,;再将这个代码的第一个字节和第二个字节分别加上
20H,就得到国标码。如:“保”字的国标码为3123H,它是经过下面的转换
得到的:1703D->1103H->+20H->3123H。
国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII
码发生冲突,如“保”字,国标码为31H和23H,而西文字符“1”和“#”的
SCII也为31H和23H,现假如内存中有两个字节为31H和23H,;这到底是一个
汉字,还是两个西文字符“1”;和“#”?于是就出现了二义性,显然,国标码
是不可能在计算机内部直接采用的,于是,;汉字的机内码采用变形国标码,其
变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,
其余7位不变,如:由上面我们知道,“保”字的国标码为3123H,前字节为
00110001B,后字节为00100011B,高位改1为10110001B和10100011B 即为B1A3H,
因此,字的机内码就是B1A3H;。
显然,汉字机内码的每个字节都大于128,这就解决了与西文字符的ASCII
码冲突的问题。
如上所述,汉字输入码、区位码、;国标码与机内码都是汉字的编码形式,
它们之间有着千丝万缕的联系,但其间的区别也是不容忽视的。