当前位置:文档之家› 汉字编码

汉字编码

汉字编码
汉字编码

汉字编码

1.汉字的区位码由一个汉字的区号和位号组成,其区号和位号的范围各为______。

A、区号 1-95 ,位号 1-95

B、区号 1-94 ,位号 1-94

C、区号 0-94 ,位号 0-94

D、区号 0-95 ,位号 0-95

2.下列4个4位十进制数中,属于正确的汉字区位码的是______。

A、5601

B、9596

C、9678

D、8799

3.区位码输入法的最大优点是______。

A、一字一码,无重码

B、易记易用

C、只用数码输入,简单易用

D、编码有规律,

不易忘记

4.根据汉字国标GB2312-80的规定,一级常用汉字个数是_____。

A、3000个

B、7445个

C、3008个

D、3755个

5.在微型机中,普遍采用的字符编码是______。

A、BCD码

B、ASCII码

C、EBCD码

D、补码

6.一个汉字的内码码长为______。

A、8 bits

B、12 bits

C、16 bits

D、24 bits

7.根据国标GB2312-80的规定,总计有各类符号和一、二级汉字编码______。

A、7145个

B、7445个

C、3008个

D、3755个

8.根据汉字国标GB2312-80的规定,二级次常用汉字个数是____。

A、3000个

B、7445个

C、3008个

D、3755个

9.若已知一汉字的国标码是5E38H,则其内码是______。

A、DEB8H

B、DE38H

C、5EB8H

D、7E58H

10.显示或打印汉字时,系统使用的是汉字的______。

A、机内码

B、字形码

C、输入码

D、国标交换码

11.已知”装”字的拼音输入码是”zhuang”,而”大”的拼音输入码是”da”,则存储它们的内码分别需要的字节个数是______。

A、6,2

B、3,1

C、2,2

D、3,2

12.根据汉字国标码GB2312-80的规定,将汉字分为常用汉字和次常用汉字两级。次常用汉字按______排列。

A、偏旁部首

B、汉语拼音字母

C、笔划多少

D、使用频率多少

13.已经知汉字”中”的区位码是5448,则其国标码是______。

A、7468D

B、3630H

C、6862H

D、5650H

14.汉字国标码(GB2312-80)把汉字分成______等级。

A、简化字和繁体字两个

B、一级汉字,二级汉字,三级汉字共三个

C、一级汉字,二级汉字共二个

D、常用字,次常用字,罕见字三个

15.要存放10个24×24点阵的汉字字模,需要______存储空间。

A、72B

B、320B

C、720B

D、72KB

16.用16×16点阵来表示汉字的字型,存储一个汉字的字型需用______个字节。

A、16×1

B、16×2

C、16×3

D、16×4

17.一个汉字的国标码用2个字节存储,其每个字节的最高二进制位的值分别为______。

A、0,0

B、1,0

C、0,1

D、1,1

18.根据汉字国标码GB2312-80的规定,将汉字分为常用汉字(一级)和非常用汉字(二级)两级汉字。一级常用汉字按______排列。

A、偏旁部首

B、汉语拼音字母

C、笔划多少

D、使用频率多少

19.计算机对汉字进行处理和存储时使用汉字的______。

A、字形码

B、机内码

C、输入码

D、国标码

20.五笔字形码输入法属于______。

A、音码输入法

B、形码输入法

C、音形结合的输入法

D、联想输入法21.根据汉字国标码GB2312-80的规定,将汉字分为常用汉字(一级)和非常用汉字(二级)两级汉字。二级汉字按______排列。

A、偏旁部首笔画多少

B、汉语拼音字母

C、每个字的笔划多少

D、使用频率多少

22.要存放10个24×24点阵的汉字字模,需要______存储空间。

A、72B

B、320B

C、720B

D、72KB

23.一个24×24点的汉字字形码要用_____个字节存储它。

A、16

B、32

C、64

D、72

24.一个汉字的机内码与国标码之间的差别是______。

A、前者各字节的最高位二进制值各为 1,而后者为0

B、前者各字节的最高位二进制值各为 0,而后者为1

C、前者各字节的最高位二进制值各为 1、0,而后者为0、1

D、前者各字节的最高位二进制值各为 0、1,而后者为1、0

25.下列编码中,属于正确的汉字内码的是______。

A、5EF6H

B、FB67H

C、A3B3H

D、C97DH

26.存储一个汉字的机内码需2个字节。其前后两个字节的最高位二进制值依次分别是______。

A、1 和 1

B、1 和 0

C、0 和 1

D、0 和 0

27.一个汉字的机内码需用____字节存储。

A、4

B、3

C、2

D、1

28.一个汉字的机内码与它的国标码之间的差是______。

A、2020H

B、4040H

C、8080H

D、A0A0H

29.一个字长为5位的无符号二进制数能表示的十进制数值范围是______。

A、1~32

B、0~31

C、1~31

D、0~32

30.在一个非零无符号二进制整数之后去掉一个0,则此数的值为原数的______倍。

A、4

B、2

C、1/2

D、1/4

31.在一个非零无符号二进制整数之后添加一个0,则此数的值为原数的______倍。

A、4

B、2

C、1/2

D、1/4

32.下列两个二进制数进行算术加运算,10100+111=______。

A、10211

B、110011

C、11011

D、10011

33.一个字长为6位的无符号二进制数能表示的十进制数值范围是______。

A、0-64

B、1-64

C、1-63

D、0-63

34.十进制数141转换成无符号二进制数是______。

A、10011101

B、10001011

C、10001100

D、10001101

35.二进制数 101110 转换成等值的八进制数是______。

A、45

B、56

C、67

D、78

36.用8位二进制位能表示的最大的无符号整数等于十进制整数____。

A、128

B、256

C、255

D、127

37.下列两个二进制数进行算术运算,10000 - 101 = ______。

A、01011

B、1101

C、101

D、100

38.在不同进制的四个数中,最小的一个数是______。

A、11011001(二进制)

B、75(十进制)

C、37(八进制)

D、2A(十六进

制)

39.6位二进制数最大能表示的十进制整数是______。

A、64

B、63

C、32

D、31

40.二进制数101001转换成十进制数是______。

A、35

B、37

C、39

D、41

41.下列两个二进制数进行算术加运算,100001+111=____ 。

A、101110

B、101000

C、101010

D、100101

42.执行下列逻辑或运算01010100 V 10010011 其运算结果是____ 。

A、00010000

B、11010111

C、11100111

D、11000111

43.为了避免混淆,十六进制数在书写时常在后面加字母____ 。

A、H

B、O

C、D

D、B

44.下列关于汉字编码的说法中,错误的是____ 。

A、BIG5是通告于香港和台湾地区的繁体汉字编码

B、一个汉字的区位码就是它的国标码

C、无论两个汉字的笔画数目相差多大,但它们的机内码的长度都是相同的

D、同一个汉字用不同的输入法输入时,其输入码不同但它们的机内码是相同的

45.在进位计数制中,当某一位的值达到一个固定量时,就要向高位产生进位。这个固定量就是该种进位计数制的____ 。

A、阶码

B、尾数

C、原码

D、基数

46.设一具十进制数为D>1,转换成十六进制数为H。根据数制的概念,下列叙述中正确的是____ 。

A、H的位数大于等于D的位数

B、H的位数小于等于D的位数

C、H的位数小于D的位数

D、H的位数大于D的位数

47.已知a=00101010B和b=40D,下列关系式成立的是____ 。

A、a>b

B、a=b

C、a

D、不能比较

48.已知汉字”家”的区位码是2850。则其国标码是____ 。

A、4870D

B、3C52H

C、9CB2H

D、A8D0H

49.在标准ASCII码表中,英文字母a和A的码值之差的十进制是____ 。

A、20

B、32

C、-20

D、-32

50.下列各进制的整数中, ____ 表示的值最大。

A、十进制数11

B、八进制数11

C、十六进制数11

D、二进制数11

51.下列叙述中,正确的是____ 。

A、十进制数101的值大于二进制数1000001

B、所有十进制小数都能准确地转换为有限位的二进制小数

C、十进制数55的值小于八进制数66的值

D、二进制数的乘法规则比十进制的复杂

52.存储一个汉字的机内码需2个字节。其前后两个字节的最高位二进制依次是____ 。

A、1 和1

B、1和0

C、0和1

D、0和0

53.下列关于ASCII编码的叙述中,正确的是____ 。

A、一个字符的标准ASCII占一个字节,其最高二进制位总为1

B、所有大写英文字母的ASCII码值都小于英文字母”a”的ASCII码值

C、所有大写英文字母的ASCII码值都大于英文字母”a”的ASCII码值

D、标准ASCII码表有256个不同的字符编码

54.16个二进制位可表示的整数的范围是____ 。

A、0~65535

B、-32768~32767

C、-32768~32768

D、-32767~32767或0~65535

55.微机中采用的标准ASCII编码用____ 个位二进制数表示一个字符

A、6

B、7

C、8

D、16

56.已知”家”的区位码是2850,则其国标码是____ 。

A、4870D

B、3C52H

C、9CB2H

D、A8D0H

数制运算

57.下列两个二进制数进行算术运算,10000 - 111 = ______。

A、0111

B、1000

C、1001

D、1011

58.二进制数 1011011 转换成十进制数为______。

A、103

B、91

C、171

D、71

59.十进制数77转换成二进制数是______。

A、1001011

B、1000110

C、1001101

D、1011001

60.十进制数100转换成二进制数是_____。

A、0110101

B、01101000

C、01100100

D、01100110

61.二进制数 1011011 转换成十进制数为______。

A、103

B、91

C、171

D、71

62.二进制数110001转换成十进制数是_____。

A、48

B、47

C、50

D、49

63.十进制数55转换成二进制数是______。

A、0110101

B、0110110

C、0110111

D、0110011

64.十进制数113转换成二进制数是______。

A、1110001

B、1000111

C、1110000

D、10110000

65.十进制数 123 转换成二进制数为______。

A、1111011

B、111011

C、1001111

D、100111

66.十进制数215等于二进制数______。

A、11101011

B、11101010

C、11010111

D、11010110

67.十进制数56对应的二进制数是______。

A、00110111

B、00111001

C、00111000

D、00111010

68.十进制数215等于二进制数______。

A、11101011

B、11101010

C、11010111

D、11010110

69.二进制数1001001转换成十进制数是______。

A、72

B、71

C、75

D、73

70.十进制数121转换成二进制数是_____。

A、1111001

B、111001

C、1001111

D、100111

71.二进制数111001转换成十进制数是_____。

A、58

B、57

C、56

D、41

72.十进制数67转换成二进制数是______。

A、1000011

B、1100001

C、1000001

D、1100011

73.十进制数字64转换为二进制数为______。

A、1100000

B、1000000

C、1000001

D、1000010

74.二进制数1100100等于十进制数_____。

A、144

B、90

C、64

D、100

75.十进制数89转换成二进制数是_____。

A、1010111

B、1011001

C、1001101

D、1011000 76.二进制数110001转换成十进制数是______。

A、47

B、48

C、49

D、50

77.二进制数1001001转换成十进制数是______。

A、72

B、71

C、75

D、73

78.十进制数58转换成二进制数是______。

A、0110101

B、0110110

C、0111010

D、0110011 79.二进制数 101110 转换成等值的十六进制数是_____。

A、2C

B、2D

C、2E

D、2F

80.二进制数100100等于十进制数______。

A、144

B、36

C、64

D、100

81.十进制数91转换成二进制数是______。

A、1011101

B、10101101

C、1011011

D、1001101 82.二进制数111001转换成十进制数是______。

A、58

B、57

C、56

D、41

83.十进制数75等于二进制数______。

A、1001011

B、1010101

C、1001101

D、1000111 84.二进制数00111001转换成十进制数是______。

A、58

B、57

C、56

D、41

85.十进制数131转换成无符号二进制数是______。

A、01110101

B、10010011

C、10000111

D、10000011 86.十进制数91转换成二进制数是______。

A、1011011

B、10101101

C、10110101

D、1001101 87.无符号二进制整数10000001转换成十进制数是_____。

A、119

B、121

C、127

D、129

88.十进制数90转换成无符号二进制数是______。

A、1011010

B、1101010

C、1011110

D、1011100

89.十进制数111转换成二进制数是______。

A、1111001

B、01101111

C、01101110

D、011100001 90.二进制数 011111 转换为十进制整数是______。

A、64

B、63

C、32

D、31

91.十进制数 101 转换成二进制数是______。

A、01101001

B、01100101

C、01100111

D、01100110 92.十进制数99转换成二进制数是______。

A、01100011

B、01100010

C、01100100

D、01100111 93.二进制数101001转换成十进制数是______。

A、35

B、37

C、39

D、41

94.十进制数60转换成二进制数是______。

A、0111010

B、0111110

C、0111100

D、0111101 95.二进制数1111111111等于十进制数______。

A、511

B、512

C、1023

D、1024

汉字编码

编码定义 用预先规定的方法将文字、数字或其他对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。 编码是根据一定的协议或格式把模拟信息转换成比特流的过程。 在计算机硬件中,编码(coding)是在一个主题或单元上为数据存储,管理和分析的目的而转换信息为编码值(典型地如数字)的过程。在软件中,编码意味着逻辑地使用一个特定的语言如C或C++来执行一个程序。在密码学中,编码是指在编码或密码中写的行为。 将数据转换为代码或编码字符,并能译为原数据形式。是计算机书写指令的过程,程序设计中的一部分。在地图自动制图中,按一定规则用数字与字母表示地图内容的过程,通过编码,使计算机能识别地图的各地理要素。 n位二进制数可以组合成2的n次方个不同的信息,给每个信息规定一个具体码组,这种过程也叫编码。数字系统中常用的编码有两类,一类是二进制编码,另一类是二—十进制编码。 为什么要进行汉字编码 汉字编码Chinese character encoding为汉字设计的一种便于输入计算机的代码。由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题。汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。编码是关键。不解决这个问题,汉字就不能进入计算机。中国人本来是用一只手执笔杆,一笔一画写字的,现在却要统统改为用两只手十个指头击键写字。键符越过笔画,代表部件写字,在键盘上使用编码检出汉字,就是用编码写字,键盘就成为我们的笔杆了。这种以检字来使用汉字,提高信息交换速度,对中华民族的汉字来说,这是几千年来前所未有的一次翻天覆地的大变革。回顾汉字发展的历史,从甲骨文、金文、大篆、小篆、隶书,到现代汉字,它的变革,都只是笔势上的变革,而没有牵涉到它的结构。而这一次,却牵涉到它的结构——把汉字拆分为部件。因此,这次变革,不仅给我国人民将带来巨大的好处,还将使蒙辱一百多年的、背上“落后”黑锅的汉字,重新展现它的光辉。 途径 汉字进入计算机的三种途径分别为:

点阵LED显示原理与点阵汉字库的编码和从标准字库中提取汉字编码的方法

点阵LED显示原理与点阵汉字库的编码和从标准字库中提取汉字编码的方法。2009年06月03日下午 04:27 一.实验要求 编程实现中英文字符的显示。 二.实验目的 1.了解LED点阵显示的基本原理和实现方法。 2.掌握 三.实验电路及连线 点阵显示模块WTD3088的(红色)列输入线接至内部LED的阴极端,行输入线接至内部LED的阳极端(若阳极端输入为高电平,阴极端输入低电平,则该LED 点亮)。发光点的分布如图22-0所示。

Fig 22-0 WTD3088 LED分布 如图22-1示,本实验模块使用74LS374来控制列输入线的电平值。将74LS374的某输出置0,则对应的LED阴极端被置低。如图22-2示,本实验模块使用 74LS273来控制行输入线,并通过9013提供电流驱动。将74LS273的某输出置1,则对应的LED阳极端被置高。每次系统重新开启或总清后,74LS273输出为全0,LED显示被关闭。 通过编程控制各显示点对应LED阳极和阴极端的电平,就可以有效的控制各显示点的亮灭。 Fig 22-1 LED模块及列扫描电路

Fig 22-2 行扫描电路 Fig 22-3地址译码电路

本实验模块使用4块WTD3088组成16×16点阵,以满足汉字显示的要求。为了方便的控制四个单元,使用了一片74LS139译码,产生四个地址片选信号:CLKR1= CSLED,CLKR2= CSLED+1,用于行控制的两片74LS273;CLKC1= CSLED+2,CLKC2= CSLED+3,用于列控制的两片74LS374。 实验接线:按示例程序,模块的CSLED接51/96地址的8000H。 四.实验说明 使用高亮度LED发光管构成点阵,通过编程控制可以显示中英文字符、图形及视频动态图形。LED显示以其组构方式灵活、亮度高、技术成熟、成本低廉等特点在证券、运动场馆及各种室内/外显示场合得到广泛的应用。 所显示字符的点阵数据可以自行编写(即直接点阵画图),也可从标准字库(如ASC16、HZ16)中提取。后者需要正确掌握字库的编码方法和字符定位的计算。 实验盘片中“字符转换”子目录下提供的,可方便的将单个字符的码表从标准字库Asc16,Hzk16中提取出来。具体使用方法是运行上述可执行程序,根据提示输入所需字符(如是汉字还需要先启动dos下的汉字环境,如ucdos,pdos95等)。程序将该字符的码表提取出来,存放在该字符ASC或区位码为文件名称的.dat 文件中。用户只需将该文件中内容拷贝、粘贴到自己的程序中即可。但需要注意字节排列顺序、字节中每一位与具体显示点的一一对应关系,必要时还要对码表

汉字编码

汉字编码 上海市洋泾中学沈文艳 一、教学目标: 1.知识与技能: (1)理解汉字字形码、机内码及输入码的作用及特点 (2)了解计算机处理汉字的一般过程 2.过程与方法: (1)通过ViewChr软件观察汉字点阵图,探究汉字在屏幕上的显示方式,认识字形码。(2)通过WinHex软件观察汉字内码,探究汉字在计算机内部的存储方式,认识机内码。3.情感、态度与价值观: 通过简介我国科学家王选及汉字全息编码发明少年杜冰蟾的事例,弘扬爱国主义精神及民族自豪感,激发创新意识。认识取得成功必须要有坚韧不拔的毅力和科学严谨的治学态度。 二、教学重点难点 教学重点:汉字输入码、机内码及字形码的作用及特点 教学难点: (1)对汉字三种编码作用及相互关系的理解 (2)汉字字形码存储容量的计算方法。 三、教学过程:

《汉字编码》导学案 班级:姓名:学号: 【学习目标】 1.学习目标 (1)理解汉字字形码、机内码及输入码的作用及特点 (2)了解计算机处理汉字的一般过程 2.重点难点 (1)对汉字三种编码作用及相互关系的理解 (2)汉字字形码存储容量的计算方法。 【活动探究】 活动1:汉字在屏幕上是怎样显示的 步骤: (1)打开ViewChr软件,输入不同的汉字,观察汉字的显示方式, 通过观察,可以很容易地看出,每个汉字是通过一些点的组合来显示的。汉字中有笔画的部分,点是_____(有/无)颜色的,没笔画的部分,点是_____(有/无)颜色的。也就是说屏幕上的每个点既可以有颜色,也可以无颜色,所以,每个点在颜色的显示上最多有_____种状态。 (2)在ViewChr软件中输入汉字“上”,你能否根据软件的显示结果,在下面的16×16的方格图内用二进制数码来描述这个汉字 因为每一个点有两种颜色状态,又因为一个二进制位 可以表示_____种信息,所以,要表示图中的每一个点需要

信息交换用汉字编码字符集

〇信息交换用汉字编码字符集--基本集〈—即国家标准 GB2312-80 从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。 1980年颁布了〇信息交换用汉字编码字符集—基本集〈的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。以前我国大陆的各种中文DOS版本、Windows3.1 /3.2版本,装入的字库都是国标一二级字库。 〇GB2312-80〈对 7445 个图形字符作了二进制数编码,这些图形字符是: 6763 个汉字,字体为简化字,分成两级。第一级汉字 3755 个,按拼音排序,约占近代文献汉字累计使用频度 99.9% 左右;二级汉字 3008 个,按部首、笔画排序。一、二级汉字约占累计使用频度 99.99% 以上。 202 个一般符号。其中包括 1.~20.,(1)~(20),?~?,(-)~(+) 等。 22 个数字。其中 0~9 共 10 个,‥~‰ 共 12 个。 52 个拉丁字母。其中大写字母A~Z 26 个,小写字母a~z 26 个。 169 个日文假名。其中平假名 83 个,片假名 86 个。 48 个希腊字母。其中大写字母Α~Χ24 个,小写字母α~ω24 个。 66 个俄文字母。其中大写字母А~Я33 个,小写字母а~я 33 个。 26 个汉语拼音符号,包括带声调符号和其它符号的字母。 37 个汉语注音字母,?~ㄗ。 GB2312简体中文编码表 code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A1A0 、。? í ì ¨ 〃?—~‖ … ‘ ’ A1B0 “ ” 【】々〆〇〈〉《》「〒〓」『 A1C0 a ? ? ? ?  ̄ ? ? ? ? ‵ ? ? ? ? ※ A1D0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? A1E0 ? ? ? ? ? ? ? $¤ ??? § ? ? ? A1F0 ? ? ? ? ? ? ? ? ? ? ″ ? ′ ? 』 code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A2A0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ A2B0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

汉字编码原理

1、汉字编码原理 到底怎么办到随机生成汉字的呢?汉字从哪里来的呢?是不是有个后台数据表,其中存放了所需要的所有汉字,使用程序随机取出几个汉字组合就行了呢?使用后台数据库先将所有汉字存起来使用时随机取出,这也是一种办法,但是中文汉字有这么多,怎么来制作呢?其实可以不使用任何后台数据库,使用程序就能做到这一切。要知道如何生成汉字,就得先了解中文汉字的编码原理。 1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,简称GB2312,这个字符集是我国中文信息处理技术的发展基础,也是国内所有汉字系统的统一标准。到了后来又公布了国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,简称GB18030,编程时如果涉及到编码和本地化的朋友应该对GB18030很熟悉。这是是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,同时也是未来我国计算机系统必须遵循的基础性标准之一。 目前在中文WINDOWS操作系统中,.Net编程中默认的的代码页就是GB18030简体中文。但是事实上如果生成中文汉字验证码只须要使用GB2312字符集就已经足够了。字符集中除了我们平时大家都认识的汉字外,也包含了很多我们不认识平时也很少见到的汉字。如果生成中文汉字验证码中有很多我们不认识的汉字让我们输入,对于使用拼音输入法的朋友来说可不是好事,五笔使用者还能勉强根据汉字的长相打出来,呵呵!所以对于GB2312字符集中的汉字我们也不是全都要用。 中文汉字字符可以使用区位码来表示,见 汉字区位码表 https://www.doczj.com/doc/0f18135812.html,/resource/gb2312tbl. htm 汉字区位码代码表 https://www.doczj.com/doc/0f18135812.html,/resource/gb2312tbm.htm 如果链接不上可以搜一下汉字区码表. 其实这两个表是同一回事,只不过一个使用十六进制分区表示,一个使用区位所在的数字位置表示。例如“好”字的十六进制区位码是ba c3,前两位是区域,后两位代表位置,ba处在第26区,“好”处在此区汉字的第35位也就是c3位置,所以数字代码就是2635。这就是GB2312汉字区位原理。根据《汉字区位码表》我们可以发现第15区也就是AF区以前都没有汉字,只有少量符号,汉字都从第16区B0开始,这就是为什么GB2312字符集都是从16区开始的。 2、.Net程序处理汉字编码原理分析 在.Net中可以使用System.Text来处理所有语言的编码。在System.Text命名空间中包含众多编码的类,可供进行操作及转换。其中的Encoding类就是重点处理汉字编码的类。通过在.Net文档中查询Encoding类的方法我们可以发现所有和文字编码有关的都是字节数组,其中有两个很好用的方法: Encoding.GetBytes ()方法将指定的 String 或字符数组的全部或部分内容编码为字节数组 Encoding.GetString ()方法将指定字节数组解码为字符串。

国标(GB2312-80)汉字编码对照表

汉字编码简明对照表 说明: 1、下列汉字取自国标(GB 2312-80)中的分级与排列内容;包含所有的第一级汉字和第二级汉字中的常用部分。 2、第一级汉字(16—55区的汉字)以拼音字母为序进行排列,同音字以笔形顺序横、竖、撇、捺、折为序,起笔相同的按第二笔,依次类推;第二级汉字(56-87区的汉字)按部首为序进行排列。 3、对于多音字,仅在表中出现一次。如:柏,音(bai,bo),表中仅出现在“bai”中。 4、汉字区位码用阿拉伯数字表示,每个汉字对应4个数字。 5、本汉字代码表摘自《字符集和信息编码国家标准汇编》,(中国标准出版社,1998年编)。 a 啊 1601 阿 1602 吖 6325 嗄 6436 腌 7571 锕 7925 ai 埃 1603 挨 1604 哎 1605 唉 1606 哀 1607 皑 1608 癌 1609 蔼 1610 矮 1611 艾 1612 碍 1613 爱 1614 隘 1615 捱 6263 嗳 6440 嗌 6441 嫒 7040 瑷 7208 暧 7451 砹 7733 锿 7945 霭 8616 an 鞍 1616 氨 1617 安 1618 俺 1619 按 1620 暗 1621 岸 1622 胺 1623 案 1624 谙 5847 埯 5991 揞 6278 犴 6577 庵 6654 桉 7281 铵 7907 鹌 8038 黯 8786 ang 肮 1625 昂 1626 盎 1627 ao

凹 1628 敖 1629 熬 1630 翱 1631 袄 1632 傲 1633 奥 1634 懊 1635 澳 1636 坳 5974 拗 6254 嗷 6427 岙 6514 廒 6658 遨 6959 媪 7033 骜 7081 獒 7365 聱 8190 螯 8292 鏊 8643 鳌 8701 鏖 8773 ba 芭 1637 捌 1638 扒 1639 叭 1640 吧 1641 笆 1642 八 1643 疤 1644 巴 1645 拔 1646 跋 1647 靶 1648 把 1649 耙 1650 坝 1651 霸 1652 罢 1653 爸 1654 茇 6056 菝 6135 岜 6517 灞 6917 钯 7857 粑 8446 鲅 8649 魃 8741 bai 白 1655 柏 1656 百 1657 摆 1658 佰 1659 败 1660 拜 1661 稗 1662 捭 6267 呗 6334 掰 7494 ban 斑 1663 班 1664 搬 1665 扳 1666 般 1667 颁 1668 板 1669 版 1670 扮 1671 拌 1672 伴 1673 瓣 1674 半 1675 办 1676 绊 1677 阪 5870 坂 5964 钣 7851 瘢 8103 癍 8113 舨 8418 bang 邦 1678 帮 1679 梆 1680 榜 1681 膀 1682 绑 1683 棒 1684 磅 1685 蚌 1686 镑 1687 傍 1688 谤 1689 蒡 6182 浜 6826 bao 苞 1690 胞 1691 包 1692 褒 1693 剥 1694 薄 1701 雹 1702 保 1703 堡 1704 饱 1705 宝 1706 抱 1707 报 1708 暴 1709 豹 1710 鲍 1711 爆 1712 葆 6165 孢 7063 煲 7650 鸨 8017 褓 8157 趵 8532 龅 8621 bei 杯 1713 碑 1714 悲 1715 卑 1716 北 1717 辈 1718 背 1719 贝 1720 钡 1721 倍 1722 狈 1723 备 1724 惫 1725 焙 1726 被 1727 孛 5635 陂 5873 邶 5893 蓓 6177 悖 6703 碚 7753 鹎 8039 褙 8156 鐾 8645 鞴 8725 ben 奔 1728 苯 1729 本 1730 笨 1731 畚 5946 坌 5948 贲 7458 锛 7928 beng 崩 1732 绷 1733 甭 1734 泵 1735 蹦 1736 迸 1737 嘣 6452 甏 7420 bi

汉字的输入编码

汉字的输入编码、汉字内 码、字模码是计算机中用于输入、内部处理、输出三种不同. 用途的编码输入码、内码,字模码是计算机用于汉字输入,内部处理,输出三种不同用途的编码 (答题时间:100分钟) 第一卷 一、听力选择 A)回答问题(共6小题;每小题1分,满分6分) 1. A. That’s all right. B. All right C. That’s right. 2. A. Don’t worry about me. B. My computer doesn’t work. C. Yes, much better. Thank you. 3. A. Certainly, I won’t. B. Sure, here you are. C. The book is mine. 4. A. Yes, I’d like to. B. Thank you all the same. C. It’s very kind of you. 5. A. She likes us very much. B. She is tall and slim. C. We like her very much. 6. A. Good idea. B. You’re welcome. C. Yes, I think so. B)对话理解(共8小题;每小题1分,满分8分) 7. Which bus will the man take? A. No.66 B. No. 16 C. No. 56 8. When does this dialogue take place? A. In Miss Luo’s class. B. In a drawing class. C. After class. 9. What’s the time now? A. 7:20. B. 8:00. C. 8:40. 10. Why didn’t Kitty do anything in the sports meeting? A. She hurt her leg. B. She hurt her back. C. She hurt her hand. 11. When was Sandy born? A. September 30. B. September 29. C. October 1. 12. Where is Mary now? A. At home. B. In a hospital. C. At her sister’s 13. How does Daniel usually go to school? A. By bus. B. On foot. C. By underground. 14. How much does the man need to pay? A.3 yuan. B.2 yuan. C.6 yuan. C)短文理解(共5小题;每小题2分,满分10分) 15. When did Linda write to Rose? A. On November 13th. B. On November 23rd. C. On December 25th. 16. Where was Rose now? A. In Chicago. B. In New York. C. We don’t know. 17. When did Rose receive the letter? A. A few weeks ago. B. A few days ago. C. The day before. 18. Does Linda like New York very much now? A. Yes, she does. B. No, she doesn’t. C. We are not sure. 19. What does the letter really want to tell us about? A. Rose’s aunt will come for a visit at Christmas. B. Rose can’t join Linda for Christmas. C. Rose asks Linda to come to visit her some day. 二、选择填空(共24小题;每小题1分,满分24分) A) 单项填空 20. It is generous ________ Millie _________ each of us two presents. A. for, to give B. of , gives C. of , to give D. for, gives

unicode编码区对照表

unicode編碼區對照表 2150-218F Number Forms 數字形式 2190-21FF Arrows 箭頭符號 2200-22FF Mathematical Operators 數學運算符號 2300-23FF Miscellaneous Technical 混合專門符號 3000-303F CJK Symbols and Punctuation 中日韓符號和標點3040-309F Hiragana 平假名 30A0-30FF Katakana 片假名 3100-312F Bopomofo 注音符號 31C0-31EF CJK Strokes 中日韓筆畫部件 31F0-31FF Katakana Phonetic Extensions 片假名音標擴充3200-32FF Enclosed CJK Letters and Months 中日韓括號字母及月份 3300-33FF CJK Compatibility 中日韓相容字元 3400-4DBF CJK Unified Ideographs Extension A 中日韓統一表意文字擴充A 4DC0-4DFF Yijing Hexagram Symbols 易經六十四卦象 4E00-9FFF CJK Unified Ideographs 中日韓統一表意文字 其他。。。。

0000-007F Basic Latin 基本拉丁字母 0080-00FF Latin-1 Supplement 拉丁字母補充-1 0100-017F Latin Extended-A 拉丁字母擴充-A 0180-024F Latin Extended-B 拉丁字母擴充-B 0250-02AF IPA Extensions 國際音標擴充 02B0-02FF Spacing Modifier Letters 進格修飾字元 0300-036F Combining Diacritical Marks 組合音標附加符號0370-03FF Greek and Coptic 希臘字母 0400-04FF Cyrillic 西里爾字母 0500-052F Cyrillic Supplement 西里爾字母補充 0530-058F Armenian 亞美尼亞文 0590-05FF Hebrew 希伯來文 0600-06FF Arabic 基本阿拉伯文 0700-074F Syriac 敘利亞文 0750-077F Arabic Supplement 阿拉伯文補充 0780-07BF Thaana 塔納文 07C0-07FF N'Ko 0900-097F Devanagari 天城體梵文字母 0980-09FF Bengali 孟加拉文 0A00-0A7F Gurmukhi 古爾穆基文 0A80-0AFF Gujarati 古吉拉特文 0B00-0B7F Oriya 奧里亞文

《统一的中日韩汉字编码字符集》(CJK)字根系统研究

《统一的中日韩汉字编码字符集》(CJK)字根系统研究 《统一的中日韩汉字编码字符集》(CJK)作为新的汉字信息处理国际标准,使汉字信息处理向国际化方向迈出了重要的一步,对汉字字形的定量定性研究也提出了更高的要求。在此基础上,依靠计算机字形技术的支持,采用字根分解与合成的方法,有可能表示出CJK的全部字符从而实现其无字库化处理。因此,研究CJK字根系2统,对于CJK的工程应用具有重要作用。 中日韩汉字字形有别而音义互异,但都是可分析的文字,其基本构形单位都是笔画或字根,因此,字根分析法对其同样适用。本文认为,要得出一个较为科学的CJK字根系统,在理论和实践上必须着重解决两个问题,一个是笔画与字根的分野即单笔字根的问题,另一个就是字根变体的问题。本文主要分析了CJK的单笔字根和字根变体,并对统计得出的CJK676个字根的有关数据进行了系统的分析,希望能为CJK的相关研究提供参考。 一、CJK的单笔字根 (一)为什么要提出"单笔字根" 字根是汉字字符的直接构形成分,是可以独立运用的最小构形单位。一般说来,字根包含两个以上笔画,但当单一笔画与字根直接参与汉字字符构形时,这一笔画由于具备了字根的价值和功能而上升到字根层级,称为"单笔字根"。提出这一概念主要基于以下考虑: 1、汉字字符的构形成分中确实存在许多相对独立的单一笔画,归入邻近的任一字根都不合适,CJK中就有400多个字符包含这种笔画。如果说汉字字符都是由作为笔画组合体的字根构成的,显然不符合事实;如果说汉字字符是由字根与笔画组成的,固然也未尝不可,但这样就难以清晰地体现字符构形的层级性,故"单笔字根"的提出有其现实的必要性。 2、CJK字符集收入了"一丨丶丿乀乁乙乚乛亅"十个单笔画的字符,如果不引入"单笔字根"的概念,则这十个字符无法进行字根分析。 3、适当拆出字符中的单笔字根,可以大大简化字根系统。 (二)如何析出单笔字根 笔画与字根毕竟是不同层级的构形成分,因此单笔字根以尽量少析出为宜。我们在分析CJK单笔字根的过程中,主要采用了以下方法: 1、某一单笔画如果与字符中其它笔画处于相交或相接的关系,则不能析为单笔字根。如"子、孑、孓"都是由字根"了"与单笔画相交或相接而成,故不再析出单笔字根。 2、如果单笔画与字符中其它笔画均处于相离的关系,则根据以下情况处理: (1)对于点笔来说,若其与某一字根呈内聚之势,且作为整体具有构字能力,则合为一个字根,如"犬、太、刃、玉"等;反之,若作为整体无构字能力,则立点笔为单笔字根,如"乓"。这样处理可使字根系统的层级性得以体现,同时也照顾了通常的字根拆分习惯。 (2)如果某一单笔画用另一笔画或字根替换后成了另一字符,则只能析为单笔字根,如"糺"中的"乚"替换为"工"后成了另一字符"紅",因此"乚"为单笔字根。能用这种方法来判断的单笔字根在CJK单笔字根中约占24%。 (3)偏旁部首通常使用频率较高,一般作为整体进入字根系统,不再拆出单笔字根,如"纟"、"刂"、"寸"、"灬"等。 为简化字根系统,有时也需要作变通处理,如"示"中与第一横笔相邻的也不是分笔字根,但将其析出后,余部分无构字能力,为简化字根系统,"示"拆为"二、小",不涉及单笔字根问题。 (三)CJK的单笔字根统计 我们采用上述方法得出了CJK单笔字根的有关数据,详见下表: 如果把提归入横,捺归入点,竖钩归入竖,其它的归入折,则五种基本笔画在CJK中

汉字编码教案

课题存储单位的转换课型新授课课时1课时 学习目标知识与技能: 1、了解四种汉文字符编码。 2、掌握汉字国标码的编码规则,编码个数。 3、了解机内码、国标码、区位码的联系。 4、掌握字形码的点阵形式。 过程与方法: 通过教师讲解、小组讨论、巩固练习帮助学生掌握有关知识。情感态度与价值观: 1、通过推算ASCII的练习,培养学生严谨细致的品质。 2、培养学生灵活运用已学知识解决未知知识的创新能力。 重点熟练掌握ASCII的基础知识。难点灵活运用方法解决问题 教法复习归纳法讨论法练习法 项目导入复习: 1、ASCII码全称是______________________,它是一种____。 它采用____位编码。共___个。 2、ASCII码的组成是32个___________,10,52个__________ ,34个 __________ . 3、存储一个ASCII码需要____位,即____。 4、ASCII码的大小规律是___________ 5、一个大写字母的ASCII码比对应小写字母ASCII码___________。 引入:今天我们学习汉字编码。 5 分 钟 自主研修预习看幻灯片。回答问题。1、汉字编码有哪些? 2、GB2312-80全称的全称是什么。简单介绍一下它。 3、什么是输入码?你知道有哪些输入法? 4、什么是机内码? 5、什么是字形码?你会计算16×16点阵汉字需要的存储空间有多大。 6、区位码、机内码、国标码有什么联系? 15 分 钟 合作交流小组讨论回答问题 20 分 钟

检测反馈1、汉字编码有、______、______、______。 2、GB2312-80全称是________________,它是一种____。它 采用____位编码。共___个。 3、输入码也叫________,由组成。编码一般分为______和 ______。 4、存储一个汉字国标码需要____位,即____。每个字节最高 位是____。 存储一个汉字国标码需要____位,即____。每个字节最高位是 ____。 5、区位码是一个_____位______进制数。用一个______行和 ______列二维代码表示汉字。 6、机内码=________________ 7、国标码=________________ 10 分 钟 总体提升 作业1、已知汉字“大”的区位码为2083,则区号为________,位号为_______。 则国标码为________,机内码________。 2、汉字国标码采用_____字节编码,用于________。其中一级汉字按_______编码,二级汉字按_______编码。 3、存储10个16×16点阵的字形码需要的存储空间是________B。 4、存储点阵形式的汉字“一”和“我”所需要存储空间大小,“一” ______ “我”。(<、>、=) 5、输入法中没有重码的是_______。

国家标准信息技术汉字编码字符集基本集-全国信息技术标准化

《信息技术通用编码字符集(基本多文种平面)汉字15×16点阵字型》(征求意见稿)编制说明 一、工作简况 1、任务来源 随着信息技术的不断发展,中文信息技术产品所使用硬件设备得到提升,中文信息处理设备对点阵字型出现了新的需求,为了满足信息处理设备对15×16点阵的需求,国家标准化管理委员会在2015年第三批“制、修订国家标准项目计划”中安排了本标准的制定工作,计划代号为20153659-T-469,标准名称为《信息技术通用编码字符集(基本多文种平面)汉字15×16点阵字型》。 本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司等单位负责起草,标准主要起草人有代红、熊涛等。 2、主要工作过程 标准计划任务下达后,由中国电子技术标准化研究院牵头成立了标准编制组和专家组,并制定了详细的标准研究实施方案。中国电子技术标准化研究院主要负责字型设计、组织协调和标准文本起草,北京仓颉博雅信息技术有限公司负责字型设计,火箭军装备研究院第四研究所和潍坊北大青鸟华光照排有限公司负责字型纠错修改,专家组负责字型审查工作。 按照标准实施方案的要求,标准编制组于2016年6月底,分批提供了15×16点阵字型的设计初稿,并将字型设计初稿提供给字型专家审查,在设计点阵字型时对有疑问的字进行查证讨论,做到每个字的修改确定有据可查。根据字型专家提出的修改意见,标准编制组对字型设计初稿进行修改,于2017年7月底前完成了对字型设计初稿的修改整理。在对字型设计稿修改的同时,标准编制组还进行了标准文本的起草工作,2017年10月完成了标准草案。2017年11月标准草案提交中国电子技术标准化研究院进行标准专家内审,标准起草组根据标准内审专家提出的意见对草案进行修改,形成了标准的征求意见稿,现向各位征求意见。 3、标准编制的主要成员单位及其所做的工作 本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司、火箭军装备研究院第四研究所等单位负责起草。中国电子技术标准化研究院主要负责标准文本的起草、标准研究的组织协调,北京仓颉博雅信息技术有限公司负责

中文字符集、编码

前言
由于工作的需要,参考了好多资料整理出来一份计算机汉字处理报告,不敢独享,希 望与大家共享。Ziggler 现代计算机技术虽然先进, 但大多数人只知录入 GB-2313 字符集内的 6763 个简体汉字, 对包含 21003 个简繁体汉字的 GBK 字符集的文字录入、字体 显示就已不甚了解(市面上 绝大多数所谓的繁体字体,其实采用的是 GB2313 字符集简体字的编码,用字体显示为繁体 字,而不是直接用 GBK 字符集中繁体字 的编码,错误百出) 。而汉字总数至少有近 10 万 个,目前计算机能处理的,也有 70244 个,已非一般人所能知能用了。 由于汉字总数非常庞大。 汉字总共有多少字?到目前为止, 恐怕没人能够答得上来精确 的数字。据估计,汉字数量达到 11 万左右。 这里所说的七万多汉字, 是指 UNICODE 超大字集全部七万多中日韩汉字。 (注: Unicode 是指用两个字节表示每个字符的字符编码方案。 ) 那一般计算机能够显示多少个汉字呢?比如大陆这边普遍安装简体 Windows 系统,而 简体 windows 以宋体为系统字型,宋体支持 GBK 编码,所以能显示 20902 个汉字。 要显示 71564 个汉字, 可以采取多种方案, 如: 宋体-方正超大字符集+新细明体 EXTB、 宋体-方正超大字符集+中易宋体 EXTB、宋体 GB18030+新细明体 ExtB、宋体 18030+宋体 ExtB 等等。
中文字符集、编码
字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符 集是多个字符的集合,字符集 种类较多,每个字符集包含的字符个数不同。 计算机要准确的处理各种字符集文字, 需要进行字符编码, 以便计算机能够识别和存储 各种文字。 中文文字数目大, 而且还分为简体中文和繁体中文两种不同书写规则的文字, 而计算机 最初是按英语单字节字符设计的, 因此, 对中文字符进行编码, 是中文信息交流的技术基础。 以下是常见的一些字符集介绍,部分字符集中包括编码介绍。
GB2312 字符集
1.名称的由来 GB2312 又称为 GB2312-80 字符集,全称为《信息交换用汉字编码字符集·基本集》 ,由原中 国国家标准总局发布,1981 年 5 月 1 日实施。 2.特点 GB2312 是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖 99.75%的使用频率,

中文摩斯编码表

中文摩斯编码表 我把全部中文电报码给你发在下面,你最好打印下来.以便随时可以查阅: 、9977 。9975 .9978 .9992 .9993 —9994 —9995 (9991) ‘9984 ’9985 “9986 ”9987 《9996 》9997 ×9973 ×9999 ÷9974 □9998 Ⅰ9941 Ⅱ9942 Ⅲ9943 Ⅳ9944 Ⅴ9945 Ⅵ9946 Ⅶ9947 Ⅷ9948 Ⅸ9949 Ⅹ9950 !9982 (9988 )9989 +9971 ,9976 -9972 /9970 09960 19961 29962 39963 49964 59965 69966 79967 89968 99969 :9980 ;9979 =9983 ?9981 A9874 B9875 C9876 D9877 E9878 F9879 G9880 H9881 I9882 J9883 K9884 L9885 M9886 N9887 O9888 O9800 P9889 Q9890 R9891 S9892 T9893 U9894 V9895 W9896 X9897 Y9898 Z9899 Ω9959 А9768 Б9769 В9770 Г9771 Д9772 Е9773 Ж9774 З9775 И9776 Й9799 К9777 Л9778 М9779 Н9780 О9781 П9782 Р9783 С9784 Т9785 У9786 Ф9787 Х9788 Ц9789 Ч9790 Ш9791 Щ9792 Ъ9796 Ы9797 Ь9798 Э9793 Ю9794 Я9795 ㄅ9720 ㄆ9721 ㄇ9722 ㄈ9723 ㄉ9724 ㄊ9725 ㄋ9726 ㄌ9727 ㄍ9728 ㄎ9729 ㄏ9730 ㄐ9731 ㄑ9732 ㄒ9733 ㄓ9734 ㄔ9735 ㄕ9736 ㄖ9737 ㄗ9738 ㄘ9739 ㄙ9740 ㄚ9744 ㄛ9745 ㄜ9746 ㄝ9747 ㄞ9748 ㄟ9749 ㄠ9750 ㄡ9751 ㄢ9752 ㄣ9753 ㄤ9754 ㄥ9755 ㄦ9756 ㄧ9741 ㄨ9742 ㄩ9743 ━9990 啊0759 阿7093 埃1002 挨2179 哎0740 唉0780 哀0755 皑4114 癌4074 蔼5676 矮4253 艾5337 碍4293 爱1947 隘7137 鞍7254 氨8637 安1344 俺0219 按2174 暗2542 岸1489 胺5143 案2714 肮7542 昂2491 盎4138 凹0425 敖2407 熬3581 翱5063 袄5984 傲0277 奥1159 懊2020 澳3421 芭5359 捌2193 扒2091 叭0665 吧0721 笆4576 八9908 八9808 八0360 八9708 疤4002 巴1572 拔2149 跋6405 靶7249 把2116 耙5090 坝8218 坝1056 霸7218 霸6011 罢5007 爸3640 白4101 柏2672 百4102 摆2369 佰0184 败2408 拜2157 稗4458 斑2432 班3803 搬2289 扳2104 般5301 颁7317 板2647 版3652 扮2101 拌2142 伴0133 瓣3904 半0584 办6586 绊4810 邦6721 帮1620 梆2735 榜2831 膀5218 绑4834 棒2761 磅4319 蚌5732 镑6967 傍0266 谤6196 苞5383 胞5165 包0545 褒5988 剥0475 薄5631 雹7192 保0202 堡1027 饱7394 宝1405 抱2128 报1032 暴2552 豹6283 鲍7637 爆3915 爆3615 杯2637 碑4301 悲1896 卑0585 北0554 辈6543 背5154 贝6296 倍0223 狈3709 备0271 惫1994 焙3538 被5926 奔1149 苯0058 本2609 笨4570 崩1514 绷4855 甭8005 泵3119 蹦6498 迸6618 逼6656 鼻7865 比3024 鄙6766 笔4581 彼1764 碧4310 蓖5557 蔽5599 毕3968 毙2426 毖3025 币1578

汉字编码关系

输入码、区位码、国标码与机内码 我们知道,键盘是当前微机的主要输入设备,输入码就是使用英文键盘输入汉字时的编码。目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为码为“BAO”,用区位码,输入码为“1703”,用五笔字型则输入码为“WKS”。 计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集──基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码,如在二维代码表中处于17区第3位,区位码即为“1703 ”。(教材附页可找到) 国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码,相当于如果不转换的话,在两个字节上分别加上32即可。如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D->1103H->+20H->3123H。

国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保”字,国标码为31H和23H,而西文字符“1”和“#”的SCII也为31H和23H,现假如内存中有两个字节为31H和23H,这到底是一个汉字,还是两个西文字符“1”和“#”?于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,也就是如果国标码是16进制的,直接加上8080H即可。如:由上面我们知道,“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B 即为B1A3H,因此,“保”字的机内码就是B1A3H。显然,汉字机内码的每个字节都大于128,这就解决了与西文字符的ASCII码冲突的问题。 如上所述,汉字输入码、区位码、国标码与机内码都是汉字的编码形式,它们之间有着千丝万缕的联系,但其间的区别也是不容忽视的。 公式总结: 1.先将区位码的区号和位号分别转换为16进制 如“保”字区位码十进制1703转换成16进制形式1103H 2.区位码+ 2020H =国标码 3.国标码+ 8080H =机内码

Unicode汉字编码表

Unicode汉字编码表 1 Unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来 编码,看一下Unicode对汉字的编码:

------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯 4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿 4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏 4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也 4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯 4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿 4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏 4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟 4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯 4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿 4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏 4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟 4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯 4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿 4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏 4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟 4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

相关主题
文本预览
相关文档 最新文档