当前位置:文档之家› 2.3.2--汉字信息的编码与交换

2.3.2--汉字信息的编码与交换

第二讲

计算机信息数字化基础

?汉字信息的编码与交换

●字数多。共6万左右,需要的编码多。

●字形复杂。20画以上需要字模点阵多。

●同音字多。需要输入方法灵活。计算机对于汉字的处理实际上就是对各种汉字代码进行转换。

汉字的特点

?字符信息编码与标准交换

?西文字符的编码与标准交换?汉字信息的编码与交换?通用字符编码集UCS

汉字信息处理

?汉字信息的编码与交换

输入码

●zhong 中种终全拼●zh

中这找真智能拼音

●汉字输入码●汉字国标码●汉字机内码●汉字字形码

汉字编码

?汉字信息的编码与交换

国标码:也称汉字信息交换码,用区编码和位编码对汉字进行编码。国标码分为以下几类:●GB 2312-80●GB 12345-90●GBK编码

●GB 18030-2000●BIG5 编码

●汉字输入码●汉字国标码●汉字机内码●汉字字形码

汉字编码

汉字信息的编码与交换

编码21H ……………... 7EH

位码01D ……………… 94D

区码

01D

15D 16D

55D 56D

87D 88D

94D 15×94=1410 40×94=3760 32×94=3008 7×94=658

数字、图形符号、希腊

、俄日等字符(682个)

一级汉字(3755个),

按汉语拼音排列

二级汉字(3008个)

按部首排列

啊-区位码:1601D 国标码:3021H

?汉字信息的编码与交换

机内码:为了在计算机内部对汉字进行存储、处理的汉字代码。由2字节组成。内码用于计算机内部处理、存储和传输汉字。由国标码演化而来。

●汉字输入码●汉字国标码●汉字机内码●汉字字形码

汉字编码

?汉字信息的编码与交换

机内码编码

编码原则:码长短、有序且连续、与交换码对应中西文兼容

编码方式:多种,常用的是:将交换码的两个7位变为两个字节,两个字节的最高位为1汉字“啊”

●交换码3021H--00110000 00100001

●内码B0A1H--10110000 10100001

●汉字输入码●汉字国标码●汉字机内码●汉字字形码

汉字编码

?汉字信息的编码与交换

字形码:按汉字字形得到的编码,又称字模。有16?16点阵、24?24点阵等。字模保存在计算机字库中。当需要输出某个汉字时,找出该汉字的字模,输出设备按照字模进行输出。

精密型96×96 (1152B)

通用型汉字字模

简易型16×16(32B)普通型24×24(72B)

提高型32×32(128B)

●汉字输入码●汉字国标码●汉字机内码●汉字字形码

汉字编码

?汉字信息的编码与交换

精密型

96?96

1152

提高型32?32128普及型24?2472简易型16?1632汉字点阵类型点阵占用字节数

点阵数越高字型质量越好,但占用存储空间越大。

精密型汉字字形通常采用信息压缩存储技术。

●汉字输入码●汉字国标码●汉字机内码●汉字字形码

汉字编码

汉字信息的编码与交换

字形码示例十六位编码

0 0 0 0

1 F F8

1 F F8

0 1 8 0

0 1 8 0

0 1 8 0

0 F F0

0 F F0

0 1 8 0

0 1 8 0

0 1 8 0

0 1 8 0

0 1 8 0

7 F F E

7 F F E

0 0 0 0

字模=2BX16行=32B

汉字信息的编码与交换

汉字字形码与汉字库

汉字的字模保存在计算机里,称为字库。三种字库

汉字库:字模的集合

软字库:将字模信息存放在外存上硬字库:将字模信息固化在芯片上当需要输出某个汉字时,将该汉字的字模找出,输出设备按照字模进行输出。不同的字体和效果有不同的字库,如宋体、黑体、楷体等。

《信息的编码》复习资料

《信息的编码》复习资料 ①字符编码 计算机内的英文字符以二进制代码的形式来表示,国际普遍采用的是ASCII码,即美国国家信息交换标准码。标准的ASCII码用一个字节中的7个位来表示,可以表示128种编码,其中数字、字母是按顺序依次排列的。A:65 a:97 大小写相差:32 ASCII码在计算机中存储时只占1个字节,即存储一个(英文)字符需要1个字节 ②汉字编码 汉字在计算机内也是以二进制代码形式表示的,这些代码称为汉字编码。常用的有GB2312、GBK等。 汉字的编码有输入码(外码)、交换码(又称区位码)、处理码(内码)、字形码。区位码分成94个区,每区包含94个位,分别用1个字节标记区码和位码。 汉字输入码包括音码(全拼输入法)、形码(五笔输入法)、音形码(智能ABC)、形音码。 用UltraEdit工具软件观察内码时,ASCII码(英文字符)只占1个字节,汉字编码占2个字节。 ③多媒体信息编码 a、声音信号是通过采样和量化实现模拟量的数字化。采样频率越高,量化的分辨率越高,所得数字化声音的保真程度越好,但是它的数据量也越大。声音储存量=(采样频率*采样位数*声道数*时间)/8,其中的采样频率以HZ为单位,时间以S为单位!声道有单声道,双声道(立方声)! b、图像的基本单位是像素(pixel)。表示颜色种类越多,色彩越逼真,所需的储存空间也越大。 要求:能计算黑白图像、256级灰度图像、16色图像、256色图像、16位图像,24位图像的容量。 图像存储量=水平像素*垂直像素*每个像素色彩所需二进制位数/8(单位:字节) 图像的颜色数与每一个像素所占的二进制位数的关系:颜色数=2n(n表示每个像素所需的存储位数) 巩固练习: 1.有一种利用打孔光原理设计的建议身份识别卡:每张在规定位置上有一排打孔位,读卡器根据透光检测判断哪些孔位已打孔,哪些未打孔,从而识别出卡的编码。如果要设计一种供500人使用身份卡,则卡上的预定孔位至少需要( ) A.5个 B.7个 C.8个 D.9个 2.某班有38个学生,班主任在编排名册时候给每个学生安排了一个序号,范围是1-38号,假如现在用二进制给每个学生编排序号,至少需要用多少位二进制( ) A.5 B.6 C.7 D.8 3.按国际通用标准,“A lazy youth,a lousy age”在计算机内存储时采用的编码是( ) A.区位码 B.ASCII码 C.字形码 D.处理码 4.大写字母B的ASCII编码为1000010B,则大写字母A的编码是( ) A.1000010B B.1000001B C.1000100B D.1000101B 5.在使用“智能ABC”输入法输入汉字时采用的编码属( ) A.音码 B.音形码 C.形码 D.区位码 6.汉字点阵码是一种用黑白点阵来表示汉字字形的编码。一个8×8点阵字模的存储容量为( ) A.1字节 B.8字节 C.16字节 D.32字节 7.使用UltraEdit软件观察字符的内码,下列操作步骤顺序最合适的是( ) ①打开UltraEdit软件②选择“切换十六进制模式”快捷按钮③使用文本编辑器输入一些字符,生成文本文件④使用UltraEdit软件打开文本文件⑤观察所给字符的内码 A.①②③④⑤ B.①③②④⑤ C.③①④②⑤ D.③①②④⑤ 8.用UltraEdit软件观察内码,结果如下图所示: 若被观察的字符全部属于GB2312编码汉字,则图中内码表示的汉字( ) A.1个 B.2个 C.5个 D.10个

汉字编码

汉字编码 1.汉字的区位码由一个汉字的区号和位号组成,其区号和位号的范围各为______。 A、区号 1-95 ,位号 1-95 B、区号 1-94 ,位号 1-94 C、区号 0-94 ,位号 0-94 D、区号 0-95 ,位号 0-95 2.下列4个4位十进制数中,属于正确的汉字区位码的是______。 A、5601 B、9596 C、9678 D、8799 3.区位码输入法的最大优点是______。 A、一字一码,无重码 B、易记易用 C、只用数码输入,简单易用 D、编码有规律, 不易忘记 4.根据汉字国标GB2312-80的规定,一级常用汉字个数是_____。 A、3000个 B、7445个 C、3008个 D、3755个 5.在微型机中,普遍采用的字符编码是______。 A、BCD码 B、ASCII码 C、EBCD码 D、补码 6.一个汉字的内码码长为______。 A、8 bits B、12 bits C、16 bits D、24 bits 7.根据国标GB2312-80的规定,总计有各类符号和一、二级汉字编码______。 A、7145个 B、7445个 C、3008个 D、3755个 8.根据汉字国标GB2312-80的规定,二级次常用汉字个数是____。 A、3000个 B、7445个 C、3008个 D、3755个 9.若已知一汉字的国标码是5E38H,则其内码是______。 A、DEB8H B、DE38H C、5EB8H D、7E58H 10.显示或打印汉字时,系统使用的是汉字的______。 A、机内码 B、字形码 C、输入码 D、国标交换码 11.已知”装”字的拼音输入码是”zhuang”,而”大”的拼音输入码是”da”,则存储它们的内码分别需要的字节个数是______。 A、6,2 B、3,1 C、2,2 D、3,2 12.根据汉字国标码GB2312-80的规定,将汉字分为常用汉字和次常用汉字两级。次常用汉字按______排列。 A、偏旁部首 B、汉语拼音字母 C、笔划多少 D、使用频率多少 13.已经知汉字”中”的区位码是5448,则其国标码是______。 A、7468D B、3630H C、6862H D、5650H 14.汉字国标码(GB2312-80)把汉字分成______等级。 A、简化字和繁体字两个 B、一级汉字,二级汉字,三级汉字共三个 C、一级汉字,二级汉字共二个 D、常用字,次常用字,罕见字三个 15.要存放10个24×24点阵的汉字字模,需要______存储空间。 A、72B B、320B C、720B D、72KB 16.用16×16点阵来表示汉字的字型,存储一个汉字的字型需用______个字节。 A、16×1 B、16×2 C、16×3 D、16×4 17.一个汉字的国标码用2个字节存储,其每个字节的最高二进制位的值分别为______。 A、0,0 B、1,0 C、0,1 D、1,1 18.根据汉字国标码GB2312-80的规定,将汉字分为常用汉字(一级)和非常用汉字(二级)两级汉字。一级常用汉字按______排列。

信息交换用汉字编码字符集

〇信息交换用汉字编码字符集--基本集〈—即国家标准 GB2312-80 从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。 1980年颁布了〇信息交换用汉字编码字符集—基本集〈的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。以前我国大陆的各种中文DOS版本、Windows3.1 /3.2版本,装入的字库都是国标一二级字库。 〇GB2312-80〈对 7445 个图形字符作了二进制数编码,这些图形字符是: 6763 个汉字,字体为简化字,分成两级。第一级汉字 3755 个,按拼音排序,约占近代文献汉字累计使用频度 99.9% 左右;二级汉字 3008 个,按部首、笔画排序。一、二级汉字约占累计使用频度 99.99% 以上。 202 个一般符号。其中包括 1.~20.,(1)~(20),?~?,(-)~(+) 等。 22 个数字。其中 0~9 共 10 个,‥~‰ 共 12 个。 52 个拉丁字母。其中大写字母A~Z 26 个,小写字母a~z 26 个。 169 个日文假名。其中平假名 83 个,片假名 86 个。 48 个希腊字母。其中大写字母Α~Χ24 个,小写字母α~ω24 个。 66 个俄文字母。其中大写字母А~Я33 个,小写字母а~я 33 个。 26 个汉语拼音符号,包括带声调符号和其它符号的字母。 37 个汉语注音字母,?~ㄗ。 GB2312简体中文编码表 code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A1A0 、。? í ì ¨ 〃?—~‖ … ‘ ’ A1B0 “ ” 【】々〆〇〈〉《》「〒〓」『 A1C0 a ? ? ? ?  ̄ ? ? ? ? ‵ ? ? ? ? ※ A1D0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? A1E0 ? ? ? ? ? ? ? $¤ ??? § ? ? ? A1F0 ? ? ? ? ? ? ? ? ? ? ″ ? ′ ? 』 code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A2A0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ A2B0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

全国计算机一级考试汉字编码选择题复习

汉字编码选择题复习 、一个汉字的内码长度为个字节,其每个字节的最高二进制位的值依次分别是。) ) ) ) 【解析】国标码是汉字信息交换的标准编码,但因其前后字节的最高位为,与码发生冲突,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上,即将两个字节的最高位由改,其余位不变,因此机内码前后字节最高位都为。 、、一个汉字的×点阵字形码长度的字节数是。 ) ) ) ) 【解析】每个点阵用一个或代替,需要*个或,因为位为一字节,换算成字节就是*. 、根据汉字国标-的规定,一个汉字的内码码长为。 ) ) ) ) 【解析】一个汉字是两个字节,一字节是,所以就是。 、下列个位十进制数中,属于正确的汉字区位码的是。 ) ) ) ) 【解析】区位码:×阵列,区号范围:~,位号范围:~。 、存储个×点阵的汉字字形码需要的字节数是。 ) ) ) ) 【解析】在×的网格中描绘一个汉字,整个网格分为行列,每个小格用位二进制编码表示,每一行需要个二进制位,占个字节,行共占×=个字节。个需要×=字节。 、在计算机中,对汉字进行传输、处理和存储时使用汉字的。 )字形码 )国标码 )输入码)机内码 【解析】显示或打印汉字时使用汉字的字形码,在计算机内部时使用汉字的机内码。 、区位码输入法的最大优点是。 )只用数码输入,方法简单、容易记忆 )易记易用 )一字一码,无重码 )编码有规律,不易忘记 【解析】区位码输入是利用国标码作为汉字编码,每个国标码对应一个汉字或一个符号,没有重码。 、下列关于汉字编码的叙述中,错误的是。 )码是通行于香港和台湾地区的繁体汉字编码 )一个汉字的区位码就是它的国标码 )无论两个汉字的笔画数目相差多大,但它们的机内码的长度是相同的

GB2312GB_13000_GBKGB18030介绍讲解

1、GB231 2、GB 13000、GBK、GB18030 介绍 GB 2312:又称为GB 2312-80,是一个简体中文字符集的中国国家标准,于1980年由中国国家标准总局发布,1981年5月1日实施,全称为《信息交换用汉字编码字符集基本集》,规定了6763个汉字和682个非汉字图形。 GB 13000:为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。 制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。 GBK:随着信息技术在各行业应用的深入,GB 2312 收录汉字数量不足的缺点已经初步显露出来。例如:"镕"字现在是高频率使用字,而GB 2312 却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。1995年,全世界大多数的PC 操作系统都实现了16/32 位。GB 13000.1 的实现出现了一线曙光。一方面为了对GB 2312 进行扩充,一方面顺应当时技术的发展向GB 13000.1 推进,同时兼顾当时最广泛采用GB 2312 内码系统。原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK 。 在GBK的内码系统中,GB 2312 汉字所在码位保持不便,这样,保证了GBK 对GB 2312 的完全兼容。同时,GBK 内码与GB 13000.1 代码一一对应,为GBK 向GB 13000.1 的转换提供了解决办法。 微软对GB 2312 的扩展,也就是CP936 字码表(Code Page 936)的扩展(原来的CP936 和GB 2312-80 一模一样),最初出现于Windows 95 简体中文版中。 注意GBK 并非国家正式标准,只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK 收录了所有Unicode 1.1 及GB 13000.1-93 之中的汉字,但是编码方式与Unicode 1.1 及GB 13000.1-93 不同。仅仅是GB 2312 到GB 13000.1-93 之间的过渡方案。

常用字符集介绍和编码转换原理

常用字符集介绍和编码转换原理 目录 1. GB2312编码介绍 (2) 1.1 基本信息 (2) 1.2 GB标准 (2) 1.3 分区表示 (2) 1.4 字节结构 (2) 2. 通用字符集UCS (3) 2.1 定义 (3) 2.2 概要 (3) 2.3 实现级别 (3) 2.4 与UNICODE的兼容关系 (3) 3. unicode编码介绍 (3) 3.1 基本简介 (4) 3.2 编码实现 (4) 3.2.1 编码方式 (4) 3.2.2 实现方式 (5) 4. UTF-8介绍 (5) 4.1 基本介绍 (5) 4.2 编码原理 (5) 4. 转换原理 (7)

1. GB2312编码介绍 1.1 基本信息 1.2 GB标准 GB2312或GB2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。 GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。 GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。 对于人名、古汉语等方面出现的罕用字,GB2312不能处理,这导致了后来GBK及GB18030汉字字符集的出现。 1.3 分区表示 GB 2312中对所收汉字进行了―分区‖处理,每区含有94个汉字/符号。这种表示方式也称为区位码。 01-09区为特殊符号。 16-55区为一级汉字,按拼音排序。 56-87区为二级汉字,按部首/笔画排序。 10-15区及88-94区则未有编码。 举例来说,―啊‖字是GB2312之中的第一个汉字,它的区位码就是1601。 1.4 字节结构

12、国家标准信息交换汉字编码

12、国家标准信息交换汉字编码 所谓汉字编码,就是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。在此介绍的是《国家标准信息交换汉字编码》。这种编码经过加工整理一律以汉语拼音的字母为序,音节相同的字以使用频率为序,其查找方法与一般汉语字典的汉字拼音音节索引查找法相同。 (1)按音序查 常用汉字按音序几乎都可查到,例如:“白”字,首先,按其发音bai查在汉字编码表中的位置,然后在bai范围内查“白”字,找到“白”字后,其汉字右侧的数字1655就是“白”的汉字编码。 (2)关于多音字的查找 由于汉字编码是一种无重码的汉字编码,所以多音字只有一个编码。在查多音字时,如果用某个音查不到,可换另外的音去查。例如:重庆的“重”和重量的“重”,字同音不同,汉字“重”的编码是按Zhong音编码的。 a 啊1601 阿1602 吖6325 嗄6436 腌7571 锕7925 ai 埃1603 挨1604 哎1605 唉1606 哀1607 皑1608 癌1609 蔼1610 矮1611 艾1612 碍1613 爱1614 隘1615 捱6263 嗳6440 嗌6441 嫒7040 瑷7208 暧7451 砹7733 锿7945 霭8616 an 鞍1616 氨1617 安1618 俺1619 按1620 暗1621 岸1622 胺1623 案1624 谙5847 埯5991 揞6278 犴6577 庵6654 桉7281 铵7907 鹌8038 黯8786 ang 肮1625 昂1626 盎1627 ao 凹1628 敖1629 熬1630 翱1631 袄1632 傲1633 奥1634 懊1635 澳1636 坳5974 拗6254 嗷6427 岙6514 廒6658 遨6959 媪7033 骜7081 獒7365 聱8190 螯8292 鏊8643 鳌8701 鏖8773 ba 芭1637 捌1638 扒1639 叭1640 吧1641 笆1642 八1643 疤1644 巴1645 拔1646 跋1647 靶1648 把1649 耙1650 坝1651 霸1652 罢1653 爸1654 茇6056 菝6135 岜6517 灞6917 钯7857 粑8446 鲅8649 魃8741 bai 白1655 柏1656 百1657 摆1658 佰1659 败1660 拜1661 稗1662 捭6267 呗6334 掰7494 ban 斑1663 班1664 搬1665 扳1666 般1667 颁1668 板1669 版1670 扮1671 拌1672 伴1673 瓣1674 半1675 办1676 绊1677 阪5870 坂5964 钣7851 瘢8103 癍8113 舨8418 bang 邦1678 帮1679 梆1680 榜1681 膀1682 绑1683 棒1684 磅1685 蚌1686 镑1687 傍1688 谤1689 蒡6182 浜6826 bao 苞1690 胞1691 包1692 褒1693 剥1694 薄1701

汉字编码选择题复习

汉字编码选择题复习 1、一个汉字的内码长度为2个字节,其每个字节的最高二进制位的值依次分别是________。 A)0,0 B)0,1 C)1,0 D)1,1 【解析】国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII 码发生冲突,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,因此机内码前后字节最高位都为1。 2、、一个汉字的16×16点阵字形码长度的字节数是________。 A)16 B)24 C)32 D)40 【解析】每个点阵用一个0或1代替,需要16*16个0或1,因为8位为一字节,换算成字节就是16*16/8. 3、根据汉字国标GB2312-80的规定,一个汉字的内码码长为________。 A)8bit B)12bit C)16bit D)24bit 【解析】一个汉字是两个字节,一字节是8bit,所以就是16bit。 4、下列4个4位十进制数中,属于正确的汉字区位码的是________。 A)5601 B)9596 C)9678 D)8799 【解析】区位码:94×94阵列,区号范围:1~94,位号范围:1~94。 5、存储1024个24×24点阵的汉字字形码需要的字节数是________。 A)720B B)72KB C)7000B D)7200B 【解析】在24×24的网格中描绘一个汉字,整个网格分为24行24列,每个小格用1位二进制编码表示,每一行需要24个二进制位,占3个字节,24行共占24×3=72个字节。1024个需要1024×72=73728字节。 6、在计算机中,对汉字进行传输、处理和存储时使用汉字的________。 A)字形码 B)国标码 C)输入码D)机内码 【解析】显示或打印汉字时使用汉字的字形码,在计算机内部时使用汉字的机内码。 7、区位码输入法的最大优点是________。 A)只用数码输入,方法简单、容易记忆 B)易记易用 C)一字一码,无重码 D)编码有规律,不易忘记 【解析】区位码输入是利用国标码作为汉字编码,每个国标码对应一个汉字或一个符号,没有重码。 8、下列关于汉字编码的叙述中,错误的是________。 A)BIG5码是通行于香港和台湾地区的繁体汉字编码 B)一个汉字的区位码就是它的国标码 C)无论两个汉字的笔画数目相差多大,但它们的机内码的长度是相同的 D)同一汉字用不同的输入法输入时,其输入码不同但机内码却是相同的 【解析】当汉字的区位号都为十六进制数时,汉字的国标码=汉字的区位码+2020H。9、一个汉字的内码与它的国标码之间的差是________。 A)2020H B)4040H C)8080H D)A0A0H 【解析】汉字的内码=汉字的国标码+8080H。 10、在微型计算机内部,对汉字进行传输、处理和存储时使用汉字的________。 A)国标码 B)字形码 C)输入码D)机内码 【解析】显示或打印汉字时使用汉字的字形码,在计算机内部时使用汉字的机内码。 11、设已知一汉字的国标码是5E48H,则其内码应该是________。 A)DE48H B)DEC8H C)5EC8H D)7E68H 【解析】汉字的内码=汉字的国标码+8080H,此题内码=5E48H+8080H=DEC8H。 12、根据汉字国标码GB2312-80的规定,将汉字分为常用汉字和次常用汉字两级。次常用汉字的排列次序是按________。 A)偏旁部首 B)汉语拼音字母 C)笔划多少 D)使用频率多少 【解析】在国家汉字标准GB2312-80中,一级常用汉字按(汉语拼音)规律排列,二级次常用汉字按(偏旁部首)规律排列。 13、已知"装"字的拼音输入码是"zhuang",而"大"字的拼音输入码是"da",则存储它们内码分别需要的字节个数是________。 A)6,2 B)3,1 C)2,2 D)3,2 【解析】储存一个汉字内码需要用2个字节。 14、根据汉字国标码GB2312-80的规定,一级常用汉字数是________。 A)3477个 B)3575个 C)3755个 D)7445个 【解析】在国标码的字符集中,收集了一级汉字3755个,二级汉字3008个,图形符号682个。 15、根据汉字国标GB2312-80的规定,一个汉字的内码码长为________。 A)8bit B)12bit C)16bit D)24bit 【解析】一个汉字是两个字节,一字节是8bit,所以就是16bit。 16、王码五笔字型输入法属于________。 A)音码输入法 B)形码输入法 C)音形结合的输入法 D)联想输入法 【解析】形码:根据字形结构进行编码(五笔),音码:根据发音进行编码(全拼、双拼),音形码:以拼音为主,辅以字形字义进行编码(自然码)。 17、在标准ASCII码表中,已知英文字母K的十进制码值是75,英文字母k的十进制码值是________。 A)107 B)101 C)105 D)106 【解析】其中K和k的ASCII码二者相差20(十六进制),换算为十进制即相差32,k的ASCII码(用十进制表示)为:75+32=107。 18、一个汉字的内码长度为2个字节,其每个字节的最高二进制位的值依次分别是________。 A)0,0 B)0,1 C)1,0 D)1,1 【解析】汉字的内码=汉字的国标码+8080H,所以汉字内码的最高位为1。 19、下列编码中,属于正确的汉字内码的是________。 A)5EF6H B)FB67H C)A3B3H D)C97DH

国标(GB2312-80)汉字编码对照表

汉字编码简明对照表 说明: 1、下列汉字取自国标(GB 2312-80)中的分级与排列内容;包含所有的第一级汉字和第二级汉字中的常用部分。 2、第一级汉字(16—55区的汉字)以拼音字母为序进行排列,同音字以笔形顺序横、竖、撇、捺、折为序,起笔相同的按第二笔,依次类推;第二级汉字(56-87区的汉字)按部首为序进行排列。 3、对于多音字,仅在表中出现一次。如:柏,音(bai,bo),表中仅出现在“bai”中。 4、汉字区位码用阿拉伯数字表示,每个汉字对应4个数字。 5、本汉字代码表摘自《字符集和信息编码国家标准汇编》,(中国标准出版社,1998年编)。 a 啊 1601 阿 1602 吖 6325 嗄 6436 腌 7571 锕 7925 ai 埃 1603 挨 1604 哎 1605 唉 1606 哀 1607 皑 1608 癌 1609 蔼 1610 矮 1611 艾 1612 碍 1613 爱 1614 隘 1615 捱 6263 嗳 6440 嗌 6441 嫒 7040 瑷 7208 暧 7451 砹 7733 锿 7945 霭 8616 an 鞍 1616 氨 1617 安 1618 俺 1619 按 1620 暗 1621 岸 1622 胺 1623 案 1624 谙 5847 埯 5991 揞 6278 犴 6577 庵 6654 桉 7281 铵 7907 鹌 8038 黯 8786 ang 肮 1625 昂 1626 盎 1627 ao

凹 1628 敖 1629 熬 1630 翱 1631 袄 1632 傲 1633 奥 1634 懊 1635 澳 1636 坳 5974 拗 6254 嗷 6427 岙 6514 廒 6658 遨 6959 媪 7033 骜 7081 獒 7365 聱 8190 螯 8292 鏊 8643 鳌 8701 鏖 8773 ba 芭 1637 捌 1638 扒 1639 叭 1640 吧 1641 笆 1642 八 1643 疤 1644 巴 1645 拔 1646 跋 1647 靶 1648 把 1649 耙 1650 坝 1651 霸 1652 罢 1653 爸 1654 茇 6056 菝 6135 岜 6517 灞 6917 钯 7857 粑 8446 鲅 8649 魃 8741 bai 白 1655 柏 1656 百 1657 摆 1658 佰 1659 败 1660 拜 1661 稗 1662 捭 6267 呗 6334 掰 7494 ban 斑 1663 班 1664 搬 1665 扳 1666 般 1667 颁 1668 板 1669 版 1670 扮 1671 拌 1672 伴 1673 瓣 1674 半 1675 办 1676 绊 1677 阪 5870 坂 5964 钣 7851 瘢 8103 癍 8113 舨 8418 bang 邦 1678 帮 1679 梆 1680 榜 1681 膀 1682 绑 1683 棒 1684 磅 1685 蚌 1686 镑 1687 傍 1688 谤 1689 蒡 6182 浜 6826 bao 苞 1690 胞 1691 包 1692 褒 1693 剥 1694 薄 1701 雹 1702 保 1703 堡 1704 饱 1705 宝 1706 抱 1707 报 1708 暴 1709 豹 1710 鲍 1711 爆 1712 葆 6165 孢 7063 煲 7650 鸨 8017 褓 8157 趵 8532 龅 8621 bei 杯 1713 碑 1714 悲 1715 卑 1716 北 1717 辈 1718 背 1719 贝 1720 钡 1721 倍 1722 狈 1723 备 1724 惫 1725 焙 1726 被 1727 孛 5635 陂 5873 邶 5893 蓓 6177 悖 6703 碚 7753 鹎 8039 褙 8156 鐾 8645 鞴 8725 ben 奔 1728 苯 1729 本 1730 笨 1731 畚 5946 坌 5948 贲 7458 锛 7928 beng 崩 1732 绷 1733 甭 1734 泵 1735 蹦 1736 迸 1737 嘣 6452 甏 7420 bi

点阵LED显示原理与点阵汉字库的编码和从标准字库中提取汉字编码的方法

点阵LED显示原理与点阵汉字库的编码和从标准字库中提取汉字编码的方法。2009年06月03日下午 04:27 一.实验要求 编程实现中英文字符的显示。 二.实验目的 1.了解LED点阵显示的基本原理和实现方法。 2.掌握 三.实验电路及连线 点阵显示模块WTD3088的(红色)列输入线接至内部LED的阴极端,行输入线接至内部LED的阳极端(若阳极端输入为高电平,阴极端输入低电平,则该LED 点亮)。发光点的分布如图22-0所示。

Fig 22-0 WTD3088 LED分布 如图22-1示,本实验模块使用74LS374来控制列输入线的电平值。将74LS374的某输出置0,则对应的LED阴极端被置低。如图22-2示,本实验模块使用 74LS273来控制行输入线,并通过9013提供电流驱动。将74LS273的某输出置1,则对应的LED阳极端被置高。每次系统重新开启或总清后,74LS273输出为全0,LED显示被关闭。 通过编程控制各显示点对应LED阳极和阴极端的电平,就可以有效的控制各显示点的亮灭。 Fig 22-1 LED模块及列扫描电路

Fig 22-2 行扫描电路 Fig 22-3地址译码电路

本实验模块使用4块WTD3088组成16×16点阵,以满足汉字显示的要求。为了方便的控制四个单元,使用了一片74LS139译码,产生四个地址片选信号:CLKR1= CSLED,CLKR2= CSLED+1,用于行控制的两片74LS273;CLKC1= CSLED+2,CLKC2= CSLED+3,用于列控制的两片74LS374。 实验接线:按示例程序,模块的CSLED接51/96地址的8000H。 四.实验说明 使用高亮度LED发光管构成点阵,通过编程控制可以显示中英文字符、图形及视频动态图形。LED显示以其组构方式灵活、亮度高、技术成熟、成本低廉等特点在证券、运动场馆及各种室内/外显示场合得到广泛的应用。 所显示字符的点阵数据可以自行编写(即直接点阵画图),也可从标准字库(如ASC16、HZ16)中提取。后者需要正确掌握字库的编码方法和字符定位的计算。 实验盘片中“字符转换”子目录下提供的,可方便的将单个字符的码表从标准字库Asc16,Hzk16中提取出来。具体使用方法是运行上述可执行程序,根据提示输入所需字符(如是汉字还需要先启动dos下的汉字环境,如ucdos,pdos95等)。程序将该字符的码表提取出来,存放在该字符ASC或区位码为文件名称的.dat 文件中。用户只需将该文件中内容拷贝、粘贴到自己的程序中即可。但需要注意字节排列顺序、字节中每一位与具体显示点的一一对应关系,必要时还要对码表

全国计算机等级考试考试选择题(汉字的编码及解析)

1.一个汉字的内码长度为2个字节,其每个字节的最高二进制位的值依次分别是________。 A)0,0 B)0,1 C)1,0 D)1,1 2.存储一个32×32点的汉字字形码需用的字节数是________。 A)256 B)128 C)72 D)16 3. 根据汉字国标GB2312-80的规定,一个汉字的机内码的码长是________。 A)8bit B)12bit C)16bit D)24bit 4.下列4个4位十进制数中,属于正确的汉字区位码的是________。 A)5601 B)9596 C)9678 D)8799 5.存储1024个24×24点阵的汉字字形码需要的字节数是________。 A)720B B)72KB C)7000B D)7200B 6.在计算机中,对汉字进行传输、处理和存储时使用汉字的________。 A)字形码B)国标码 C)输入码D)机内码 7.存储一个48×48点的汉字字形码需要的字节数是________。 A)384 B)144 C)256 D)288 8.区位码输入法的最大优点是________。 A)只用数码输入,方法简单、容易记忆 B)易记易用 C)一字一码,无重码 D)编码有规律,不易忘记 9.下列关于汉字编码的叙述中,错误的是________。 A)BIG5码是通行于香港和台湾地区的繁体汉字编码 B)一个汉字的区位码就是它的国标码 C)无论两个汉字的笔画数目相差多大,但它们的机内码的长度是相同的 D)同一汉字用不同的输入法输入时,其输入码不同但机内码却是相同的 10.汉字的区位码由一个汉字的区号和位号组成。其区号和位号的范围各为________。 A)区号1~95,位号1~95 B)区号1~94,位号1~94 C)区号0~94,位号0~94 D)区号0~95,位号0~95 11.汉字的区位码是由一个汉字在国标码表中的行号(即区号)和列号(即位号)组成。正确的区号、位号的范围是________。 A)区号1~95,位号1~95

E-mail三种编码标准

E-mail传送中的三种编码标准 一、编码的必要性 E-mail只能传送ASCII码(美国国家标准信息交换码)格式的文字信息,ASCII码是7位代码,非ASCII码格式的文件在传送过程中就需要,先编成7位的ASCII代码,然后才能通过E-mail进行传送;如果不经过编码,则在传送过程中会因为ASCII码7位的限制而被分解,分解之后只会让收信方看到一堆杂乱的ASCII字符。经过编码后的文件,在传送过程中可顺利传送,不会有“被截掉一位”的危险。但是收信方必须具有相应的解码程序,将这份经过编码的东西还原,才能看到发信人要传送的信息是什么。 有一点要注意:大部分的人认为“文本文件不需要编码”,但我们的中文是属于8位代码的文字,并不是标准的ASCII码格式,由于在国内中文是通行的文字,所以大部分的邮件服务器都已能够处理GB内码的文件,因而不需要做这种编码/解码的操作,可以直接传送。但如果要送中文邮件到国外,就需要经过这种转换才能传送,因为国外的邮件服务器是无法辨认中文内码的。中文码在经过一些不支持中文内码的传递主机时,依然会被截掉一位,造成文件支离破碎无法读取。而经过编码的中文邮件,收信人收到后将文件解码还原,也需要有中文系统才能看所写的中文信息。 二、常见的三种编码标准 ●UU编码(Unix-to-Unix encoding) uuencode和uudecode原来是unix系统中使用的编码和解码程序,后来被改写成为在DOS中亦可执行的程序。在早期传送非ASCII码的文件时,最常用的便是这种UU 编码方式。 使用的方法是:发邮件前,在DOS下先用uuencod e exe程序将原文件编码成ASCII码文件,然后将邮件发出。收信人收到邮件后,用uudecode exe程序将文件还原。 基于Windows的类似程序有wincode和winzip等。wincode的使用原理和DOS 下的uuencode和uudecode没什么两样,只是在Windows的界面下操作更为简便。wincode除支持UU编码外也支持MIME、Binhex等编码格式,应用范围颇为广泛。 以上介绍的UU编码并非只能编中文文字。任何你要寄送的文件包括exe等二进制文件都可以按照编码→发送→收信方收信→解码还原的步骤传送。 ●MIME标准(Multipurpose Internet Mail Exte ntions) UU编码解决了E-mail只能传送ASCII文件的问题。但这种方式其实并不是很方便,因而又发展出一种新的编码标准,其全名是Multipurpose Internet Mail Exten tions,一般译作“多媒体邮件传送模式”。顾名思义,它可以传送多媒体文件,在一封电子邮件中附加各种格式文件一起送出。 MIME标准现已成为Internet电子邮件的主流。它的好处是以物件作为包装方式,可将多种不同文件一起打包后传送。发信人只要将要传送的文件选好,它在传送时即时编码,收信人的软件收到也是即时解码还原,完全自动化,非常方便。当然先决条件是双方的软件都必须具有这种功能,要不然发信人很方便地把信送出去了,但收信人的软件如果没有这种功能,无法把它还原,看到的也就是一大堆乱码了。使用这种方式,用户根本不需要知道它是如何编码/解码的。即使只是用文字写的信,一样是打好包便寄出。如果是要寄多媒体文件,只要做选文件的动作,选完后寄出,其余的工作由电子邮件软件自动完成。由于MIME的方便

信息编码和其在计算机中的运用

第2章信息编码及在计算机中的表示 2.1 信息的数字化编码 编码:是用来将信息从一种形式转变为另一种形式的符号系统,通常选用少量最简单的基本符号和一定的组合规则,以表示出大量复杂多样的信息。 信息的数字化编码:是指用“0”或“1”这种量最少、最简单的二进制数码,并选用一定的组合规则,来表示数据、文字、声音、图形和图像等各种复杂的信息。 计算机中采用的是二进制数码,为什么?(重点) 2.2 进位计数制及其相互转换 2.2.1 进位计数制 数制中的三个基本名词术语: 数码:用不同的数字符号来表示一种数制的 数值,这些数字符号称为“数码”。 基:数制所使用的数码个数称为“基”。 权:某数制各位所具有的值称为“权”。 1.十进制数(Decimal System) 数码:0、1、…… 8、9 基:10(逢十进一,借一当十) 权:以10为底的幂 任何一个十进制数DnDn-1…D1D0D-1…,可以表示成按权展开的多项式: Dn×10n+Dn-1×10n-1+…+D1×101+D0×100+D-1×10-1+…+D-m×10-m 例如:1234.5的按权展开多项为:1234.5=1×103+2×102+3×101+4×100+5×10-1 ⒉二进制数 二进制(Binary System) 数码: 0和1 基:2 权:以2为底的幂 任何一个二进制数BnBn-1…B1B0B-1…B-m,可以表示成按权展开的多项式: Bn×2n+Bn-1×2n-1+…+B1×21+B0×20+B-1×2-1+…+B(-m+1)×2-(m-1)+B-m ×2-m 例如: 1101.01的按权展开多项为: 1101.01=1×23+1×22+0×21+1×20+0×2-1+1×2-2 ⒊八进制数 八进制数(Octave System) 数码: 0、1、…… 6、7 基: 8 权:以8为底的幂

国家标准信息技术汉字编码字符集基本集-全国信息技术标准化

《信息技术通用编码字符集(基本多文种平面)汉字15×16点阵字型》(征求意见稿)编制说明 一、工作简况 1、任务来源 随着信息技术的不断发展,中文信息技术产品所使用硬件设备得到提升,中文信息处理设备对点阵字型出现了新的需求,为了满足信息处理设备对15×16点阵的需求,国家标准化管理委员会在2015年第三批“制、修订国家标准项目计划”中安排了本标准的制定工作,计划代号为20153659-T-469,标准名称为《信息技术通用编码字符集(基本多文种平面)汉字15×16点阵字型》。 本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司等单位负责起草,标准主要起草人有代红、熊涛等。 2、主要工作过程 标准计划任务下达后,由中国电子技术标准化研究院牵头成立了标准编制组和专家组,并制定了详细的标准研究实施方案。中国电子技术标准化研究院主要负责字型设计、组织协调和标准文本起草,北京仓颉博雅信息技术有限公司负责字型设计,火箭军装备研究院第四研究所和潍坊北大青鸟华光照排有限公司负责字型纠错修改,专家组负责字型审查工作。 按照标准实施方案的要求,标准编制组于2016年6月底,分批提供了15×16点阵字型的设计初稿,并将字型设计初稿提供给字型专家审查,在设计点阵字型时对有疑问的字进行查证讨论,做到每个字的修改确定有据可查。根据字型专家提出的修改意见,标准编制组对字型设计初稿进行修改,于2017年7月底前完成了对字型设计初稿的修改整理。在对字型设计稿修改的同时,标准编制组还进行了标准文本的起草工作,2017年10月完成了标准草案。2017年11月标准草案提交中国电子技术标准化研究院进行标准专家内审,标准起草组根据标准内审专家提出的意见对草案进行修改,形成了标准的征求意见稿,现向各位征求意见。 3、标准编制的主要成员单位及其所做的工作 本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司、火箭军装备研究院第四研究所等单位负责起草。中国电子技术标准化研究院主要负责标准文本的起草、标准研究的组织协调,北京仓颉博雅信息技术有限公司负责

汉字编码标准

4.1.2 汉字编码标准 为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。 一、国标码 国标码就是《信息交换用汉字编码字符集》(GB 2312-80) 为汉字规定的代码,在代码表中,纵向分为0-93 ,共94 行。横向也分为0-93 ,共94 列。行列均用7 位二进制表示,即一个汉字要用两个字节。也可用十六进制表示。国标码查表原则是先列后行,例如: 图 4.2 GB2312-80 代码表(局部) 国标码共收集7445 个,一级汉字3755 个, 按汉语拼音排序;二级汉字3008 个, 按部首笔画排序。 二、区位码 区位码是国标码的另外的一种表示形式。将行号称为区号,将列号称为位号,分别有94 个区,94 个位。区号和位号均用两位十进制的数表示,据此得出了区位码汉字输入法。 例:“ 啊” 的区位码是1601 ,表示啊字在第16 区,第 1 位,“ 保” 的区位码是1703 ,表示保字在第17 区,第 3 位。 三、机内码 机内码是在计算机内部使用的表示汉字的代码,用两字节二进制表示。(在国标

码每个字节前添 1 就是机内码,添 1 是为了确保与英文字符区分开)。 输入汉字→国标码( 区位码) →机内码→存储 转换关系:十六进制的区位码+ 2020H →国标码 十六进制的国标码+ 8080H →机内码 8080H 等于二进制的l000000010000000 ,国标码加上8080H ,可以保证机内码每个字节首位均为 1 。 例:“ 啊” 的区位码是:1601 转换成十六进制1001 1001 +2020=3021 (国标码) 再转换成机内码:3021+8080=B0A1 二进制表示为1011000010100001 (B0A1 ) 中山市港口理工学校计算机科温金辉

相关主题
文本预览
相关文档 最新文档