西文字符编码与汉字编码共18页
- 格式:ppt
- 大小:1.92 MB
- 文档页数:18
输入码、区位码、国标码与机内码我们知道,键盘是当前微机的主要输入设备,输入码就是使用英文键盘输入汉字时的编码。
目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为码为“BAO”,用区位码,输入码为“1703”,用五笔字型则输入码为“WKS”。
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。
我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集──基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码,如在二维代码表中处于17区第3位,区位码即为“1703 ”。
(教材附页可找到)国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码,相当于如果不转换的话,在两个字节上分别加上32即可。
如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D->1103H->+20H->3123H。
国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保”字,国标码为31H和23H,而西文字符“1”和“#”的SCII也为31H和23H,现假如内存中有两个字节为31H和23H,这到底是一个汉字,还是两个西文字符“1”和“#”?于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,也就是如果国标码是16进制的,直接加上8080H即可。
第一章计算机基础知识1.3 字符编码和数据存储单位复习目标:1、识记常用西文字符编码ASCII码2、掌握汉字编码及其相互关系3、掌握数据存储的基本单位和换算关系复习重点:了解ASCII码、掌握数据存储的基本单位和换算关系复习难点:掌握汉字编码及其相互关系复习课时:2讲解课时+1练习课时复习内容:一、西文字符编码(★识记)1、ASCII码西文字符编码最常用的是ASCII(American Standard Code for Information Interchanger)字符编码,即美国国家标准信息交换码。
ASCII码采用7位二进制编码,它可以表示27=128个字符。
而实际上,在计算机内,一个ASCII码占1字节,即要用8个二进制位来存放,最高位为0,是校验码,后7位是编码值。
在ASCII码中,字符编码存在一定规则,码值从小到大的排列规律是:控制字符<数字<大写英文字母<小写英文字母,且数字和字母又是按0-9和A-Z的顺序排列的。
控制字符是出现于特定的信息文本中,表示某一控制功能的字符,它并不在屏幕上输出显示,共34个,都是用两个或三个大写英文字母表示的。
如空格(NUL)、回车(CR)、退格(BS)、换行(LF)、删除(DEL)等。
典型考题:(1)给出四种不同的ASCII码,要求找出码值最大或最小的选项。
如:下列四个ASCII码中,码值最大的一项是()A、qB、6C、RD、s(2)给出某种类型的ASCII码的码值大小,要求求出同类型的某ASCII 码的码值。
如:已知大写英文字母A的十进制码值为65,那么大写英文字母J的十六进制码值是()A、74B、4AC、410D、49注:计算不同类字母的码值时,大写英文字母与小写英文字母间间隔了6个其他符号,也就是说,a的码值要在Z的码值基础上加上7。
2、EBCDIC码EBCDIC码是扩充的二十进制交换码,采用8位二进制编码,能表示256个字符。
江苏省计算机一级B考试知识点整理第1章信息技术概述考点1:什么是信息?客观上:信息是指事物运动状态及状态变化的方式;主观上:信息是认识主体所感知或所表述的事物运动及其变化方式的形式、内容和效用。
考点2:信息处理包含哪些行为和活动?考点3:什么是信息技术?什么是信息处理系统?信息技术(Information Technology,简称IT)指的是用来扩展人们信息器官功能、协助人们有效地进行信息处理的一类技术。
【采用电子技术(包括激光技术)进行信息的收集、加工、存储、显示与控制,它包括通信、广播、计算机、微电子、遥感遥测、自动控制、机器人等诸多领域。
】信息处理系统:用于辅助人们进行信息获取、传递、存储、加工处理、控制及显示的综合使用各种信息技术的系统。
例:雷达(感测,识别系统)电话(点对点,双向系统)广播(点到多点,单向系统)考点8:数字技术当代电子信息技术的基础有两项:一项是微电子与光纤技术,另一项是数字技术。
磁盘是利用磁介质表面区域的磁化状态来存储二进位信息,光盘则是通过“刻”在盘片光滑表面上的微笑凹坑来记录二进位信息。
最小单位。
一般用小写字母“b”表示。
存储容量是存储器的一项重要指标。
计算机内存储器容量通常使用2的幂次作为单位,因为这有助于存储器的设计。
比特的传输:在数据通信和计算机网络中传输二进位信息时,由于是一位一位串行传输的,传输速率的度量单位是每秒多少比特,且kilo、mega、giga等也作为10的幂次计算。
经常使用的传输速率单位如下:比特/秒(b/s),也称“bps”,【注意:存储容量与比特的传输的单位都是比特,但是前者是1024进位,后着是以1000进位!】考点9:数制的相互转换(必考)十进制数→二进制数二进制数→十进制数⏹转换方法:二进制数的每一位乘以其相应的权值,然后累加即可得到它的十进制数值例:11101.1011B= 1×24+1×23+1×22+0×21+1×20+1×2-1+0×2-2+1×2-3+1×2-4= 29.6875八进制数与二进制数的互换十六进制数与二进制数的互换1位十六进制数与4位二进制数的对应关系:.第二章计算机组成与分类1、计算机硬件的发展受到所使用的电子元器件的影响,人们都按照计算机主机所使用的电子元器件为计算机划代:电子管计算机-、晶体管计算机、集成电路计算机、大规模集成电路计算机。
外码、内码、字形码文本型数据西文字符集目前计算机中使用最广泛的西文字符集是ASCII字符集标准ASCII码采用一个字节表示一个字符,但只使用其中的低7位,共128个字符外码外码即汉字输入编码,其方法分类如下:数字编码:使用一串数字来表示汉字的编码方法,例如电报码、区位码等字音编码:一种基于汉语拼音的编码方法,简单易学,适合于非专业人员字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如五笔字型、表形码、仓颉码形音编码:吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少,快速输入码、全息码机内码在计算机中,国标码汉字系统对汉字的存储和处理使用了统一的编码,即汉字机内码,简称机内码或内码。
目前,在计算机中较为广泛使用的转换是双字节的变形国标码。
在GB2312-80中文字符集中,其字符在内存的存储方式是按机内码形式存放的机内码是由区位码——国标码变换而来汉字字符集GB2312-80区位码、国标码、机内码 GBKGB18030UnicodeGB2312-80国家标准GB2312-80《信息交换用汉字编码字符集基本集》共收录6763个简体汉字、682个符号,其中汉字部分:一级汉字3755个,二级汉字3008个。
GB2312-80分为94区X94位,每位上对应一个汉字或字符,称为区位码。
为了避开ASCII码中的控制符(00~1F),以免产生错误控制,在区位码的区号和位号上各自加上20H,得到的编码叫做国标码。
在计算机中,西文字符以ASCII码表示,它是单字节编码,且最高位为0为了区分中、西文,汉字机内码使用变形国标码,将国标码的两个字节的最高位都置为1,即每个字节加上80H。
三码转化例如,汉字“学”的区位码是4907(3107H),国标码是5127(3107H+2020H)机内码是D1A7(5127H+8080H或者3107H+A0A0H)GBKGBK共收录汉字21003个,符号883个,并提供1894个造字码位,将简、繁体字融于一体 UnicodeUnicode是一种跨语言、跨平台的字符编码 每个字符占用2个字节字形码与字符的输出相关字型库:简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。
全国计算机应用基础知识:汉字、字符编码全国计算机应用基础知识:汉字、字符编码(1)计算机中的信息单位计算机中对信息表示的单位有位、字、字长及字节等,它们是用来表示信息量的大小的基本概念。
① 位:计算机中数据存储的最小单位是一个二进制位,简称位,英文为bit,音译为比特,可用小写字母b表示。
② 字节:八位二进制位称为一个字节,英文为Byte,可用大写字母B表示,是计算机存储的基本单位。
一个字节的八位二进制数,其位编号自左至右为b7、b6、b5、b4、b3、b2、b1、b0。
在计算机中,往往用字节数来表示存储容量,容量可以以KB、MB、GB、TB为单位,它们相互之间的转换关系如下: 1KB=210B=1024B1MB=210KB=1024KB1GB=210MB=1024MB1TB=210GB=1024GB③ 字:计算机在存储、传送或操作时,作为一个整体单位进行操作的一组二进制,称为一个计算机字,简称字。
④ 字长:每个字所包含的位数称为字长。
由于字长是计算机一次可处理的二进制数的位数,因此它与计算机处理数据的速率有关,是衡量计算机性能的一个重要因素。
(2)字符的编码。
① ASCII码。
计算机只能识别二进制数,因此计算机中的数字、字母、符号也必须用二进制进行编码。
编码方法有多种,微型机中普遍采用的是ASCII码(美国标准信息交换码),ASCII码现已被国际标准化组织(ISO)接收为国际标准,称为ISO-646。
ASCII码有7位版本和8位版本两种,国际上通用的ASCII码是7位版本。
7位版本的ASCII码包含10个阿拉伯数字、52个英文大小写字母、32个标点符号和运算符及34个控制码,共128个字符,所以可用7位二进制数表示。
7位ASCII码字符如下图所示:要确定一个数字、字母、符号或控制字符的ASCII码,可在表中先找出它的位置,然后确定它所对应的十进制值或二进制值。
例如小写字母“a”的ASCII码其十进制值是97,二进制值是B(B表示二进制数),若转换成十六进制,其值是61H(H表示十六进制数)。
汉字编码对照表(gb2312Big5GB2312)⼀、汉字编码的种类1、GB2312⼜称国标码,由国家标准总局发布,1981年5⽉1⽇实施,通⾏于⼤陆。
新加坡等地也使⽤此编码。
它是⼀个简化字的编码规范,当然也包括其他的符号、字母、⽇⽂假名等,共7445个图形字符,其中汉字占6763个。
我们平时说6768个汉字,实际上⾥边有5个编码为空⽩,所以总共有6763个汉字。
GB2312规定“对任意⼀个图形字符都采⽤两个字节表⽰,每个字节均采⽤七位编码表⽰”,习惯上称第⼀个字节为“⾼字节”,第⼆个字节为“低字节”。
GB2312中汉字的编码范围为,第⼀字节0xB0-0xF7(对应⼗进制为176-247),第⼆个字节0xA0-0xFE(对应⼗进制为160-254)。
GB2312将代码表分为94个区,对应第⼀字节(0xa1-0xfe);每个区94个位(0xa1-0xfe),对应第⼆字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。
01-09区为符号、数字区,16-87区为汉字区(0xb0-0xf7),10-15区、88-94区是有待进⼀步标准化的空⽩区。
2、Big5⼜称⼤五码,主要为⾹港与台湾使⽤,即是⼀个繁体字编码。
每个汉字由两个字节构成,第⼀个字节的范围从0X81-0XFE(即129-255),共126种。
第⼆个字节的范围不连续,分别为0X40-0X7E(即64-126),0XA1-0XFE(即161-254),共157种。
3、GBK是GB2312的扩展,是向上兼容的,因此GB2312中的汉字的编码与GBK中汉字的相同。
另外,GBK中还包含繁体字的编码,它与Big5编码之间的关系我还没有弄明⽩,好像是不⼀致的。
GBK中每个汉字仍然包含两个字节,第⼀个字节的范围是0x81-0xFE(即129-254),第⼆个字节的范围是0x40-0xFE(即64-254)。
GBK中有码位23940个,包含汉字21003个。