数据编码(041440516
- 格式:docx
- 大小:94.14 KB
- 文档页数:6
计算机编码大全从基础的开始最小的单元是位(bit),接着是字节(Byte),一个字节=8位,英语表示是1 byte=8 bits 。
机器语言的单位Byte。
接着是KB,1 KB=1024 Byte; 接着是MB,1 MB=1024 KB; 接着是GB,1 GB=1024 MB ;接着是TB, 1TB=1024 GB。
接着是进制:二进制0和1,8进制0-7,十进制不用说,16进制0-9后面是A,B,C,D,E,F 他们关系如下:Binary Octal Decimal Hex0 0 0 01 1 1 110 2 2 211 3 3 3100 4 4 4101 5 5 5110 6 6 6111 7 7 71000 10 8 81001 11 9 91010 12 10 A1011 13 11 B1100 14 12 C1101 15 13 D1110 16 14 E1111 17 15 F接着是上层建筑字符:字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。
计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
ASCII 字符集ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统,它主要用于显示现代英语和其他西欧语言。
它是现今最通用的单字节编码系统,并等同于国际标准ISO 646。
包含内容:控制字符:回车键、退格、换行键等。
可显示字符:英文大小写字符、阿拉伯数字和西文符号ASCII扩展字符集扩展:表格符号、计算符号、希腊字母和特殊的拉丁符号。
汉字编码表汉字编码表是指unicode字符集中所包含的汉字及其拼音、笔画等一系列特征信息的列表。
以此表为基础,我们可以方便地在计算机中处理、输入和输出汉字文字。
下面是关于汉字编码表的详细介绍。
一、汉字编码的历史汉字编码的历史可以追溯到计算机问世之初,当时的计算机只能处理英文字符,汉字是不能够被计算机处理的。
为了解决这个问题,人们想出了一种叫做“汉字编码”的方法,将汉字转换为计算机可以识别的数字代码,从而实现汉字文字的输入输出。
汉字编码最早的版本是中国国家标准GB2312,于1980年发布,其中包含了6763个常用汉字,以及682个生僻汉字和符号。
但后来随着社会的发展,汉字数量不断增加,GB2312编码已经无法满足需求,于是便出现了GBK编码、GB18030编码等新版本。
二、汉字编码表的结构汉字编码表通常由三个部分组成:区码、位码和字符描述信息。
区码是汉字编码的一个重要部分,它用于表示汉字所在的区域。
GB2312编码中,共分为94个区,每个区由一组汉字组成,区码范围从A1至F7,每个区包含94个位码,共计8836个字符。
GBK编码中,共分为126个区,其中94个区与GB2312编码相同,另外32个区包含了1600个生僻汉字和符号。
区码范围从81至FE。
GB18030编码共分为257个区,其中126个区与GBK编码相同,另外131个区包含了7万多个汉字。
位码是汉字编码表中的另一个重要部分,它用于表示汉字在所在区中的位置。
每个区包含94个位码,位码范围从A1至FE。
可以看出,位码的数量决定了一个区所能包含的汉字数量,也决定了汉字编码表的容量大小。
字符描述信息的主要包括汉字的拼音、笔画和部首等信息。
其中拼音用于输入法输入汉字,笔画、部首等信息可以用于汉字检索等功能。
三、常用汉字编码表1、GB2312编码表GB2312编码表是最早的汉字编码表,它包含了所有的常用汉字,共6763个。
在GB2312编码表中,区码范围从A1至F7,每个区共计94个位码。
建设工程造价数据编码规则
编码示意图
(一)1至4位为规划批准年份代码,指建设工程项目规划立项文件批准年份。
(二)5至8位为行政区划代码,代表建设工程项目所在地的行政区划,具体代码见附表1。
(三)9至10位为工程专业代码;代表建设工程项目所属专业,具体代码见附表2。
(四)11至12位为工程类别代码,代表建设工程项目所属工程类别。
建筑工程、市政公用工程、城市轨道交通工程类别代码由住房和城乡建设部标准定额研究所统一制定。
其他专业工程类别代码由各行业自行制定,交叉行业统一协调制定。
(五)13至14位为工程特征代码,代表建设工程项目工程结构、装置等特征。
建筑工程、市政公用工程、城市轨道交通工程特征代码由住房和城乡建设部标准定额研究所统一制定。
其他专业工程特征代码由各行业自行制定,交叉行业统一协调制定。
(六)15至17位为项目顺序代码,代表建设工程项目收集顺序。
(七)18位为价格类型代码,代表建设工程项目不同阶段造价数据价格类型。
估算为1,概算为2,招标控制价为3,合同价(预算)为4,竣工结算为5。
(八)19至20位为建设工程造价成果文件批准或签订年份的后两位数字。
(九)其中11至14位未分类的代码以0表示。
省(直辖)市(区)。
要点数字编码--最简单的物料编码技巧物料编码是仓储系统对物料的惟一识别代码,它用一组代码来代表一种物料。
物料编码必须是惟一的,也就是,一种物料不能有多个物料编码,一个物料编码不能有多种物料,它们之间的关系是一一对应的。
常见编码形式顺序编码是更简单的一种编码,计算机也可以提供流水编码的功能。
在没有现存的编码可利用的前提下,可以考虑顺序编码,或者称谓流水号编码。
赋义编码顾名思义是赋于编码一定含义。
这种编码常用的是层次码和属性码。
层次码可以表达物料的统计上的卷叠要求;属性码可以表达物料的配置要求。
物料编码的原则唯一性:同一种物料只能对应一个编码,同一编码只能代表一个物料,绝不能出现一个物料多个编码,或多个物料的情况。
可使用性:编码的长度应在6-20之间,不宜过长,否则不易识别规则性:编码应当是按照一定的编码原则编制出来的,并配合对描述进行规范。
可读性:物料编码不一定要求一看就知道是哪种物料,但应当做到一看到物料就能够识别出该物料是属于哪一类的物料,可以考虑采用前段用分类码,后段用顺序码的方式进行编码。
编码的使用者应可以在较短的时间内对编码的方式有大致的了解。
通用性:同一编码原则应能涵盖所有物料,新增加的品种也能够适应可扩展性:编码原则的制定应能考虑公司5-10年内物料的变化趋势。
并且要对不同的情况留有一定的余地。
效率性:编码原则不仅要考虑使用者是否可以较容易地解读,方便记忆和识别,还应当考虑是否有助于提高日常操作的效率。
兼容性:本公司的物料编码应当考虑与主要客户、重要供应商的编码的兼容,这要求要建立一个物料编码对照表,把客户、主要供应商的编码、本公司编码放在一张表内可以自由查询。
对照表综合性:编码原则也应考虑与产品(BOM单)、生产、采购、货仓运作、物料控制、财务、使用软件系统等相关方面的配合使用问题。
例如:在考虑编码时最好全部采用数字,而不要用字母与数字混排,以方便软件系统的使用。
编码误区案例展示一个项目是企业认为其目前的编码体系非常混乱,需要全面整理,重新建立新的编码体系,于是,从产品开发及各业务部门召集8人形成一个编码小组,广泛研究国内外标准零件编号,耗时4个多月,却以失败告终,企业认为涉及方面太多,很难用一套编码把上万中材料清晰地区分开来。
数据编码(041440516董迎顺)
数据编码
姓名__董迎顺__ 学号 041440516
由于计算机要处理的数据信息十分庞杂,有些数据库所代表的含义又使人难以记忆。
为了便于使用,容易记忆,常常要对加工处理的对象进行编码,用一个编码符合代表一条信息或一串数据。
对数据进行编码在计算机的管理中非常重要,可以方便地进行信息分类、校核、合计、检索等操作。
因此,数据编码就成为计算机处理的关键。
即不同的信息记录应当采用不同的编码,一个码点可以代表一条信息记录。
人们可以利用编码来识别每一个记录,区别处理方法,进行分类和校核,从而克服项目参差不齐的缺点,节省存储空间,提高处理速度。
二进制数字信息在传输过程中可以采用不同的代码,各种代码的抗噪声特性和定时能力各不相同,实现费用也不一样,几种常用的编码方案:单极性码、极性码、双极性码、归零码、双相码、不归零码、曼彻斯特编码、差分曼彻斯特编码、多电平编码、4B/5B编码。
首先介绍两个基本概念:基带信号和频带信号。
基带信号是原始电信号,其频谱从零频附近开始,例如基带话音信号的频率范围为300~3400Hz,基带图像信号的频率范围为0~6MHz。
频带信号是经过调制后的信号,它的特征是携带信息、适合在信道中传输、频谱具有带通形式且中心频率远离零频。
这一节讲述数字数据的基带传输,下一节讲述数字数据的频带传输。
二进制数据采用基带传输时可以采用不同的编码方案,各种编码的抗噪声特性和定时能力各不相同,实现费用也不一样。
数字基带信号的码型设计应遵循以下原则:
(1)对于传输频率很低的信道,传输的码型频谱中应不包含直流分量。
(2)可以从基带信号中提取比特定时信号,使得代码具有自定时能力。
(3)基带编码应具有内在检错能力,可以检测传输过程中出现的差错。
(4)码型变换过程应具有透明性,即编码与信源的统计特性无关。
(5)尽量减少基带信号频谱中的高频分量。
这样可以提高信道的频谱利用率,还可以减少串扰。
下面介绍几种常用的编码方案,
1. 单极性码
在这种编码方案中,只用正的(或负的)电平表示数据。
例如,在图2-3中我们用+3 V表示二进制数字“0”,而用 0 V表示二进制数字“1”。
单极性码用在电传打字机(TTY)接口以及PC机与TTY兼容的接口中,这种代码需要单独的时钟信号配合定时,否则当传送一长串0或1时,发送机和接收机的时钟将无法同步。
另外单极性码的抗噪声特性也不好,而且这种编码的功率谱中有丰富的低频分量,不能用于基带传输。
2. 极性码
在这种编码方案中,分别用正和负电平表示二进制数“0”和“1”,例如在图2-3中用+3 V表示二进制数字“0”,而用-3V表示二进制数字“1”。
由于这种编码有正负极性的差别,因而抗干扰特性较好,但仍然需要另外的同步信号。
另外,这种二元码中“1”或“0”分别对应某个电平,相邻电平不存在制约关系,没有纠错能力。
3. 归零码
在归零码(Return to Zero,RZ)中,码元中间的信号回归到0电平,因此任意两个码元之间被0电平隔开,与以上仅在码元之间有电平转换的编码方案相比,这种编码方案有更好的噪声抑制特性。
因为噪声对电平的干扰比对电平转换的干扰要强,而这种编码方案是以识别电平转换边来判别“0”和“1”信号的。
图2-3中表示出的是一种双极性归零码。
可以看出,从正电平到零电平的转换边表示码元“0”,而从负电平到零电平的转换边表示码元“1”,同时每一位码元中间都有电平转换,使得这种编码成为自定时的编码。
4. 不归零码
整个码元期间电平保持不变的代码称为不归零码(Not Return to Zero,NRZ)。
图2-3中所示的不归零码的规律是当“1”出现时电平翻转,当“0”出现时电平不翻转,也叫做见一就翻不归零码(NRZ-1)。
这种代码也叫差分码,用于区别数据“1”和“0”的不是电平高低,而是电平是否转换。
NRZ-1用在终端到调制解调器的接口中。
这种编码实现简单而且费用低,但不是自定时的,长串的“0”会使得码流失去同步。
5. 双相码
双相码要求每一比特中都要有一个电平转换,因而这种编码的最大优点是自定时,同时双相码也有检测错误的功能,如果某一位中间缺少了电平翻转,则被认为是违例代码。
6. 双极性码
在双极性编码方案中,信号在正、负、零3个电平之间变化。
一种典型的双极性码就是所谓的信号交替反转编码(Alternate Mark Inversion,AMI)。
在AMI 信号中,数据流中遇到“1”时使电平在正和负之间交替翻转,而遇到“0”时则保持零电平。
双极性是三进制编码方法,脉冲宽度是码元周期的一半,它比二进制编码的抗噪声特性更好,如图2-4a所示。
AMI具有内在的检错能力,当正负脉冲交替出现的规律被打乱时容易识别出来,这种情况叫AMI违例。
AMI编码用在T1线路中。
这种编码方案的缺点是传送长串“0”时会失去位同步信息,对此改进的方案有两种。
一种是3阶高密度双极性码HDB3,这种码流中连续“0”的个数不能大于3,当出现4个连续“0”时用B00V或000V代替,这里B表示正常的信号交替,V表示AMI违例,如图2-4b所示;另一种是双极性6零取代编码B6ZS,即把连续6个“0”用0VB0VB来代替,如图2-4c所示。
HDB3用在E1~E3通信系统中,B6ZS用在贝尔系统的T2标准中。
7. 曼彻斯特编码
曼彻斯特编码(Manchester Code)是一种双相码(或称分相码)。
在图2-3中,我们用高电平到低电平的转换边表示“0”,而用低电平到高电平的转换边表示
“1”,相反的表示也是允许的。
比特中间的电平转换边既表示了数据代码,同时也作为定时信号使用。
曼彻斯特编码用使在以太网中。
8. 差分曼彻斯特编码
差分码又称相对码,在差分码中利用电平是否跳变来分别表示“1”或“0”,分为传号差分码和空号差分码。
传号差分码是输入数据为“1”时,编码波型相对于前一代码电平产生跳变;输入为“0”时,波型不产生跳变。
空号差分码是当输入数据为“0”时,编码波型相对于前一代码电平产生跳变;输入为“1”时,波型不产生跳变。
差分曼彻斯特编码兼有差分码和曼彻斯特编码的特点,与曼彻斯特编码不同的是,这种码元中间的电平转换边只作为定时信号,而不表示数据。
差分曼彻斯特编码用在令牌环网中。
9. 多电平码
这种编码的码元可取多个电平之一,每个码元可代表多个二进制位。
例如,令M=2n,设M=4,则n=2。
若表示码元的脉冲取4个电平之一,则一个码元可表示两个二进制位。
与双相码相反,多电平码的数据速率大于波特率,因而可提高频带的利用率,但是这种代码的抗噪声特性不好,传输过程中信号容易畸变到无法区分。
2B1Q编码是一种4电平码,用在ISDN基本速率接口(BRI)中的U接口,它将2比特组合在一起以电平信号来表示。
编码规则如下:
在曼彻斯特和差分曼彻斯特编码中,每比特中间都有一次电平跳变,因此波特率是数据速率的两倍。
对于100Mb/s的高速网络,如果采用这类编码方法,就需要200M的波特率,其硬件成本是100M波特率硬件成本的5~10倍。
为了提高编码的效率,降低电路成本,可以采用4B/5B编码。
这种编码方法的原理,如图2-5所示。
这实际上是一种两级编码方案。
系统中使用不归零码(NRZ),在发送到传输介质之前要变成见1就翻不归零码(NRZ-I)。
NRZ-I代码序列中“1”的个数越多,越能提供同步定时信息,但如果遇到长串的“0”,则不能提供同步信息。
所以在发送到介质上之前还需经过一次4B/5B编码,发送器扫描要发送的比特序列,4位分为一组,然后按照表2-1的对应规则变换成5位的代码。
表2-1 4B/5B编码规则
5位二进制代码的状态共有32种,在表2-1选用的5位代码中1的个数都不小于2个。
这就保证了在介质上传输的代码能提供足够多的同步信息。
另外还有5B6B、8B/10B等编码方法,其原理是类似的。