计算机中的常用编码
- 格式:doc
- 大小:94.00 KB
- 文档页数:3
1.ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。
每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。
也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。
这被称为ASCII码,一直沿用至今。
ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。
这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。
2.2、非ASCII编码英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。
比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。
于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。
比如,法语中的é的编码为130(二进制10000010)。
这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。
但是,这里又出现了新的问题。
不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。
比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。
但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。
至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。
一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。
比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。
计算机基础知识理解计算机中的编码和压缩技术计算机基础知识:理解计算机中的编码和压缩技术计算机科学的快速发展离不开编码和压缩技术的支持。
编码技术能够将数字和字符转化为计算机能够理解和处理的形式,而压缩技术则可以减少数据的存储空间和传输带宽的占用。
本文介绍计算机中的编码和压缩技术,帮助读者更好地理解计算机基础知识。
一、编码技术编码技术是将信息转化为计算机能够理解和处理的形式的过程。
计算机使用二进制表示数据,因此编码技术必须将数字和字符映射为二进制形式。
在计算机中,最常见的编码方式是ASCII码,即American Standard Code for Information Interchange(美国信息交换标准代码)。
ASCII码使用7位或8位二进制数表示128或256个不同的字符。
然而,ASCII码只能表示基本的英文字母、数字和符号,并不能表示其他语言的字符。
为了满足全球化需求,UNICODE编码应运而生。
UNICODE编码能够表示世界上几乎所有的文字和符号,包括亚洲语言中的汉字、日文假名等。
UNICODE编码有多种不同的实现方式,其中较常用的是UTF-8编码。
UTF-8编码使用变长字节表示字符,可以根据字符的不同而使用1到4个字节。
除了ASCII码和UNICODE编码,还存在其他编码方式,如ISO-8859、GBK等。
不同的编码方式适合不同的场景和需求,选择合适的编码方式可以提高计算机系统的效率和兼容性。
二、压缩技术压缩技术是减少数据存储空间和传输带宽占用的有效手段。
在计算机中,常见的压缩技术分为两类:有损压缩和无损压缩。
1. 有损压缩有损压缩是通过舍弃部分信息来减小数据量的压缩方式。
这意味着解压缩后的数据和原始数据并不完全相同,损失了一定的质量或精度。
有损压缩适用于一些对数据精度要求不高的场景,如图像、音频和视频文件的压缩。
在图像压缩中,JPEG是最常见的有损压缩算法。
JPEG压缩通过降低图像的色彩深度和删除一些图像细节来减小文件大小。
计算机中的编码编码⏹编码⏹信息从一种形式或格式转换为另一种形式的过程 ⏹用代码来表示各种信息,以便于计算机处理。
⏹需要编码的信息种类⏹数值⏹字符 ⏹声音 ⏹图形、图像所有需要由计算机处理的信息,都需要编码使所有信息都以二进制码形式表示计算机中的编码⏹数值编码:⏹二进制码⏹BCD码⏹西文字符编码⏹ASCII码BCD 码⏹BCD (Binary Coded Decimal )码⏹用二进制表示的十进制数⏹特点:⏹保留十进制的权,数字用0和1表示。
⏹8421BCD 编码:⏹用4位二进制码表示1位十进制数,每4位之间有一个空格1010—1111是非法BCD 码,只是合法的十六进制数0000 ...... 1001 0 (9)BCD码与十进制和二进制数之间的转换⏹BCD码与十进制数之间存在直接对应关系⏹例:986.3⏹(1001 1000 0110.0011)BCD=⏹BCD码与二进制的转换:⏹先转换为十进制数,再转换二进制数;反之同样。
⏹例:⏹(0001 0001 .0010 0101)BCD=11 .25=(1011 .01)BCD码在计算机中的存储方式⏹以压缩BCD码形式存放:⏹用4位二进制码表示1位BCD码⏹一个存储单元中存放2位BCD数⏹以扩展BCD码形式存放⏹用8位二进制码表示1位BCD码.即高4位为0,低4位为有效位⏹每个存储单元存放1位BCDASCII码西文字符编码将每个字母、数字、标点、控制符用1Byte二进制码表示其中:标准ASCII的有效位:7bit,最高位默认为0ASCII编码例A01000001a01100001000110000 B01000010b01100010100110001 C01000011c01100011200110010 D0*******d01100100300110011E01000101e01100101400110100 F01000110f01100110500110101 G0*******g01100111600110110 H01001000h01101000700110111 I01001001i01101001800111000 J01001010j01101010900111001编码即变换ASCII码的奇偶校验⏹奇校验⏹加上校验位后编码中“1”的个数为奇数。
计算机常见编码一.有关编码的基础知识1.位bit最小的单元字节byte机器语言的单位1byte=8bit1KB=1024byte1MB=1024KB1GB=1024MB2.二进制binary 八进制octal十进制decimal十六进制he某3.字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等。
字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。
字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一个字符用多少字节表示等问题,则是由编码来决定的。
计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
二.常见字符集的编码介绍:常见的字符集有:ASCII字符集,GB2312字符集,BIG5字符集,GB18030字符集,Unicode字符集,下面一一介绍:1.ASCII字符集:定义:美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示英语和一些西欧语言,是现今最通用的单字节编码系统。
包含内容:控制字符(回车键,退格,换行键等)可显示字符(英文大小写,阿拉伯数字,西文符号)扩展字符集(表格符号,计算符号,希腊字母,拉丁符号)编码方式:第0-31号及127号是控制字符或通讯专用字符;第32-126号是字符,其中48-57号为0-9十个阿拉伯数字,65-90号为26个大写英文字母,97-122号为26个英文小写字母,其余为一些标点符号,运算符号等。
在计算机存储单元中,一个ASCII码值占一个字节(8个二进制位),最高位是用作奇偶检验位。
【奇偶校验是指:在代码传送的过程中,用来检验是否出错的一种方法。
】奇偶校验分为奇校验和偶校验。
奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1;偶校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1。
2.GB2312字符集:定义:信息交换用汉字编码字符集。
计算机中的常用编码计算机中的常用编码字符又称为符号数据,包括字母和符号等。
计算机除处理数值信息外,大量处理的是字符信息。
例如,将高级语言编写的程序输入到计算机时,人与计算机通信时所用的语言就不再是一种纯数字语言而是字符语言。
由于计算机中只能存储二进制数,这就需要对字符进行编码,建立字符数据与二进制数据之间的对应关系,以便于计算机识别、存储和处理。
1. ASSII码目前,国际上使用的字母、数字和符号的信息、编码系统种类很多,但使用最广泛的是ASCII码(American Standard Code for Interchange)。
该码开始时是美国国家信息交换标准字符码,后来被采纳为一种国际通用的信息交换标准代码。
ASCII码总共有128个元素,其中包括32个通用控制字符,10个十进制数码,52个英文大、小写字母和34个专用符号。
因为ASCII码总共为128个元素,故用二进制编码表示需用7位。
任意一个元素由7位二进制数D7D6D5D4D3D2D1表示,从0000000到1111111共有128种编码,可用来表示128个不同的字符。
ASCII码是7位的编码,但由于字节(8位)是计算机中常用单位,故仍以1字节来存放一个ASCII字符,每个字节中多余的最高位D7取为0。
表1-3所示为7位ASCII编码表(省略了恒为0的最高位D7)。
表1-3 7位ASCII编码表要确定某个字符的ASCII码,在表中可先查到它的位置,然后确定它所在位置相应的列和行,最后根据列确定高位码(D6D5D4),根据行确定低位码(D3D2D1D0),把高位码与低位码合在一起就是该字符的ASCII码(高位码在前,低位码在后)。
例如,字母A的ASCII码是1000001,符号"+"的ASCII码是0101011。
ASCII码的特点如下。
编码值0~31(0000000~0011111)不对应任何可印刷字符,通常为控制符,用于计算机通信中的通信控制或对设备的功能控制;编码值为32(0100000)是空格字符,编码值为127(1111111)是删除控制DEL码;其余94个字符为可印刷字符。
汉字字符的编码范围-回复汉字字符的编码范围,是指用于表示汉字的字符编码的范围。
在计算机中,常用的汉字字符编码方式有GBK、GB2312、Big5、Unicode等。
这些编码方式用于将汉字字符转换为计算机可以识别和储存的数字代码,以便于计算机进行处理和显示。
首先,让我们来了解一下GBK编码和GB2312编码。
GBK编码是中国国家标准GB 2312-1980的扩展,包含了全部的中文汉字字符以及繁体汉字;GB2312编码是最早的汉字字符集,只包含了简体中文的6763个常用字。
它们的编码范围分别是0x8140至0xFEFE和0xA1A1至0xFEFE。
在计算机发展的过程中,为了统一不同国家和地区的字符编码,出现了Unicode编码,它使用16位或32位来映射世界上几乎所有的字符,包括汉字。
Unicode的编码范围是0x4E00到0x9FA5,这个范围包含了绝大部分的中文汉字。
然而,由于Unicode编码通常使用16位字符表示,这导致了一些问题,比如存储空间的浪费。
为了解决这个问题,出现了UTF-8编码。
UTF-8是一种针对Unicode的可变长度字符编码,可以用一个字节或多个字节来表示一个字符,根据字符的不同而变化。
对于汉字,UTF-8编码通常使用3个字节表示。
UTF-8编码的汉字字符范围是0xE4B880至0xEEA5BF。
除了以上介绍的常用编码方式外,还有一种比较特殊的编码方式是Big5编码。
Big5编码主要用于繁体中文,它的字符范围覆盖了繁体中文的所有字符。
Big5编码的汉字字符范围是0xA440至0xC67E和0xC940至0xF9D5。
对于这些不同的汉字字符编码范围,计算机内部会将汉字字符转换为对应的编码值进行存储和处理。
当需要显示汉字时,计算机则会根据字符编码值,选择对应的字形进行显示。
这也是为什么在不同的字符编码下,同一个字符可能会有不同的显示效果。
总结起来,汉字字符的编码范围包括GBK编码的0x8140至0xFEFE,GB2312编码的0xA1A1至0xFEFE,Unicode编码的0x4E00至0x9FA5,UTF-8编码的0xE4B880至0xEEA5BF,以及Big5编码的0xA440至0xC67E和0xC940至0xF9D5。
计算机常用编码一、字符编码字符编码是将字符集中的每个字符与一个唯一的数字码相对应的过程。
常见的字符编码标准包括ASCII码、Unicode、GB2312、GBK和UTF-8等。
ASCII码是最早的字符编码标准,它将128个字符分配了0-127的码值。
Unicode则是一个跨平台的字符编码标准,它为每个字符提供了一个唯一的码值,适用于国际化的应用。
GB2312和GBK是中国常用的字符编码标准,支持中文字符的编码。
UTF-8是一种可变长度字符编码,它支持多种语言字符,并且兼容ASCII码。
二、数值编码数值编码是指将数值数据转换为二进制或其他进制表示的过程。
常见的数值编码方式包括二进制、十进制、十六进制等。
二进制是计算机内部处理数据的格式,所有的信息都被表示成二进制形式。
十进制是我们日常使用的数字表示方式,而十六进制则是一种简化的数字表示方式,它使用数字0-9和字母A-F来表示数值。
三、图像编码图像编码是指将图像数据转换为二进制或其他进制表示的过程。
常见的图像编码方式包括JPEG、PNG、BMP等。
JPEG是一种有损压缩的图像编码格式,广泛应用于网络和多媒体应用中。
PNG是一种无损压缩的图像编码格式,支持透明度和渐变效果。
BMP是一种简单的图像编码格式,它是未经压缩的位图格式。
四、音频编码音频编码是指将音频数据转换为二进制或其他进制表示的过程。
常见的音频编码方式包括MP3、AAC、WAV等。
MP3是一种有损压缩的音频编码格式,广泛应用于音乐和语音的存储和传输中。
AAC是一种高级音频编码格式,支持更高的音质和更高效的压缩。
WAV是一种无损压缩的音频编码格式,支持多种音频采样率和位深度。
五、视频编码视频编码是指将视频数据转换为二进制或其他进制表示的过程。
常见的视频编码方式包括MPEG、AVI、MOV等。
MPEG是一种有损压缩的视频编码格式,广泛应用于视频存储和传输中。
AVI是一种无损压缩的视频编码格式,支持多种视频分辨率和帧率。
计算机常用的编码一、字符编码字符编码是用于将字符集(如英文字母、数字、标点符号等)转换为计算机可以理解的二进制数的一种方式。
以下是几种常见的字符编码:1.ASCII码:ASCII码是用于将字符集转换为二进制数的标准编码方式。
它包含了128个不同的字符,每个字符由7位二进制数表示。
2.Unicode:Unicode是一种国际化的字符编码标准,它包含了世界上几乎所有语言的字符。
每个Unicode字符由16位二进制数表示。
3.GB2312和GBK:GB2312是中国国家强制标准,包含了6000多个常用汉字和英文符号。
GBK是在GB2312基础上扩展的,包含了更多的汉字和符号。
4.UTF-8:UTF-8是一种可变长度的字符编码,它能够表示任何Unicode字符。
UTF-8编码的每个字符由1到4个字节表示,对于英文字母和数字,UTF-8编码与ASCII码相同。
二、数值编码数值编码是用于将数值转换为二进制数的一种方式。
以下是几种常见的数值编码:1.二进制:二进制是最简单的数值编码方式,只有0和1两种状态。
2.十进制:十进制是我们日常使用的数值编码方式,它有0到9共10个数字。
3.十六进制:十六进制是一种简化的数值编码方式,它有0到9和A到F共16个数字。
在计算机科学中,十六进制常用于表示二进制数的简写方式。
三、图像编码图像编码是将图像数据转换为二进制数的一种方式。
以下是几种常见的图像编码:1.JPEG:JPEG是一种常用的图像压缩标准,它采用有损压缩算法,能够在保证图像质量的前提下,大大减少图像数据的存储空间。
2.PNG:PNG是一种无损压缩的图像格式,它能够保留原始图像的所有信息,并且在压缩后不失真。
PNG广泛应用于网页设计、软件界面设计等领域。
3.GIF:GIF是一种基于LZW算法的压缩图像格式,它可以支持动态图像和透明背景。
GIF广泛应用于网页中的动画、图标等设计。
四、音频编码音频编码是将音频数据转换为二进制数的一种方式。
计算机中的编码
计算机中的编码是指将字符和符号转换为二进制数的过程。
在计算机中,每个字符和符号都被赋予一个特定的二进制编码,以便计算机能够识别和处理它们。
最常见的编码是ASCII码,它包含了128个字符,包括数字、字母、标点符号和控制字符。
另外还有Unicode编码,它包含了数百万个字符。
Unicode编码允许在不同的语言和文化之间进行交流和数据交换。
编码的选择对计算机的性能和可移植性也有很大的影响。
不同的编码可能需要不同的存储空间和处理时间。
因此,在选择编码时需要权衡不同的因素,包括兼容性、可扩展性和性能等。
总之,编码是计算机中重要的概念,它使得计算机能够处理和存储字符和符号,并与人类进行交流和交换信息。
了解不同的编码和其应用,有助于提高计算机编程和数据处理的效率和准确性。
- 1 -。
常见信息编码在计算机系统中“数据”是指具体的数或二进制代码,而“信息”"则是二进制代码所表达(或承载的)具体内容。
在计算机中,数都以二进制的形式存在,同样各种信息包括文字、声音、图像等也均以二进制的形式存在。
1.BCD码计算机中的数用二进制表示,而人们习惯使用十进制数。
计算机提供了一种自动进行二进制与十进制转换的功能,它要求用BCD码作为输入/输出的桥梁,以BCD码输入十进制数,或以BCD码输出十进制数。
BCD码就是将十进制的每一位数用多位二进制数表示的编码方式,最常用的是8421码,用4位二进制数表示一位十进制数。
下表所示为十进制数与BCD码之间的8421码对应关系。
十进制、BCD码对照表例如:(29.06)10=(0010 1001.0000 0110)BCD.字符的ASCII计算机中常用的基本字符包括十进制数字符号0~9,大小写英文字母A~Z,a~z,各种运算符号、标点符号以及一些控制符、总数不超过128个,在计算机中它们都被转换成能被计算机识别的二进制编码形式。
目前,在计算机中普遍采用的一种字符编码方式,就是已被国际标准化组织(ISO)采纳的美国标准信息交换码(ASCII),如下表所示。
其中:NUL 空; FF 走纸控制; CAN 作废;SOH 标题开始; CR 回车; EM 纸尽;STX 正文开始; SO 移位输出; SUB 换置;EIX 正文结束; SI 移位输入; ESC 换码;EOT 结束传输; DLE 数据链换码; FS 文字分隔符;ENQ 询问; DC1 设备控制1; GS 组分隔符;ACK 承认; DC2 设备控制2; RS 记录分隔符;BEL 报警; DC3 设备控制3; US 单元分隔符;BS 退格; DC4 设备控制4; SP 空格;HT 横向列表; NAK 否定; DEL 删除;LF 换行; SYN 空转同步;VT 纵向列表; ETB 信息组传送结束;在ASCII中,每个字符用位二进制代码表示。
计算机通用的编码
计算机通用的编码有:
1. ASCII码:目前主要用ASCII(American Standard Code for Information Interchange)码,即美国标准信息交换码,已被国际标准化组织(ISO)定为国际准,所以又称为国际五号代码。
它由7位不同的二进制字符编码组成,表示128种字符,其中包括34种控制字符、52个英文大小写字母、10个数字、32个字符和运算符。
2. ISO-8859:使用了ASCII码剩余的128位作为扩展,常用:ISO-8859-1。
3. GB2312:中文简体字集,包含6763个简体中文字。
4. Big5:繁体字集。
5. Unicode:统一字符集,简称UCS。
6. GBK:包含GB2312和Big5简繁字集,向下完全兼容GB2312,使用GBK打开GB2312的文本不会乱码,共21003个字符。
7. UTF-8:万国码,包含世界所有国家的字符。
计算机中信息的编码计算机中的信息编码是指将各种形式的数据转换为计算机能够识别和处理的二进制形式。
信息编码是计算机科学和计算机工程中的重要概念,它涉及到许多不同的编码系统和标准。
一.数字编码系统1.二进制编码:二进制编码是计算机内部使用的最基础的编码系统,它只包含两个数字0和1、计算机中的所有数据最终都要转换为二进制形式来进行处理和存储。
2.十进制编码:十进制编码是人们最常用的一种编码系统,它使用10个数字0-9来表示。
在计算机内部,十进制编码通常需要转换为二进制编码来进行处理。
3.八进制编码:八进制编码使用8个数字0-7来表示。
在计算机中,八进制编码有时用于表示一些特殊的控制字符。
4.十六进制编码:十六进制编码使用16个数字0-9和字母A-F来表示。
它经常在计算机中用于表示内存地址、颜色值等。
二.字符编码系统1.ASCII编码:ASCII编码是一种最早的字符编码系统,它使用7位二进制数来表示128个常见字符,包括英文字母、数字、标点符号等。
后来发展出了8位ASCII编码,称为扩展ASCII码,可以表示更多的字符。
2. Unicode编码:Unicode编码是一种广泛使用的字符编码系统,它包含了全世界几乎所有的字符,每个字符都有对应的唯一编码。
Unicode编码使用32位二进制数来表示字符,其中大部分字符使用了16位编码,称为基本多语言面(BMP)编码。
3. UTF-8编码:UTF-8是一种可变长度的Unicode编码,它可以根据字符的不同来使用1到4个字节的长度。
UTF-8编码兼容ASCII编码,对于ASCII字符只需要1个字节的编码,可以有效地节省存储空间。
4. UTF-16编码:UTF-16是Unicode的另一种编码方式,它使用16位编码来表示字符。
对于BMP范围内的字符,UTF-16编码与Unicode编码相同。
5.GBK编码:GBK编码是对汉字的一种常用编码系统,采用双字节编码,兼容ASCII编码。
常用的中文编码
(原创版)
目录
1.中文编码的概述
2.常用的中文编码方式
2.1 GBK 编码
2.2 UTF-8 编码
2.3 GB2312 编码
2.4 BIG5 编码
正文
中文编码是计算机用来表示和存储中文字符的一种编码方式。
随着中文在计算机领域的广泛应用,出现了许多种中文编码方式。
下面我们来介绍一下常用的中文编码。
1.GBK 编码
GBK 编码是一种双字节编码,它能表示 65536 个汉字,包括了大部分常用的简体和繁体汉字。
GBK 编码是我国国家标准之一,主要用于简体中文环境的计算机系统。
2.UTF-8 编码
UTF-8 编码是一种可变长度的编码方式,它可以表示世界上所有的字符,包括中文字符。
UTF-8 编码使用三个字节来表示一个汉字,其兼容性好,被广泛应用于各种计算机系统和互联网领域。
3.GB2312 编码
GB2312 编码是我国最早制定的中文编码标准,它只能表示 6763 个汉字,包括常用的简体汉字和大部分繁体汉字。
由于 GB2312 编码的字符
集较小,现在已经逐渐被其他编码方式取代。
4.BIG5 编码
BIG5 编码是一种双字节编码,能表示 13053 个汉字,主要用于繁体中文环境的计算机系统。
BIG5 编码在台湾、香港等地区广泛使用,但现在也逐渐被 UTF-8 编码取代。
总的来说,中文编码的发展和演变,使得中文在计算机领域的应用越来越广泛。
常用的中文编码讲解在计算机科学中,编码是将信息转换为二进制或其他数字格式的过程。
中文编码则是将中文字符转换为计算机可以处理的数字格式。
本文将介绍几种常用的中文编码方式。
1.GB2312 GB2312是中国国家强制标准,包含了超过6000个常用汉字和非汉字字符。
它是由中国电子工业部制定并发布的。
GB2312的编码方式是每个字节代表一个字符,每个字节的最高位为0,剩下的7位用于表示字符的编码。
2.GBK GBK是GB2312的扩展,支持更多的汉字字符和符号。
它包含了超过20000个汉字和符号,以及一些常用的简体和繁体字。
GBK的编码方式与GB2312类似,但它使用两个字节来表示一个字符,每个字节的最高位为0,剩下的7位用于表示字符的编码。
3.GB18030 GB18030是中国最新的中文编码标准,也称为“中国统一代码”。
它包含了超过70000个汉字和符号,以及一些常用的简体和繁体字。
GB18030的编码方式与GBK类似,但它支持更多的字符和符号。
4.Big5 Big5是中国台湾地区使用的一种中文编码标准,也称为“大五码”。
它包含了超过13000个汉字和符号,以及一些常用的繁体字。
Big5的编码方式是每个字使用两个字节来表示,每个字节的最高位为1,剩下的7位用于表示字符的编码。
以上是几种常用的中文编码方式。
在实际应用中,我们需要根据不同的需求选择合适的编码方式。
例如,在网页开发中,我们通常使用UTF-8编码,因为它支持全球范围内的语言字符,并且与HTML和HTTP协议兼容。
在处理中文文本时,我们需要注意编码的转换和处理,以确保文本的正确显示和传输。
计算机的汉字编码计算机的汉字编码是指将汉字转化为数字代码的过程,以便计算机对其进行存储、处理和传输。
由于汉字数量庞大,不同语言和地区的汉字也有所不同,因此,计算机的汉字编码也分为不同的标准和方式。
下面我们来逐步了解计算机的汉字编码。
一、GB2312编码GB2312编码是中国国家标准的汉字编码,最早于1980年发布。
该编码涵盖了常用的6763个汉字和682个非汉字字符。
该编码采用双字节表示方式,其中高字节使用0xA1~0xFE之间的94个编码,低字节使用0xA1~0xFE之间的94个编码。
如汉字“中”在GB2312编码下是0xB1 0xA6。
二、GBK编码GBK编码是GB2312编码的扩展版本,在原有的基础上增加了近7000个汉字。
它同样采用双字节表示汉字,其中第一个字节的编码范围与GB2312相同,第二个字节的编码范围则是0xA1~0xFE之间的所有编码。
举个例子,汉字“哥”在GBK编码下是0xB8 0xDF。
三、GB18030编码GB18030编码是中国国家标准的最新汉字编码。
它包含了世界上所有现存和已知的汉字、形状异体字和少数民族文字。
该编码不仅支持单字节和双字节编码,还支持四字节编码,具有很高的容错性。
其中0x81~0xFE之间的所有字节都可以作为汉字的第一个字节,第二个字节也是0x40~0xFE之间的所有字节之一。
当使用四字节编码时,第三个字节为0x30~0x39,第四个字节为0x81~0xFE。
例如,“你好”在GB18030编码下是0xC4 0xE3 0xBA 0xC3。
四、UTF-8编码UTF-8编码是一种针对全球范围内的Unicode字符集而设计的一种多字节编码方案。
Unicode是一种字符编码,它将字符映射到数值编码,可以表示各种语言和符号。
UTF-8编码使用1~4个字节表示一个字符,其中一字节的编码范围与ASCII码相同,而其他字节的编码分别以“10”为开头。
这使得UTF-8编码在发送和存储Unicode字符集时可以比较节省空间,同时也保证了向后兼容性。
计算机中的常用编码
计算机中的常用编码
字符又称为符号数据,包括字母和符号等。
计算机除处理数值信息外,大量处理的是字符信息。
例如,将高级语言编写的程序输入到计算机时,人与计算机通信时所用的语言就不再是一种纯数字语言而是字符语言。
由于计算机中只能存储二进制数,这就需要对字符进行编码,建立字符数据与二进制数据之间的对应关系,以便于计算机识别、存储和处理。
1. ASSII码
目前,国际上使用的字母、数字和符号的信息、编码系统种类很多,但使用最广泛的是ASCII码(American Standard Code for Interchange)。
该码开始时是美国国家信息交换标准字符码,后来被采纳为一种国际通用的信息交换标准代码。
ASCII码总共有128个元素,其中包括32个通用控制字符,10个十进制数码,52个英文大、小写字母和34个专用符号。
因为ASCII码总共为128个元素,故用二进制编码表示需用7位。
任意一个元素由7位二进制数D7D6D5D4D3D2D1表示,从0000000到1111111共有128种编码,可用来表示128个不同的字符。
ASCII码是7位的编码,但由于字节(8位)是计算机中常用单位,故仍以1字节来存放一个ASCII字符,每个字节中多余的最高位D7取为0。
表1-3所示为7位ASCII编码表(省略了恒为0的最高位D7)。
表1-3 7位ASCII编码表
要确定某个字符的ASCII码,在表中可先查到它的位置,然后确定它所在位置相应的列和行,最后根据列确定高位码(D6D5D4),根据行确定低位码(D3D2D1D0),把高位码与低位码合在一起就是该字符的ASCII码(高位码在前,低位码在后)。
例如,字母A的ASCII码是1000001,符号"+"的ASCII码是0101011。
ASCII码的特点如下。
编码值0~31(0000000~0011111)不对应任何可印刷字符,通常为控制符,用于计算机通信中的通信控制或对设备的功能控制;编码值为32(0100000)是空格字符,编码值为
127(1111111)是删除控制DEL码;其余94个字符为可印刷字符。
字符0~9这10个数字字符的高3位编码(D6D5D4)为011,低4位为0000~1011。
当去掉高3位的值时,低4位正好是二进制形式的0~9。
这既满足正常的排序关系,又有利于完成ASCII码与二进制码之间的转换。
英文字母的编码是正常的字母排序关系,且大、小写英文字母编码的对应关系相当简便,差别仅表现在D5位的值为0或1,有利于大、小写字母之间的编码转换。
2. 汉字的存储与编码
汉字的存储有两个方面的含义:一种是字型码的存储,一种是汉字内码的存储。
为了能显示和打印汉字,必须存储汉字的字型。
目前普遍使用的汉字字型码是用点阵方式表示的,称为"点阵字模码"。
所谓"点阵字模码",就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位。
16×16点阵是在纵向16点、横向16点的网状方格上写一个汉字,有笔划的格对应1,无笔划的格对应0。
这种用点阵形式存储的汉字字型信息的集合称为汉字字模库,简称汉字字库。
在16×16点阵字库中,每一个汉字以32个字节存放,存储一、二级汉字及符号共8 836个,需要282.5KB磁盘空间。
而用户的文档假定有10万个汉字,却只需要200KB的磁盘空间,这是因为用户文档中存储的只是每个汉字(符号)的内码。
一个汉字用两个字节的内码表示,计算机显示一个汉字的过程是:首先根据其内码找到该汉字在字库中的地址,然后将该汉字的点阵字型在屏幕上输出。
汉字是我国表示信息的主要手段,常用汉字有3000~5000个,汉字通常用两个字节编码。
为了与ASCII码相区别,规定汉字编码的两个字节最高位为1。
采用双7位汉字编码,最多可表示128×128=16384个汉字。
国标码(GB码)即中华人民共和国国家标准信息交换汉字编码,代号为GB 2312-1980。
国标码中有6763个汉字和628个其他基本图形字符,共计7445个字符。
其中,一级汉字3775个,二级汉字3008个,图形符号682个。
国标码是一种机器内部编码,其主要用于统一不同系统之间所用的不同编码,将不同系统使用的不同编码统一转换成国标码,以实现不同系统之间的汉字信息交换。
除了GB码外,还有BIG5码和GBK码。
BIG5码即大五码,是我国港台地区广泛使用的汉字编码。
GBK码是汉字扩展内码规范,它与GB码体系标准完全兼容,是当前收录汉字最全面的编码标准,涵盖了经过国际化的20902个汉字,对于解决古籍整理、医药名称、法律文献和百科全书编纂等行业的用字问题起到了极大的作用。