UTF-8 and Unicode FAQ

格式：doc
大小：93.00 KB
文档页数：9

下载文档原格式

/ 9

utf8 汉字编码

utf8 汉字编码
UTF-8是一种可变长度的编码方式，每个字符可以由1个到4个字节组成。

它是一种非常灵活的编码方式，可以用来表示世界上几乎所有的书写语言和文字。

UTF-8编码的汉字通常由3个字节组成，每个字节代表不同的部分，合起来表示一个完整的汉字。

UTF-8编码的汉字在计算机中存储时，每个汉字都会被分配一个唯一的编码，这个编码由三个字节组成。

每个字节的取值范围是0x00到0xFF，这意味着UTF-8编码的汉字可以在0x0000到0xFFFF的范围内。

UTF-8编码的汉字在显示时，通常会被转换成相应的字体进行渲染。

不同的字体可能会有不同的形状和大小，但是它们都遵循相同的编码规则。

因此，无论使用哪种字体，只要正确地设置了编码方式，都可以正确地显示UTF-8编码的汉字。

1。

utf中文编码范围

utf中文编码范围在UTF中文编码范围中，主要使用的是Unicode字符集来表示汉字和其他各种语言的字符。

Unicode是以16位编码方式来表示字符，因此可以表示2^16=65536个不同的字符。

UTF-8是一种可变长度编码方式，它可以根据不同的字符选择不同长度的编码。

对于ASCII字符（包括英文字母、数字和一些特殊符号），UTF-8使用1个字节表示；而对于汉字等非ASCII字符，UTF-8使用2个或更多字节表示。

UTF-8被广泛应用于互联网，因为它能够兼容ASCII字符，同时也可以表示全世界范围内的字符。

UTF-8中文编码范围主要包括了汉字和其他一些特殊字符。

汉字的编码范围在Unicode字符集中是从4E00到9FFF。

这个范围内包含了常用的中文汉字，以及一些生僻字、方块字等。

除了汉字，UTF-8还包含了一些其他字符，比如标点符号、数学符号、货币符号等。

在UTF-8编码范围中，除了汉字和其他特殊字符，还有一些控制字符和不可打印字符。

这些字符用于控制文本的显示和排版，例如换行符、回车符、制表符等。

这些字符在文本处理和编程中有着重要的作用。

UTF-8编码范围中还包含了一些特殊的符号和表情符号。

这些符号包括各种箭头符号、图形符号、几何形状符号、旗帜符号等。

此外，还有一些表情符号，比如笑脸、哭脸、心形符号等，用于在文本中表达情感和感觉。

总的来说，UTF-8中文编码范围是非常广泛的，包含了汉字、其他各种字符和符号。

这些字符和符号可以用于各种场合，包括文本编辑、编程、网页设计等。

使用UTF-8编码，可以确保文字和符号的正确显示，使得文本在不同的环境中都能够被正确地处理和显示。

python中unicode、utf8、gbk等编码问题

python中unicode、utf8、gbk等编码问题为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本⽂就来研究⼀下这个问题。

字符串在Python内部的表⽰是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另⼀种编码。

decode的作⽤是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表⽰将gb2312编码的字符串str1转换成unicode编码。

encode的作⽤是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表⽰将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候⼀定要先搞明⽩，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码代码中字符串的默认编码与代码⽂件本⾝的编码⼀致。

如：s='中⽂'如果是在utf8的⽂件中，该字符串就是utf8编码，如果是在gb2312的⽂件中，则其编码为gb2312。

这种情况下，要进⾏编码转换，都需要先⽤decode⽅法将其转换成unicode编码，再使⽤encode⽅法将其转换成其他编码。

通常，在没有指定特定的编码⽅式时，都是使⽤的系统默认编码创建的代码⽂件。

如果字符串是这样定义：s=u'中⽂'则该字符串的编码就被指定为unicode了，即python的内部编码，⽽与代码⽂件本⾝的编码⽆关。

因此，对于这种情况做编码转换，只需要直接使⽤encode⽅法将其转换成指定编码即可。

不符合utf-8的编码规则的字符

UTF-8编码是一种通用的字符编码方式，可以表示几乎所有的Unicode字符。

然而，有一些特殊字符或不常见字符可能不符合UTF-8编码规则。

以下是一些不符合UTF-8编码规则的字符：
1. 非法字符（Illegal Characters）：UTF-8编码规则中，有一些字符是不允许出现的，如控制字符或保留字符等。

2. 非Unicode字符（Non-Unicode Characters）：UTF-8编码是基于Unicode字符集的，因此，不属于Unicode字符集的字符无法使用UTF-8编码表示。

3. 超出范围的字符（Out-of-Range Characters）：UTF-8编码使用不同长度的字节序列来表示字符，如果字符的码点超出了UTF-8编码的范围，那么就无法用UTF-8编码表示该字符
需要注意的是，UTF-8编码规则是广泛使用的编码规范，可以表示大多数字符。

如果遇到不符合UTF-8编码规则的字符，一般是因为该字符不属于Unicode字符集，或者是由于编码错误或损坏导致的。

在处理字符编码时，建议使用符合标准的编码方式，并遵循相应的编码规则。

utf8 4字节字符

utf8 4字节字符
UTF-8编码是一种变长编码，用于将Unicode字符集中的字符编码成字节序列。

对于UTF-8编码，大部分Unicode字符只需要1到3个字节编码，但一些特殊字符需要4个字节编码。

UTF-8使用了1到4个字节表示一个Unicode字符，其中4个字节编码的范围是U+10000到U+10FFFF。

这个范围内的字符包括一些辅助平面字符，如Emoji表情符号和一些罕见的古文字。

由于4字节字符是较大的编码单位，对于使用UTF-8编码的文本来说，4字节字符相对较少。

在大部分文本中，大部分字符只需要1到3个字节编码。

需要注意的是，UTF-8编码中的字节顺序是可以变化的，即可能出现大尾序和小尾序的情况。

但大部分情况下，UTF-8编码都是以大尾序（Big-Endian）的方式呈现的。

utf8和ansi导致乱码的字串

utf8和ansi导致乱码的字串摘要：1.乱码问题背景及原因2.UTF-8 和ANSI 编码的区别3.如何解决UTF-8 和ANSI 编码导致的乱码问题正文：一、乱码问题背景及原因在日常生活中，我们在使用电脑或者手机等设备时，可能会遇到一些文字显示成乱码的情况。

乱码通常是由于编码错误或者不兼容导致的。

编码是将文字、数字或符号转换成计算机可以识别和处理的二进制数的过程。

常见的编码方式有UTF-8 和ANSI 等。

UTF-8 是一种可变长度的编码方式，可以表示世界上所有的字符。

而ANSI 编码是针对英文字符和一些特殊符号的编码方式，主要应用于英文系统。

二、UTF-8 和ANSI 编码的区别1.编码范围：UTF-8 编码可以表示全球所有语言的字符，而ANSI 编码只能表示英文字符和一些特殊符号。

2.编码方式：UTF-8 编码使用可变长度的编码方式，根据字符的不同，使用1 到4 个字节进行编码。

而ANSI 编码使用固定长度的编码方式，每个字符使用1 个字节进行编码。

3.兼容性：UTF-8 编码具有很好的兼容性，可以与其他编码方式相互转换。

而ANSI 编码只能在英文系统中使用，与其他编码方式不兼容。

三、如何解决UTF-8 和ANSI 编码导致的乱码问题1.使用正确的编码方式：在使用文字处理软件或者编程时，需要根据实际需求选择正确的编码方式。

例如，如果需要在英文系统中使用文字，可以选择ANSI 编码；如果需要表示多种语言的字符，可以选择UTF-8 编码。

2.编码转换：如果遇到乱码问题，可以通过编码转换来解决。

例如，将UTF-8 编码转换为ANSI 编码，或者将ANSI 编码转换为UTF-8 编码。

3.使用兼容的软件或工具：在使用文字处理软件或者编程时，需要选择兼容性好的软件或工具。

这样可以避免由于编码不兼容导致的乱码问题。

总之，乱码问题是由于编码错误或不兼容导致的。

utf-8码对照表编码规则

UTF-8码对照表编码规则UTF-8（8-bit Unicode Transformation Format）是一种用于表示Unicode字符的编码方式。

它使用一个或多个字节来表示每个字符，并且与ASCII码兼容。

以下是UTF-8码对照表的编码规则：1. 字节顺序：1)UTF-8采用字节流的形式表示字符，每个字符由1到4个字节组成。

2)字节顺序采用大端序（Big-Endian），即高位字节在前，低位字节在后。

2. 码位范围：1)UTF-8的码位范围为0x00000000到0x7FFFFFFF。

2)第一个字节的最高位为0，表示这是一个单字节字符。

3)第一个字节的最高位为1，表示这是一个多字节字符。

3. 字节结构：1)对于单字节字符，其字节结构为0xxxxxxx。

2)对于多字节字符，其字节结构为110xxxxx、1110xxxx、11110xxx、111110xx或1111110x。

其中，x表示任何值。

4. 代理对（Surrogate Pair）：1)UTF-8中存在代理对机制，用于表示超出基本多文种平面（BMP）的字符。

2)代理对由两个连续的UTF-8字符组成，第一个字符的码位范围为0xD800到0xDBFF，第二个字符的码位范围为0xDC00到0xDFFF。

3)代理对主要用于表示超过65535个字符的Unicode码位，这些码位位于辅助平面中。

通过将码位分成高10位和低10位，将它们组合成一个32位的码位，然后通过代理对的方式进行表示。

5. 校验码：1)UTF-8编码具有一种内建的校验机制。

如果一个字符的UTF-8表示不符合规定的格式，那么这个字符将被视为无效的。

2)校验码用于确保字节序列的有效性。

如果字节序列不符合UTF-8的规则，大多数现代的UTF-8解析器会将其视为无效。

在使用UTF-8编码时，遵循这些规则是十分重要的，以确保数据的正确表示和交换。

另外，了解不同编码之间的差异，特别是在处理国际化内容时，对于避免编码相关的问题和混淆是非常有帮助的。

utf-8 文本分隔格式

utf-8 文本分隔格式
UTF-8是一种针对Unicode字符集的可变长度字符编码，它使用1到4个字节来表示每个字符。

在UTF-8编码中，字符的码位被编码成1到4个字节的序列。

在这个序列中，第一个字节以特定的模式开始，后续的字节则以特定的模式开头，以便解码器能够正确地识别并还原原始的Unicode码位。

在实际的文本文件中，UTF-8编码的文本通常使用一些特定的字符来进行分隔。

这些分隔符可以用于在文本中标记不同的部分，或者用于将文本分割成多个段落或字段。

常见的UTF-8文本分隔格式包括但不限于以下几种：
1. 换行符（\n），在Unix和类Unix系统中，换行符通常用于分隔文本的行。

2. 回车符（\r）和换行符（\n）的组合（\r\n），在Windows 系统中，文本行通常以回车符和换行符的组合来分隔。

3. 分号（;）或逗号（,），在CSV（逗号分隔值）文件中，分号或逗号通常用于分隔不同的字段。

4. 空格或制表符，在某些文本文件中，空格或制表符可能被用
作字段的分隔符。

除了上述常见的分隔符外，还有许多其他特定的分隔符和标记，可以根据具体的文本格式和需求来选择合适的分隔符。

无论使用何
种分隔符，重要的是保证文本的结构清晰，便于解析和处理。

utf-8 文本分隔格式

utf-8 文本分隔格式
UTF-8是一种针对Unicode字符集的可变长度字符编码，它使用不同长度的字节序列来编码不同范围的字符。

在UTF-8编码中，一个字符可以由1到4个字节组成。

UTF-8文本通常使用一些特定的字符来进行分隔，以便在处理文本时能够准确地识别和分离不同的部分。

常见的UTF-8文本分隔格式包括：
1. 换行符（\n），在Unix和类Unix系统中通常用于表示文本行的结束，而在Windows系统中则使用回车符和换行符（\r\n）来表示换行。

2. 空格符（空格），空格通常用于分隔单词和句子中的不同部分，以便进行单词和句子级别的处理和分析。

3. 制表符（\t），制表符通常用于在文本中创建水平定位的空白，以便对齐文本中的内容。

4. 其他自定义分隔符，有时候在特定的应用中会定义自己的文本分隔符，例如逗号、分号、竖线等，用于分隔不同的数据字段或者元素。

除了以上提到的常见分隔符外，还可以根据具体的需求和应用
场景定义和使用其他自定义的分隔符。

在处理UTF-8文本时，正确
地识别和处理文本分隔符是非常重要的，它可以确保文本数据被正
确地分割和解析，从而保证后续的处理和分析能够准确无误地进行。

utf8 二进制

UTF-8是一种字符编码方案，它将字符编码为不同长度的字节序列。

UTF-8编码的二进制形式是由一系列以0开头的1和0组成的数字序列，每个数字序列代表一个字符或一个字节。

UTF-8的二进制编码规则如下：
对于单字节的字符，第一位为0，后面7位为字符的Unicode码。

对于多字节的字符，第一个字节的前几位为1，后面跟着若干个以1开头、以0结尾的字节，用来表示字符的Unicode码。

下面是一些UTF-8编码的二进制例子：
字符'A'的UTF-8编码为0x41，对应的二进制为01000001。

字符'中'的UTF-8编码为0xE4B8AD，对应的二进制为11100100 10111000 10101101。

字符' '的UTF-8编码为0xF09F988A，对应的二进制为11110000 10011111 10011000 10001000 10101010。

注意，UTF-8编码的字节序列是可变长度的，不同的字符会使用不同长度的字节序列。

UTF8编码解码

UTF8编码解码
参考⽂档: RFC3629标准.
1. 基本原理
对于任意⼀个字, 都可以⽤⼀个唯⼀码(UNICODE码, 由标准编制)表⽰, 在应⽤过程中, 需要对码进⾏编码.常⽤的编码⽅式为UTF-8. UTF-8采⽤类似于IP地址分配的机制. 即对于不同范围的Unicode码, 采⽤不同的模板进⾏编码.
2. 编码流程
流程概述为:
2.1 查表获取unicode码的范围,
2.2 找到该范围对应的模板,
2.3 将Unicode的⼆进制的每位从低到⾼, 填充到X标志位.
3. 解码流程
是编码过程的反, 流程概述为:
3.1 查表匹配对应的模板,
3.2 根据模板的X标志位, 抽取得到⼆进制序列,
3.3 将⼆进制转换成⼗六进制. 得到Unicode码.
---------------- 勿在浮沙筑⾼台。

utf8编码中文表

UTF-8是一种可变长度的编码方式，用于将Unicode字符表示为字节序列。

它广泛用于网页和其他文本数据，以支持多种语言和字符集。

UTF-8编码对照表列出了Unicode字符与相应的UTF-8编码之间的映射关系。

对于汉字，UTF-8编码范围是U+4E00到U+9FA5，涵盖了几乎所有的现代汉字。

以下是UTF-8编码对照表中的一些汉字示例：
∙"中" 的UTF-8编码是 E4 B8 AD。

∙"和" 的UTF-8编码是 E5 8F 8C。

∙"你" 的UTF-8编码是 E4 B8 B2。

需要注意的是，UTF-8编码是可变长度的，这意味着不同的汉字可能在UTF-8中占用不同的字节数。

例如，一些常用的汉字可能只占用2个字节，而一些不常用的汉字可能占用3个或4个字节。

完整的UTF-8汉字编码对照表可以在许多在线资源中找到，包括Unicode官方网站和各种编程语言的字符编码库。

这些资源提供了每个汉字的UTF-8编码以及相应的解释和示例。

c utf8编码格式

C语言中的UTF-8编码格式在计算机科学领域中，字符编码是一种将字符集中的字符映射到二进制数据的方法。

UTF-8（Unicode Transformation Format - 8-bit）是一种用于在计算机系统中存储和传输Unicode字符的变长编码方案。

它是一种非常常见的字符编码格式，特别适用于C语言程序开发。

UTF-8编码的原理UTF-8编码使用1到4个字节来表示一个Unicode字符。

它通过将Unicode字符映射为不同字节数的二进制序列来实现变长编码。

具体规则如下：•对于单字节的UTF-8编码，即ASCII范围内的字符，使用7位表示，最高位为0。

•对于多字节的UTF-8编码，首字节以1开始，并且连续的后续字节以10开始。

根据首字节高位0的数量可以确定一个Unicode字符所占用的字节数：首字节高位0数量字节数可用位数0 1 7110 2 111110 3 1611110 4 21例如，英文字母’A’使用单个字节表示：01000001；而汉字’中’则使用三个字节表示：11100100 10111000 10101101。

在C语言中使用UTF-8编码格式在C语言中，字符串是以字符数组的形式表示的，每个字符都是一个字节。

因此，使用UTF-8编码的Unicode字符可以直接存储在C语言的字符串中。

要在C语言中处理UTF-8编码的字符串，需要注意以下几点：字符串字节数与长度由于UTF-8编码使用不同数量的字节表示不同的字符，所以一个字符串的字节数与它包含的Unicode字符数并不总是相等。

为了正确计算字符串长度，应该使用专门的函数来计算Unicode字符数。

在C标准库中，提供了strlen函数用于计算以NULL结尾的ASCII字符串长度。

然而，对于包含UTF-8编码字符的字符串，应该使用strlen函数来计算字节数，并使用专门的库函数（如utf8_strlen）来计算Unicode字符数。

字符串操作对于ASCII范围内的字符，在C语言中可以直接进行各种字符串操作（如拷贝、连接、比较等）。

utf8编码转换中文

utf8编码转换中文UTF-8编码是一种用于表示Unicode字符的变长字符编码，它是目前最常用的字符编码之一。

在计算机系统中，所有的字符都是以二进制形式存储的，而UTF-8编码则是将Unicode字符转化为二进制形式的一种编码方式。

在本文中，我们将介绍UTF-8编码的原理、特点以及如何将UTF-8编码转换为中文。

一、UTF-8编码的原理UTF-8编码的原理非常简单，它将Unicode字符转换为二进制形式后，按照一定的规则进行编码。

具体来说，UTF-8编码的规则如下：1. 对于单字节的字符，UTF-8编码使用ASCII码的编码方式，即将字符的Unicode值直接存储在一个字节中。

2. 对于多字节的字符，UTF-8编码使用一定的规则将Unicode 值转换为二进制形式，并将二进制码按照一定的格式存储在多个字节中。

具体来说，UTF-8编码将Unicode字符分为了三类，分别是U+0000到U+007F、U+0080到U+07FF和U+0800到U+FFFF。

对于不同的字符，UTF-8编码使用不同的字节数进行存储。

具体的规则如下：1. 对于U+0000到U+007F之间的字符，UTF-8编码使用一个字节进行存储，其中最高位为0，其余7位为字符的Unicode值。

2. 对于U+0080到U+07FF之间的字符，UTF-8编码使用两个字节进行存储，其中最高位为110，接下来的5位为字符的高5位Unicode值，最后的6位为字符的低6位Unicode值。

3. 对于U+0800到U+FFFF之间的字符，UTF-8编码使用三个字节进行存储，其中最高位为1110，接下来的4位为字符的高4位Unicode值，接下来的6位为字符的中间6位Unicode值，最后的6位为字符的低6位Unicode值。

二、UTF-8编码的特点UTF-8编码具有以下几个特点：1. 变长编码。

UTF-8编码使用不同的字节数进行存储，因此可以表示任意Unicode字符，同时还可以节省存储空间。

utf-8中2字节,3字节,4字节的字符举例

一、引言在计算机编码中，我们常常听到UTF-8编码，UTF-8是一种针对Unicode的可变长度字符编码，它使用1-4个字节来表示每个字符。

在UTF-8编码中，1个字节可以表示7位的ASCII字符，而2、3、4个字节则可以表示其他的Unicode字符。

本文将以UTF-8编码为主题，重点探讨UTF-8中2字节、3字节和4字节的字符举例。

二、UTF-8编码简介UTF-8是一种在全球范围内最常用的Unicode字符编码，它是一种变长编码方案，对于不同范围的Unicode字符使用不同长度的字节来编码。

UTF-8的编码规则如下：1. 对于单字节的字符，UTF-8和ASCII编码是一样的；2. 对于多字节的字符，UTF-8使用2-4个字节来编码；3. UTF-8编码中，每个字符的第一个字节的高位的1的个数表示其编码占用了几个字节，后续字节均以10开头。

三、UTF-8中2字节字符举例UTF-8编码中，2字节字符的Unicode范围是U+0080到U+07FF，对于这个范围内的字符，使用2个字节来进行编码。

以下是一些UTF-8中2字节字符的举例：1. 拉丁文扩展-A区域的一些字符，如Ă（U+0102）、Ċ（U+010A）；2. 希腊文区域的一些字符，如ά（U+03AC）、έ（U+03AD）；3. 西里尔字母区域的一些字符，如Й（U+0419）、Ф（U+0424）。

四、UTF-8中3字节字符举例UTF-8编码中，3字节字符的Unicode范围是U+0800到U+FFFF，对于这个范围内的字符，使用3个字节来进行编码。

以下是一些UTF-8中3字节字符的举例：1. 阿拉伯文区域的一些字符，如ب（U+0628）、ت（U+062A）；2. 中文范围内的一些字符，如古（U+53E4）、宝（U+5B9D）；3. 西里尔字母补充区域的一些字符，如ґ（U+0491）、ӧ（U+04E7）。

五、UTF-8中4字节字符举例UTF-8编码中，4字节字符的Unicode范围是U+10000到U+10FFFF，对于这个范围内的字符，使用4个字节来进行编码。

utf8和ansi导致乱码的字串

utf8和ansi导致乱码的字串摘要：1.乱码问题概述2.UTF-8 编码和ANSI 编码的区别3.UTF-8 编码和ANSI 编码导致乱码的原因4.解决UTF-8 编码和ANSI 编码乱码的方法5.总结正文：一、乱码问题概述在日常生活中，我们在使用计算机处理文本时，有时会遇到乱码问题。

所谓的乱码，是指在输出时，字符显示不正常，出现无法识别的符号。

乱码问题让人头疼，因为它会导致信息传递失真，让人难以理解。

本文将针对UTF-8 编码和ANSI 编码导致的乱码问题进行分析，并提出相应的解决方法。

二、UTF-8 编码和ANSI 编码的区别UTF-8 和ANSI 都是字符编码方式，但它们之间存在一些区别。

UTF-8 是一种可变长度的编码方式，它可以表示世界上所有的字符。

而ANSI 编码是一种固定的长度编码方式，它只能表示基本的英文字母、数字和一些符号，无法表示中文、日文等其他国家的文字。

三、UTF-8 编码和ANSI 编码导致乱码的原因1.文件编码与字符集不匹配：当我们使用一个支持UTF-8 编码的文本编辑器打开一个ANSI 编码的文件时，由于编辑器无法正确识别ANSI 编码，就会导致乱码的出现。

反之，使用ANSI 编码的编辑器打开UTF-8 编码的文件，同样会出现乱码。

2.字符集转换错误：当我们将一个文件从UTF-8 编码转换为ANSI 编码，或从ANSI 编码转换为UTF-8 编码时，如果转换过程出现错误，就可能导致乱码。

四、解决UTF-8 编码和ANSI 编码乱码的方法1.确定文本的编码方式：在使用文本编辑器打开文件时，先查看文件的编码方式，确保使用正确的编码方式打开文件。

如果文件的编码方式不正确，可以尝试重新保存文件，并选择正确的编码方式。

2.使用支持多种编码方式的编辑器：在选择文本编辑器时，可以选择支持多种编码方式的编辑器，这样可以避免因编码不匹配而导致的乱码问题。

3.进行正确的编码转换：如果需要将文件从UTF-8 编码转换为ANSI 编码，或从ANSI 编码转换为UTF-8 编码，可以使用专门的编码转换工具进行转换。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

UTF-8 and Unicode FAQ by Markus Kuhn 中国LINUX论坛翻译小组 xLoneStar[译] 2000年2月

这篇文章说明了在 POSIX 系统 (Linux,Unix) 上使用 Unicode/UTF-8 所需要的信息. 在将来不远的几年里, Unicode 已经很接近于取代 ASCII 与 Latin-1 编码的位置了. 它不仅允许你处理处理事实上存在于地球上的任何语言文字, 而且提供了一个全面的数学与技术符号集, 因此可以简化科学信息交换.

UTF-8 编码提供了一种简便而向后兼容的方法, 使得那种完全围绕 ASCII 设计的操作系统, 比如 Unix, 也可以使用 Unicode. UTF-8 就是 Unix, Linux 已经类似的系统使用 Unicode 的方式. 现在是你了解它的时候了. 什么是 UCS 和 ISO 10646?

国际标准 ISO 10646 定义了通用字符集 (Universal Character Set, UCS). UCS 是所有其他字符集标准的一个超集. 它保证与其他字符集是双向兼容的. 就是说, 如果你将任何文本字符串翻译到 UCS格式, 然后再翻译回原编码, 你不会丢失任何信息.

UCS 包含了用于表达所有已知语言的字符. 不仅包括拉丁语,希腊语, 斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语和乔治亚语的描述, 还包括中文, 日文和韩文这样的象形文字, 以及平假名, 片假名, 孟加拉语, 旁遮普语果鲁穆奇字符(Gurmukhi), 泰米尔语, 印.埃纳德语(Kannada), Malayalam, 泰国语, 老挝语, 汉语拼音(Bopomofo), Hangul, Devangari, Gujarati, Oriya, Telugu 以及其他数也数不清的语. 对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入. 这些语言包括 Tibetian, 高棉语, Runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如 Tengwar, Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的, 印刷用的, 数学用的和科学用的符号, 包括所有由 TeX, Postscript, MS-DOS，MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版系统提供的字符.

ISO 10646 定义了一个 31 位的字符集. 然而, 在这巨大的编码空间中, 迄今为止只分配了前 65534 个码位 (0x0000 到 0xFFFD). 这个 UCS 的 16位子集称为基本多语言面 (Basic Multilingual Plane, BMP). 将被编码在 16 位 BMP 以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们. 按当前的计划, 将来也许再也不会有字符被分配到从 0x000000 到 0x10FFFF 这个覆盖了超过 100 万个潜在的未来字符的 21 位的编码空间以外去了. ISO 10646-1 标准第一次发表于 1993 年, 定义了字符集与 BMP 中内容的架构. 定义 BMP 以外的字符编码的第二部分 ISO 10646-2 正在准备中, 但也许要过好几年才能完成. 新的字符仍源源不断地加入到 BMP 中, 但已经存在的字符是稳定的且不会再改变了.

UCS 不仅给每个字符分配一个代码, 而且赋予了一个正式的名字. 表示一个 UCS 或 Unicode 值的十六进制数, 通常在前面加上 "U+", 就象 U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 到 U+007F 与 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 与 ISO 8859-1(Latin-1) 也是一致的. 从 U+E000 到 U+F8FF, 已经 BMP 以外的大范围的编码是为私用保留的. 什么是组合字符?

UCS里有些编码点分配给了组合字符.它们类似于打字机上的无间隔重音键. 单个的组合字符不是一个完整的字符. 它是一个类似于重音符或其他指示标记, 加在前一个字符后面. 因而, 重音符可以加在任何字符后面. 那些最重要的被加重的字符, 就象普通语言的正字法(orthographies of common languages)里用到的那种, 在 UCS 里都有自己的位置, 以确保同老的字符集的向后兼容性. 既有自己的编码位置, 又可以表示为一个普通字符跟随一个组合字符的被加重字符, 被称为预作字符(precomposed characters). UCS 里的预作字符是为了同没有预作字符的旧编码, 比如 ISO 8859, 保持向后兼容性而设的. 组合字符机制允许在任何字符后加上重音符或其他指示标记, 这在科学符号中特别有用, 比如数学方程式和国际音标字母, 可能会需要在一个基本字符后组合上一个或多个指示标记.

组合字符跟随着被修饰的字符. 比如, 德语中的元音变音字符 ("拉丁大写字母A 加上分音符"), 既可以表示为 UCS 码 U+00C4 的预作字符, 也可以表示成一个普通 "拉丁大写字母A" 跟着一个"组合分音符":U+0041 U+0308 这样的组合. 当需要堆叠多个重音符, 或在一个基本字符的上面和下面都要加上组合标记时, 可以使用多个组合字符. 比如在泰国文中, 一个基本字符最多可加上两个组合字符. 什么是 UCS 实现级别?

不是所有的系统都需要支持象组合字符这样的 UCS 里所有的先进机制. 因此 ISO 10646 指定了下列三种实现级别: 级别1 不支持组合字符和 Hangul Jamo 字符 (一种特别的, 更加复杂的韩国文的编码, 使用两个或三个子字符来编码一个韩文音节) 级别2 类似于级别1, 但在某些文字中, 允许一列固定的组合字符 (例如, 希伯来文, 阿拉伯文, Devangari, 孟加拉语, 果鲁穆奇语, Gujarati, Oriya, 泰米尔语, Telugo, 印.埃纳德语, Malayalam, 泰国语和老挝语). 如果没有这最起码的几个组合字符, UCS 就不能完整地表达这些语言. 级别3 支持所有的 UCS 字符, 例如数学家可以在任意一个字符上加上一个 tilde(颚化符号,西班牙语字母上面的～)或一个箭头(或两者都加).

什么是 Unicode? 历史上, 有两个独立的, 创立单一字符集的尝试. 一个是国际标准化组织(ISO)的 ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目. 幸运的是, 1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作. 两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展. 那么 Unicode 和 ISO 10646 不同在什么地方?

Unicode 协会公布的 Unicode 标准严密地包含了 ISO 10646-1 实现级别3的基本多语言面. 在两个标准里所有的字符都在相同的位置并且有相同的名字.

Unicode 标准额外定义了许多与字符有关的语义符号学, 一般而言是对于实现高质量的印刷出版系统的更好的参考. Unicode 详细说明了绘制某些语言(比如阿拉伯语)表达形式的算法, 处理双向文字(比如拉丁与希伯来文混合文字)的算法和排序与字符串比较所需的算法, 以及其他许多东西.

另一方面, ISO 10646 标准, 就象广为人知的 ISO 8859 标准一样, 只不过是一个简单的字符集表. 它指定了一些与标准有关的术语, 定义了一些编码的别名, 并包括了规范说明, 指定了怎样使用 UCS 连接其他 ISO 标准的实现, 比如 ISO 6429 和 ISO 2022. 还有一些与 ISO 紧密相关的, 比如 ISO 14651 是关于 UCS 字符串排序的.

考虑到 Unicode 标准有一个易记的名字, 且在任何好的书店里的 Addison-Wesley 里有, 只花费 ISO 版本的一小部分, 且包括更多的辅助信息, 因而它成为使用广泛得多的参考也就不足为奇了. 然而, 一般认为, 用于打印 ISO 10646-1 标准的字体在某些方面的质量要高于用于打印 Unicode 2.0的. 专业字体设计者总是被建议说要两个标准都实现, 但一些提供的样例字形有显著的区别. ISO 10646-1 标准同样使用四种不同的风格变体来显示表意文字如中文, 日文和韩文 (CJK), 而 Unicode 2.0 的表里只有中文的变体. 这导致了普遍的认为 Unicode 对日本用户来说是不可接收的传说, 尽管是错误的. 什么是 UTF-8?

首先 UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个或 4 个字节序列的串. 这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention). 将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00. 如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00.

在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 '\0' 或 '/', 它们在文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.

在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法.

UTF-8 and Unicode FAQ

合集下载

utf8 汉字编码

utf中文编码范围

python中unicode、utf8、gbk等编码问题

不符合utf-8的编码规则的字符

utf8 4字节字符

utf8和ansi导致乱码的字串

utf-8码对照表编码规则

utf-8 文本分隔格式

utf-8 文本分隔格式

utf8 二进制

UTF8编码解码

utf8编码中文表

c utf8编码格式

utf8编码转换中文

utf-8中2字节,3字节,4字节的字符举例

utf8和ansi导致乱码的字串

文档推荐

最新文档

UTF-8 and Unicode FAQ

合集下载

utf8 汉字编码

utf中文编码范围

python中unicode、utf8、gbk等编码问题

不符合utf-8的编码规则的字符

utf8 4字节 字符

utf8和ansi导致乱码的字串

utf-8码对照表编码规则

utf-8 文本分隔格式

utf-8 文本分隔格式

utf8 二进制

UTF8编码解码

utf8编码中文表

c utf8编码格式

utf8编码转换中文

utf-8中2字节,3字节,4字节的字符举例

utf8和ansi导致乱码的字串

文档推荐

最新文档

utf8 4字节字符