第二章规范的xml文件.ppt.Convertor
- 格式:doc
- 大小:110.00 KB
- 文档页数:14
标准的xml文件格式XML(可扩展标记语言)是一种用于标记电子文档结构和数据的标准格式。
它被广泛应用于Web开发、数据交换和配置文件等领域。
标准的XML文件格式对于确保文档的正确性和可读性至关重要。
本文将介绍标准的XML文件格式,包括其基本结构、常见元素和属性,以及一些最佳实践。
XML文件由标签、元素、属性和数据组成。
标签是XML文档的基本构建块,用于定义元素和属性。
元素是标签的实例,用于表示文档中的数据结构。
属性是元素的附加信息,用于提供关于元素的额外描述。
数据则是元素或属性中的实际内容。
在标准的XML文件格式中,一个合法的XML文档必须包含一个根元素。
根元素是XML文档的顶层元素,所有其他元素都必须包含在根元素内部。
根元素还必须是唯一的,不能有多个根元素存在于同一个XML文档中。
除了根元素外,XML文档还可以包含注释、处理指令和空白字符。
注释用于向文档中添加说明性的文字,可以帮助他人理解文档的内容和结构。
处理指令用于指示解析器如何处理文档中的特定部分。
空白字符(如空格、制表符和换行符)用于格式化文档,但在某些情况下也可以影响文档的解析和处理。
在XML文件中,元素和属性的命名必须遵循一定的规则。
它们必须以字母、下划线或冒号开头,后面可以跟随任意数量的字母、数字、下划线、连字符或句点。
此外,元素和属性的命名是区分大小写的,因此<book>和<Book>被视为两个不同的元素。
另外,XML文件中还可以包含实体引用和CDATA部分。
实体引用用于表示一些特殊字符,如<表示小于号,&表示和号等。
CDATA部分用于包含文本块,其中的内容不会被解析器解析,而是作为原始数据处理。
在编写XML文件时,应该尽量遵循一些最佳实践,以确保文档的可读性和可维护性。
例如,应该使用缩进和换行来组织文档的结构,使其更易于理解和修改。
此外,应该为元素和属性选择描述性的名称,以便他人能够理解其含义和用途。
第二章规范的XML文件XML的特点:1、是一种能够应用在各个领域进行设计的元标记语言。
2、XML的标记是可自由定义,使得XML文件能够很好地体现数据结构和含义。
3、XML文件必须符合一定的语法规则。
XML文件规范的XML文件(Well-Formed XML):符合W3C指定的基本语法规则。
有效的XML文件(Validated XML):规范的XML文件再符合额外的一些约束。
规范的XML文件有效的XML文件什么是规范的XML文件呢?符合W3C指定的基本语法规则的XML文件称为有效的XML文件. W3C指定的基本语法规则是指比如,文件用”XML声明”开始,文件有且仅有一个根标记,其他标记必须都封装在根标记中,文件的标记必须是树状结构,非空标记必须由”开始标记”与”结束标记”组成,空标记没有”开始标记”和”结束标记”,等等.什么是有效的XML文件规范的XML文件再符合额外的一些约束就称为有效的XML文件.通常人们认为不规范的XML文件是没有价值的文件,甚至是不能叫做一个XML文件.我们所说的XML文件都是W3C所指定的规范标准.也就是规范的XML文件.规范的XML的组成:可选的序言:声明及注释文档的主体由一个或多个元素组成,其形式为一个可能包含字符数据的文档树可选的尾部:注释、处理指令和紧跟元素树后的空白。
主要内容XML声明XML标记CDATA区段标记的属性名称空间XML声明一个规范的XML文档通常以XML声明开始,通过XML元素来组织XML数据。
XML声明是处理指令的一种,它告诉浏览器或其他处理程序这个文档是XML文档。
声明必须放在第一行,前面不能有空白、注释或其它处理命令。
XML声明XML声明中的版本属性XML声明中的编码属性XML声明中的独立属性其格式如下:<?xml 版本信息[编码信息] [文档独立性信息] ?>例子:<?xml version=“1.0” encoding=“UTF-8” standalone=“yes” ?>一对中括号([ ])中的部分表示是可选信息XML声明中的版本属性一个最基本的XML声明:<?xml version="1.0" ?>注:V ersion属性不能省略且必须在属性列表的第一位,指明所采用的XML的版本号,用来保证对XML未来版本的支持。
第二章规范的XML文件XML的特点:1、是一种能够应用在各个领域进行设计的元标记语言。
2、XML的标记是可自由定义,使得XML文件能够很好地体现数据结构和含义。
3、XML文件必须符合一定的语法规则。
XML文件规范的XML文件(Well-Formed XML):符合W3C指定的基本语法规则。
有效的XML文件(Validated XML):规范的XML文件再符合额外的一些约束。
规范的XML文件有效的XML文件什么是规范的XML文件呢?符合W3C指定的基本语法规则的XML文件称为有效的XML文件. W3C指定的基本语法规则是指比如,文件用”XML声明”开始,文件有且仅有一个根标记,其他标记必须都封装在根标记中,文件的标记必须是树状结构,非空标记必须由”开始标记”与”结束标记”组成,空标记没有”开始标记”和”结束标记”,等等.什么是有效的XML文件规范的XML文件再符合额外的一些约束就称为有效的XML文件.通常人们认为不规范的XML文件是没有价值的文件,甚至是不能叫做一个XML文件.我们所说的XML文件都是W3C所指定的规范标准.也就是规范的XML文件.规范的XML的组成:可选的序言:声明及注释文档的主体由一个或多个元素组成,其形式为一个可能包含字符数据的文档树可选的尾部:注释、处理指令和紧跟元素树后的空白。
主要内容XML声明XML标记CDATA区段标记的属性名称空间XML声明一个规范的XML文档通常以XML声明开始,通过XML元素来组织XML数据。
XML声明是处理指令的一种,它告诉浏览器或其他处理程序这个文档是XML文档。
声明必须放在第一行,前面不能有空白、注释或其它处理命令。
XML声明XML声明中的版本属性XML声明中的编码属性XML声明中的独立属性其格式如下:<?xml 版本信息[编码信息] [文档独立性信息] ?>例子:<?xml version=“1.0” encoding=“UTF-8” standalone=“yes” ?>一对中括号([ ])中的部分表示是可选信息XML声明中的版本属性一个最基本的XML声明:<?xml version="1.0" ?>注:V ersion属性不能省略且必须在属性列表的第一位,指明所采用的XML的版本号,用来保证对XML未来版本的支持。
XML声明中的编码属性<?xml version="1.0" encoding=“UTF-8” ?>编码属性指定了文本的编码系统,即规定了XML文档采用哪种字符集进行编码。
这是一个指定了编码方式的xml声明。
我们说encoding指定的编码方式要和其xml的保存方式相一致。
————————————————接下来我们就介绍一下我们常用的编码方式和保存方式。
XML声明中的编码属性常用的编码方式及其保存方式UTF-8gb2312ISO-8859-1如果我们指定encoding的属性值是“UTF-8”那么保存时我们也必须选择其编码是UTF-8。
采用这种编码方式,那么标记及标记的内容就可以使用汉字,英文,日文,法文等等。
如果我们的xml文件有特殊要求只准使用ASCII字符和汉字,那么我们可以指定encoding 的属性值是“gb2312”那么保存时我们也必须选择其编码是ANSI。
如果这时在我们的xml 文档中出现日文,韩文等,IE及xml解析器就不能正确显示而要抱错了。
如果我们只准备使用ASII字符,那么我们就可以将encoding的属性值设为“ISO-8859-1”那么保存时我们也必须选择其编码是ANSI。
————————————————————那么有些同学就会问了,为什么会有这么多的编码方式呢?他们有什么区别?有什么用呢?那么先让我们看几幅图片。
不同的字符集ASCII字符集American Standard Code for Information Interchange(美国标准信息交换码)ISO字符集国际标准组织(ISO)定义了几个不同的字符集,其中最突出的是ISO-8859-1(通常叫做Latin-1 )ASCII字符集是我们最熟悉的,它是一个原始的字符集,而且是到目前为止最通用的。
所有的字符集都是对它的扩展。
字符的编码是0~127国际标准组织(ISO)定义了几个不同的字符集,它们是在ASCII码基础上增加了其他语言和地区需要的字符。
其中最突出的是ISO-8859-1,通常叫做Latin-1。
Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符,其中0~127的字符与ASCII码相同。
那么我们保存文件用的ANSI编码又是一个什么字符集呢?它是Windows 对Latin-1版本的扩展,使用更多的可打印字符代替介于130和159之间的非打印控制字符,从而进一步扩展了使用范围。
不同的字符集Unicode字符集由UNICODE协会管理并接受其技术上的修改。
Unicode使用0~65,535的双字节无符号数对每一个字符进行编码。
Unicode中0~`255的字符与Latin-1中的一致。
UTF-8字符集UTF-8是一个压缩的Unicode版本是XML的默认字符集但是这些编码仅仅是针对罗马文字的国家,而我们需要的是一种得到大家的认可并且编码了全世界各种文字的字符集。
建立这样的字符集很难,需要对成百上千种语言和文字有细致的了解。
不过这方面的努力一直在进行,终于创建了一个符合要求的字符集;Unicode。
而且主要卖方(微软、苹果、IBM、Sun、Be等)正逐步趋向于使用它。
Unicode字符集由UNICODE 协会管理并接受其技术上的修改。
Unicode使用0~65,535的双字节无符号数对每一个字符进行编码。
目前已经定义了40,000多个不同的Unicode字符,剩余25,000个空缺留给将来扩展之用。
其中大约20,000个字符用于汉字,另外11,000左右的字符用于韩语音节。
Unicode 中0~`255的字符与Latin-1中的一致。
这么庞大的字符库仍然没有覆盖全部历史上的文字,特别是亚洲东部的语言,它只定义了中国、日本、朝鲜和古越南使用的80万象形文字中的20万个左右。
但大部分国家的“字母表”字母都是Unicode字符集中的一个字符。
Unicode 使用双字节表示一个字符,因此使用Unicode的英文文本文件大小是使用ASCII码或Latin-1文件的两倍UTF-8是一个压缩的Unicode版本,使用单个字节表示最常用的字符,即0到127的ASCII 字符,较少见的字符使用三个字节表示,特制是韩国音节和汉字。
如果主要使用英文,UTF-8能够将文件压缩为原来的一半。
如果主要使用汉语、朝语或者日语,UTF-8会使文件的尺寸增加50% 。
这是一个用java编写的输出汉字“你”和希腊字母“a”的utf-8编码的效果。
到目前为止我们介绍了4种编码集该表列出了目前大部分常用的字符集的正式名称,即出现在XML编码属性中的名称XML声明中的独立属性<?xml versio n="1.0" encoding=“UTF-8” standalone=“yes” ?>如果我们的文档不依赖于外部文档,即所有必须的实体声明都包含在文档中。
在XML声明中,我们可以通过standalone=“yes”声明这个文档是独立的文档.如果文档依赖于外部文档,即需要外部的DTD(文档类型定义),可以通过standalone=“no”来声明.XML的标记XML的标记分为非空标记与空标记.XML标记空标记非空标记开始标记结束标记XML是基于文本的标记语言,标记是XML文档最基本的组成部分。
在黑板上举两个例子.非空标记和空标记XML的空标记空标记的语法格式<空标记的名称属性列表/>或<空标记的名称/>“<”与“标记名称”之间不要含有空格“/>”可以有空格和换行我们知道了XML是由标记和标记内容构成的文本文件,标记分为空标记和非空标记。
空标记即不标记任何内容的标记,对于空标记,按其是否含有属性,有两种语法格式。
我们在实验课中知道,<和名称之间前面不能有空格,后面可以有空格或者是换行都行,但是/〉必须紧邻。
XML中的空标记例子:<王菲age=“35”sex=“女”/><李亚鹏/><谢霆锋age=“26”sex=“男”/>XML中的非空标记非空标记必须由“开始标记”与“结束标记”组成,两者之间是该“标记的内容”。
例子:<超级女生>我喜欢这个节目</超级女生>开始标记以“<”标识开始,用“>”标识结束,“<”标识与“>”标识之间是标记的名称和属性列表XML中的非空标记非空标记语法格式开始标记格式<标记的名称属性列表>或<标记名称>结束标记</标记名称>例子:<王菲sex=“女”></王菲>“<”与标记名称之间不要含有空格“>”可以有空格和换行在黑板上写两个例子一对一错非空标记的内容开始标记与结束标记之间是标记的内容。
标记内容是有两部分组成:文本数据与标记。
标记内容中的标记称作该标记的子标记非空标记的内容1.<goods>电脑</goods>2.<goods>电脑</goods>这两个非空标记内容是否相同?文本数据包括空格和回车标记的名称规则:名称可以由字母、数字、下划线、点或连字符组成,但必须以字母或下划线开头。
标记名称区分大小写<name>与<Name>如果用UTF-8编码,字母不仅包括通常的拉丁字母,还包括汉字、日文。
XML的根标记XML文件必须有且仅能有一个根标记,其他标记都必须封装在根标记中。
最后XML文件的标记必须形成树状结构。
XML的根标记<root><性别>男<出生日期></性别>1980年8月6日</出生日期></root>×这不是一个规范的XML文件,标记未形成树状结构。
性别与出生日期标记有交叉XML文件中的特殊字符XML文件中有五种特殊字符:<、>、&、’、”XML标记内容中的文本数据不能含有特殊字符这五种特殊字符对于XML有特殊的用途。
我们知道标记的内容可以由两部分构成:文本数据和标记,其中文本数据包含空格和回车,但不能包含这5个特殊字符。
XML特殊字符但是如果我们想要包含的时候怎么办呢?有2种方法:实体引用和字符引用。