当前位置：文档之家› xml解析方式

xml解析方式

XML解析方式

XML（Extensible Markup Language）即可扩展标记语言，它与HTML一样，都是SGML(Standard Generalized Markup Language,标准通用标记语言)。Xml 是Internet环境中跨平台的，依赖于内容的技术，是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言，使用一系列简单的标记描述数据，而这些标记可以用方便的方式建立。XML已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。XML的解析方式基本上分为三类：第一类是基于XML文档树结构的解析，例如DOM(Document Object Model)；第二类是基于流式的解析，例如SAX(Simple API for XML)、StAX(Stream API for XML)和XPP(XML Pull Parser)；第三类是基于非提取式的解析，例如VTD-XML(Virtual Token Description for XML)。

1DOM

DOM是用与平台和语言无关的方式表示诸如XML和HTML文档的W3C(万维网联盟) 官方推荐标准。它定义了所有文档元素的对象和属性，以及访问它们的API接口。W3C DOM被分为3个不同的部分，核心DOM、XML DOM和HTML DOM。核心DOM用于任何结构化文档的标准模型；XML DOM用于XML的标准对象模型和标准编程接口；HTML DOM用于HTML文档的标准模型。

DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于它是基于信息层次的，因而DOM被认为是基于树或基于对象的。

优点：易用性强，由于树在内存中是持久的，因此可以修改它以便应用程序能对数据和结构作出更改，它还可以在任何时候在树中上下导航。

缺点：效率低，解析速度慢，内存占用量过高，对于大文件来说几乎不可能使用。另外效率低还表现在大量的消耗时间，因为使用DOM进行解析时，将为文

档的每个element、attribute、processing-instruction和comment都创建一个对象，这样在DOM机制中所运用的大量对象的创建和销毁无疑会影响其效率。

2SAX

SAX是基于事件驱动的推式解析方式。它并不是W3C的官方标准，而是业界事实上的标准。SAX解析的基本原理是把元素开始、元素结束、文本、文档的开始或结束等当成一个事件，当解析器遇到这些事件时，就发送请求给事件处理接口进行处理。事件处理接口的具体实现是程序员编写的事件处理响应代码。SAX 解析的基本原理如下图：

SAX处理的优点非常类似于流媒体的优点。分析能够立即开始，而不是等待所有的数据被处理。由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。一般来说，SAX还比它的替代者DOM快许多。

选择DOM还是选择SAX？对于需要自己编写代码来处理XML文档的开发人员来说，选择DOM还是SAX解析模型是一个非常重要的设计决策。DOM采用建立树形结构的方式访问XML文档，而SAX采用的事件模型。

DOM解析器把XML文档转化为一个包含其内容的树，并可以对树进行遍历。用DOM解析模型的优点是编程容易，开发人员只需要调用建树的指令，然后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用DOM解析器的时候需要处理整个XML文档，所以对性能和

内存的要求比较高，尤其是遇到很大的XML文件的时候。由于它的遍历能力，DOM 解析器常用于XML文档需要频繁的改变的服务中。

SAX解析器采用了基于事件的模型，它在解析XML文档的时候可以触发一系列的事件，当发现给定的tag的时候，它可以激活一个回调方法，告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低，因为它让开发人员自己来决定所要处理的tag.特别是当开发人员只需要处理文档中所包含的部分数据时，SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难，而且很难同时访问同一个文档中的多处不同数据。

优点：所有的SAX处理都在一次遍历中完成的；因此，在解析同等大小的文档时SAX通常会相比DOM提供更好的性能（因为DOM必须遍历树结构）。此外，与DOM是比，因为在给定的时间之内只需要XML文档的一部分装入内存，所以SAX通常在处理更大文件时内存的利用效率也来得更高（DOM在开始解析文档之前必须把全部XML文档装入内存）。

缺点： SAX应用程序一般都比较长，程序中充斥着大量的if/else结构用

来确定处理特定元素时所采用的运动。同样的，处理多个XML元素之间散布的数据结构也很成问题，因为解析事件之间必须保存中间数据。SAX应用程序的事件处理结构一般意味着SAX应用程序是针对特定文件结构定制构建的，而DOM应用程序则更具一般性。

3StAX

StAX是基于事件流的拉式是解析方式，与SAX不同之处在于StAX 允许应用程序代码把这些事件逐个拉出来，而不用提供在解析器方便时从解析器中接收事件的处理程序。

StAX 实际上包括两套处理XML 的API，分别提供了不同程度的抽象。基于指针的API 允许应用程序把XML 作为一个标记（或事件）流来处理；应用程

序可以检查解析器的状态，获得解析的上一个标记的信息，然后再处理下一个标记，依此类推。这是一种低层API，尽管效率高，但是没有提供底层XML 结构的抽象。较为高级的基于迭代器的API 允许应用程序把XML 作为一系列事件

对象来处理，每个对象和应用程序交换XML 结构的一部分。应用程序只需要确

定解析事件的类型，将其转换成对应的具体类型，然后利用其方法获得属于该事件的信息。

StAX 所采用的基于拉的方法和其他方法相比有一些突出的优点。首先，不管使用哪种API 风格，都是应用程序调用读取器（解析器）而不是相反。通过保留解析过程的控制权，可以简化调用代码来准确地处理它预期的内容。或者发生意外时停止解析。此外，由于该方法不基于处理程序回调，应用程序不需要像使用SAX 那样模拟解析器的状态。

StAX 仍然保留了SAX 相对于DOM 的优点。通过把重心从结果对象模型转移到解析流本身，从理论上说应用程序能够处理无限的XML 流，因为事件固有的临时性，不会在内存中累积起来。对于那些使用XML 作为消息传递协议而非表示文档内容的那些应用程序尤其重要，比如Web 服务或即时消息应用程序。比方说，如果只是将其转换成特定于应用程序的对象模型然后就将其丢弃，那么为Web 服务路由器servlet 提供一个DOM 就没有多少用处。使用StAX 直接转化成应用程序模型效率更高。对于Extensible Messaging and Presence Protocol （XMPP）客户机，根本不能使用DOM，因为XMPP 客户机/服务器流是随着用户输入的消息实时生成。等待流的关闭标签（以便最终建立DOM）就意味着等待整个会话结束。通过把XML 作为一系列的事件来处理，应用程序能够以最合适的方式响应每个事件（比如显示收到的即时消息等等）。

由于其双向性，StAX 也支持链式处理，特别是在事件层上。接收事件（无论什么来源）的能力被封装在XMLEventConsumer（XMLEventWriter 的扩展）接口中。因此，可以模块化地编写应用程序从XMLEventReader（也是一个普通的迭代器，可以按迭代器处理）读取和处理XML 事件、然后传递给事件消费者（如果需要可以进一步扩展处理链）。在第2 部分将看到，也可使用应用程序提供的筛选器（实现了EventFilter 接口的类）来定制XMLEventReader 或者使用EventReaderDelegate 修饰已有的XMLEventReader。

总而言之，和DOM 以及SAX 相比，StAX 使应用程序更贴近底层的XML。使用StAX，应用程序不仅可以建立需要的对象模型（而不需要处理标准DOM），而且可以随时这样做，而不必等到解析器回调。

4XPP

XPP是更底层的StAX解析方式，只能适当支持XML 文档的子集并且不提供验证的任何支持。它同样具有尺寸小的优势。这种优势再与拉回解析器方法结合，使它成为该比较中的良好替换项。

XPP 几乎独占地使用接口，但是它仅使用所有类中的一小部分。XPP 避免使用API 中的Collections 类。总的来说，它是本文中最简单的文档模型API。

将XPP 限制成XML 文档子集的局限性是它不支持文档中的实体、注释或

处理指示信息。XPP 创建仅包含元素、属性（包括“名称空间”）和内容文本的文档结构。这对于某些类型的应用程序来说是一种非常严格的限制。

XPP 中的拉回解析器支持（本文中称为XPP 拉回）通过将解析实际上推迟

到访问文档的一个组件时才进行，然后按照构造那个组件的需要对文档进行解析。该技术想实现允许非常快速的文档显示或分类应用，尤其在需要转发或除去（而不是对文档进行完全解析和处理）文档时。该方法的使用是可选的，如果以非拉回型方式使用XPP，它对整个文档进行解析并且同时地构建完整的表示。

XPP 使用依据文本文档构建文档表示的集成语法解析器，并且除了通过文本方式外，它不提供从DOM（或SAX2）转换或转换成SAX2（或DOM）事件流

的任何方式。

5VTD

当我们选择处理 XML 文件的时候，正如上面介绍的那样，大致上有DOM、SAX、StAX和XPP四种选择。虽然它们都各有其利弊，但都不是特别好的解决方案，不难看出，DOM 与 SAX（StAX、XPP）是正好相反的两个极端，它们在解析效率上都存在一定的性能瓶颈，究其原因，在于它们都是基于提取解(extractive parsing)模式。所谓的提取解析就是说在解析 XML 时，解析器会提取一部分原文件，一般来说是一个字符串，然后在内存中进行解析构建，输出自然就是一个或一些对象了。以DOM 为例，DOM 会将每一个 element,attribute, processing-instruction, comment 等等都解析成对象并给与结构，这就是所谓的提取解析。提取解析将会带来三种RoundTrip，引起性能瓶颈：

1.对象的创建与回收。提取解析模式注定了解析器都需要大量的创建或

销毁对象，引起效率问题。

2.编码与解码。无论是何种解析方法都需要能够处理 XML 的编码，也就

是说，在读取的时候解码，在写入的时候编码。

3.Tokenize和Untokenize。无论是何种解析方法，都会将其中的Token

输出为字符串以提供给应用程序，应用程序修改完毕，又将其字符

untokenize成原始数据类型。

因此，在 DOM 或者SAX 、StAX和XPP的对象模型中，当每一次需要做改动时，我们要做的就是将对象的信息再解析回 XML 的字符串，注意这个解析是个完整的解析，也就是说，原文件并没有被利用，而是直接将对象模型重新完整解

析成 XML 字符串。换句话讲，它们并不支持增量更新，而在这过程中，有很多不是应用程序所关心的，因而增加了不必要的性能开销。

总而言之， DOM、SAX、StAX和XPP的效率问题主要出在它的提取解析模式上， VTD－XML[25]（Virtual Token Descriptor虚拟令牌描述符）便是对以上问题的思考后给出的答案，它是一个非提取的 XML解析器，由于它出色的机制，很好的解决了上面所提出的各种问题，并且还带来了非提取的其他好处，像快速的解析与遍历、对 XPath 的支持、增量更新等等。一条VTD记录的比特层格式如下所示：

图8 VTD比特层格式

各字段的描述如下：

·开始偏移量：30bits(b29~b0)最大值是 2^30-1 = 1G-1；

·长度：20bits(b51~b32)最大值是 2^20-1 = 1M-1；

其中前缀长度：9bits(b51~b43)最大值是 511；

序列名长度：11bits(b42~b32)最大值是 1023；

·深度：8bits(b59~b52)最大值是 255；

·令牌类型：4bits(b63、b60)；

·保留：2bits(b31、b30)。

由此可见VTD 是 64bits 固定长度的，这样做的目的就是为了提高性能，因为长度固定，在读取，查询等操作的时候格外的高效，也就是可以用数组这种高效的结构来组织 VTD，这大大减少了因为大量使用对象而产生的性能问题。

Dom4j遍历解析XML测试

Dom4j遍历解析XML测试近来老和XML打交道，不深挖不行了。。这是一个Dom4j解析XML的例子，为做复杂递归处理前期所写的例子。涵盖了XML的解析方面大部分核心API。环境： Dom4j-1.6.1 Dom4j解析需要XML需要的最小类库为： dom4j-1.6.1.jar jaxen-1.1-beta-6.jar 目标：解析一个xml，输出所有的属性和元素值。测试代码： XML文件： zhangsan 32 home add com add lisi 22 home add com add com add

解析代码： package com.topsoft.test; import org.dom4j.io.SAXReader; import org.dom4j.Document; import org.dom4j.DocumentException; import org.dom4j.Element; import org.dom4j.Node; import java.util.Iterator; import java.util.List; import java.io.InputStream; /** * Created by IntelliJ IDEA.
* User: leizhimin
* Date: 2008-3-26 15:53:51
* Note: Dom4j遍历解析XML测试 */ public class TestDom4j { /** * 获取指定xml文档的Docum ent对象,xml文件必须在classpath中可以找到 * * @param xmlFilePath xml文件路径 * @return Document对象 */ public static Docum ent parse2Document(String xmlFilePath) { SAXReader reader = new SAXReader(); Docum ent docum ent = null; try { InputStream in =TestDom4j.class.getResourceAsStream(xmlFilePath); docum ent =reader.read(in); } catch (Docum entException e) { System.out.println(e.getMessage()); System.out.println("读取classpath下xmlFileName文件发生异常，请检查CL ASSPATH和文件名是否存在！"); e.printStackTrace(); }

java_Dom4j解析XML详解

学习：Dom4j 1、DOM4J简介 DOM4J是https://www.doczj.com/doc/8a17959095.html, 出品的一个开源XML 解析包。DOM4J应用于Java 平台，采用了Java 集合框架并完全支持DOM，SAX 和JAXP。 DOM4J 使用起来非常简单。只要你了解基本的XML-DOM 模型，就能使用。 Dom：把整个文档作为一个对象。 DOM4J 最大的特色是使用大量的接口。它的主要接口都在org.dom4j里面定义：

接口之间的继承关系如下： interface https://www.doczj.com/doc/8a17959095.html,ng.Cloneable interface org.dom4j.Node interface org.dom4j.Attribute interface org.dom4j.Branch interface org.dom4j.Document interface org.dom4j.Element interface org.dom4j.CharacterData interface org.dom4j.CDATA interface https://www.doczj.com/doc/8a17959095.html,ment interface org.dom4j.Text interface org.dom4j.DocumentType interface org.dom4j.Entity interface org.dom4j.ProcessingInstruction 2、XML文档操作1 2.1、读取XML文档：读写XML文档主要依赖于org.dom4j.io包，有DOMReader和SAXReader两种方式。因为利用了相同的接口，它们的调用方式是一样的。 public static Docum ent load(String filenam e) { Document docum ent =null; try { SAXReader saxReader = new SAXReader(); docum ent =saxReader.read(new File(filename)); //读取XML文件,获得docum ent 对象 } catch (Exception ex) { ex.printStackTrace();

XML报文解析测试

XML报文解析测试在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。预备测试环境： AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server SP4、Sun JDK 1.4.1+Eclipse 2.1+Resin 2.1.8，在 Debug 模式下测试。 XML 文件格式如下：＜?xml version="1.0" encoding="GB2312"?＞＜RESULT＞＜VALUE＞＜NO＞A1234＜/NO＞＜ADDR＞四川省XX县XX镇XX路X段XX号＜/ADDR＞＜/VALUE＞＜VALUE＞＜NO＞B1234＜/NO＞＜ADDR＞四川省XX市XX乡XX村XX组＜/ADDR＞＜/VALUE＞＜/RESULT＞测试方法：采用 JSP 端调用Bean（至于为什么采用JSP来调用，请参考： https://www.doczj.com/doc/8a17959095.html,/rosen/archive/2004/10/15/138324.aspx），让每一种方案分别解析10K、100K、1000K、10000K的 XML 文件，计算其消耗时间（单位:毫秒）。 JSP 文件：＜%@ page contentType="text/html; charset=gb2312" %＞＜%@ page import="com.test.*"%＞＜html＞＜body＞＜% String args[]={""}; MyXMLReader.main(args); %＞

Python解析XML的三种方式

一、什么是 XML？ XML 被设计用来传输和存储数据。它也是元标记语言，即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。准备一个解析用的xml如下： 1 laoz 老曾 30 男 https://www.doczj.com/doc/8a17959095.html, 我是老曾 2 qz 强子 30 男 https://www.doczj.com/doc/8a17959095.html, 我是强子 1、第一行是 XML 声明它定义 XML 的版本（1.0）和所使用的编码（utf-8 : 万国码, 可显示各种语言） 2、必须包含根元素(有且只有一个) 该元素是所有其他元素的父元素,这里的根元素是Data ..

所有的都被包含在里面 3、元素开始标签必须要有结束标签 < account > 元素有 6个子元素：、、、、、、< description > 每个元素都有对应的关闭标签(跟HTML不一样，有一些是不需要关闭的，比如,
) 4、XML 标签对大小写敏感比如和是不一样的 5、XML 属性值必须加引号 < account name=laoz>这样会报错的,必须"laoz"才行二、Python 对 XML 的解析 Python 有三种方法解析 XML，SAX，DOM，以及 ElementTree。 DOM会把整个XML读入内存，解析为树，因此占用内存大，解析慢，优点是可以任意遍历树的节点。SAX是流模式，边读边解析，占用内存小，解析快，缺点是我们需要自己处理事件。 1、利用DOM解析XML 一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。

android 中对xml 进行解析

DOM解析器是通过将XML文档解析成树状模型并将其放入内存来完成解析工作的，而后对文档的操作都是在这个树状模型上完成的。这个在内存中的文档树将是文档实际大小的几倍。这样做的好处是结构清除、操作方便，而带来的麻烦就是极其耗费系统资源。而SAX正好克服了DOM的缺点，分析能够立即开始，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中，这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。选择DOM 还是选择SAX，这取决于下面几个因素：应用程序的目的：如果打算对数据作出更改并将它输出为XML，那么在大多数情况下，DOM 是适当的选择。并不是说使用SAX 就不能更改数据，但是该过程要复杂得多，因为您必须对数据的一份拷贝而不是对数据本身作出更改。数据容量：对于大型文件，SAX 是更好的选择。数据将如何使用：如果只有数据中的少量部分会被使用，那么使用SAX 来将该部分数据提取到应用程序中可能更好。另一方面，如果您知道自己以后会回头引用已处理过的大量信息，那么SAX 也许不是恰当的选择。对速度的需要：SAX 实现通常要比DOM 实现更快。基于上面的分析，在基于Android系统的内存和CPU资源比较有限的手持设备上，只要我们不需要修改XML数据或者随机的访问XML数据，SAX尽管可能需要更多的编码工作，但是为了更小的内存和CPU 消耗，还是值得的。另外，Android SDK中已经包含了JAXP对应的javax.xml.parsers包，和SAX对应org.xml.sax（当然DOM对应的org.w3c.dom包也包含在内），加上Android还提供了android.sax这样的包来方便SAX Handle的开发，基于JAXP和SAX这样的标准方法来开发不仅复杂度不高，即使出现问题在讨论组中寻求解决方案也是比较容易的。 android 中的xml解析应该是和java中一条道路主要分为sax 解析和的Dom 解析。如下的介绍的相关的包和类均为android 环境下： sax解析对应为： org\xml\sax 包：xml解析 javax.xml.parsers.SAXParserFactory javax.xml.parsers.SAXParser 两个主要用于SAXParser的上下文建立

Qt中使用DOM对XML进行的各种解析

Qt中使用DOM对XML进行的各种解析（总结）前几天因为底层拓扑结构发生了变化，导致拓扑文件发生了变化，我负责的对于拓扑文件的解析操作自然也就要推到重来。利用上个周末的时间，把这个任务搞定了，顺便也利用这个时间好好总结下这次学到的知识。我们知道，QT中对于XML文件的读写无非就两种方式，DOM和SAX，两种方法的具体介绍如下： /***************************************我是传说中的分割线**************************************************************/ 用于读取和操作XML 文件的标准是文档对象模型DOM。 DOM为XML 文档的已解析版本定义了一组接口。解析器读入整个文档，然后构建一个驻留内存的树结构，然后您的代码就可以使用DOM 接口来操作这个树结构。您可以遍历树以了解原始文档包含了什么，您可以删除树的几个部分，还可以重新排列树和添加新的分支，等等。遗憾的是，因为DOM 方法涉及读取整个文件并将该文件存储在一个树结构中，而这样可能是低效的、缓慢的，并且很消耗资源: DOM 构建整个文档驻留内存的树。如果文档很大，就会要求有极大的内存。 DOM 创建表示原始文档中每个东西的对象，包括元素、文本、属性和空格。如果您只需关注原始文档的一小部分，那么创建那些永远不被使用的对象是极其浪费的。 DOM 解析器必须在您的代码取得控制权之前读取整个文档。对于非常大的文档，这会引起显著的延迟。这些仅仅是由文档对象模型的设计引起的问题；撇开这些问题，DOM API 是解析XML 文档非常有用的方法。一种替代技术就是SAX。相比于文档对象模型DOM，SAX 是读取和操作XML 数据的更快速、更轻量的方法。SAX 允许您在读取文档时处理它，从而不必等待整个文档被存储之后才采取操作。它不涉及DOM所必需的开销和概念跳跃。 SAX API是一个基于事件的API，适用于处理数据流，即随着数据的流动而依次处理数据。SAX API 在其解析您的文档时发生一定事件的时候会通知您。在您对其响应时，您不作保存的数据将会被抛弃。 /***************************************我是华丽的分割线**********************************************************************/ 我们可以看到，如果所要读取的XML文件不是很大，采用DOM读取方法还是很便捷的，由于我用的也是DOM树读取的方法，所以，本文所介绍的也主要是基于DOM的方法读取。根据常用的操作，我简单的把对XML的操作分为以下几类： 1 首先对XML文件进行操作，打开文件。这个其实就是对文件进行操作，可以把它直接定义为构造函数，在对对象进行初始化时完成。 TopoDataReader::TopoDataReader(const wstring &filePath):_filePath(filePath),_qDomDoc("mydocument"),_qFile(QString::fromStdWString(fileP ath))

XML的四种解析器(dom,sax,jdom,dom4j)原理及性能比较[收藏]

1）DOM(JAXP Crimson解析器) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM 是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于它是基于信息层次的，因而DOM被认为是基于树或基于对象的。DOM以及广义的基于树的处理具有几个优点。首先，由于树在内存中是持久的，因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航，而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。 2）SAX SAX处理的优点非常类似于流媒体的优点。分析能够立即开始，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。一般来说，SAX还比它的替代者DOM快许多。选择DOM还是选择SAX？对于需要自己编写代码来处理XML文档的开发人员来说，选择DOM还是SAX解析模型是一个非常重要的设计决策。DOM 采用建立树形结构的方式访问XML文档，而SAX采用的事件模型。 DOM解析器把XML文档转化为一个包含其内容的树，并可以对树进行遍历。用DOM解析模型的优点是编程容易，开发人员只需要调用建树的指令，然

后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用DOM解析器的时候需要处理整个XML文档，所以对性能和内存的要求比较高，尤其是遇到很大的XML文件的时候。由于它的遍历能力，DOM解析器常用于XML文档需要频繁的改变的服务中。 SAX解析器采用了基于事件的模型，它在解析XML文档的时候可以触发一系列的事件，当发现给定的tag的时候，它可以激活一个回调方法，告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低，因为它让开发人员自己来决定所要处理的tag。特别是当开发人员只需要处理文档中所包含的部分数据时，SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难，而且很难同时访问同一个文档中的多处不同数据。 3）JDOM https://www.doczj.com/doc/8a17959095.html,/ JDOM的目的是成为Java特定文档模型，它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型，JDOM一直得到大力推广和促进。正在考虑通过“Java规范请求JSR-102”将它最终用作“Java标准扩展”。从2000年初就已经开始了JDOM开发。 JDOM与DOM主要有两方面不同。首先，JDOM仅使用具体类而不使用接口。这在某些方面简化了API，但是也限制了灵活性。第二，API大量使用了Collections类，简化了那些已经熟悉这些类的Java开发者的使用。

VC++ xml解析

三种最流行的开放源码XML 库是expat、libxml 和Xerces。第一部分：DOM解析：概述：DOM解析将会把一个完整的XML文档读进来，生成一个结构树。这样会要把XML文档全部都加载到内在中。所以解析起来的速度会要慢一些。 1、如何加载xml文件： //创建DOM,加载XML文档 MSXML::IXMLDOMDocumentPtr pCommandDoc; pCommandDoc.CreateInstance(__uuidof(MSXML::DOMDocument)); pCommandDoc->put_async(V ARIANT_FALSE); pCommandDoc->put_validateOnParse(VARIANT_FALSE); pCommandDoc->put_resolveExternals(V ARIANT_FALSE); pCommandDoc->put_preserveWhiteSpace(V ARIANT_TRUE); pCommandDoc->load(file.GetBuffer(0)); 2、在XML文档中查找指定的结点： //找到 MSXML::IXMLDOMNodePtr pRootNode=pCommandDoc->selectSingleNode("root/record"); if (pRootNode==NULL) { return ; } 3、得到XML文档中，结点的属性 CString strTemp; MSXML::IXMLDOMNamedNodeMapPtr pAttrs = NULL; pRootNode->get_attributes(&pAttrs); if (pAttrs==NULL) { return; } MSXML::IXMLDOMNodePtr pRequestTypeAttr=pAttrs->getQualifiedItem("name",""); _bstr_t strRequestType=pRequestTypeAttr->Gettext(); strTemp=strRequestType.operator char *(); 4、得到结点的内容 _bstr_t strVisiPort=pNode->Gettext(); 5、设置结点的内容 HRESULT hr=pNode->put_text(_bstr_t(m_strGatewayPassword)); 6、设置一个属性内容 IXMLDOMAttribute *pa=NULL; bstr = SysAllocString(L"属性1"); pXMLDom->createAttribute(bstr,&pNode); var = VariantString(L"strin"); pa->put_value(var); pRoot->setAttributeNode(pa, &pa1); 第二部分、如何使用SAX解析

XML创建与解析常用方法介绍

XML解析方式介绍 1.DOM4J(Document Object Model for Java) 虽然DOM4J代表了完全独立的开发结果，但最初，它是JDOM的一种智能分支。它合并了许多超出基本XML文档表示的功能，包括集成的XPath支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。它还提供了构建文档表示的选项，它通过DOM4J API和标准DOM接口具有并行访问功能。从2000下半年开始，它就一直处于开发之中。为支持所有这些功能，DOM4J使用接口和抽象基本类方法。DOM4J大量使用了API中的Collections 类，但是在许多情况下，它还提供一些替代方法以允许更好的性能或更直接的编码方法。直接好处是，虽然DOM4J付出了更复杂的API的代价，但是它提供了比JDOM大得多的灵活性。在添加灵活性、XPath集成和对大文档处理的目标时，DOM4J的目标与JDOM是一样的：针对Java 开发者的易用性和直观操作。它还致力于成为比JDOM更完整的解决方案，实现在本质上处理所有Java/XML问题的目标。在完成该目标时，它比JDOM更少强调防止不正确的应用程序行为。 DOM4J是一个非常非常优秀的Java XML API，具有性能优异、功能强大和极端易用使用的特点，同时它也是一个开放源代码的软件。如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML，特别值得一提的是连Sun的JAXM也在用DOM4J. 【优点】 ①大量使用了Java集合类，方便Java开发人员，同时提供一些提高性能的替代方法。 ②支持XPath。 ③有很好的性能。【缺点】 ①大量使用了接口，API较为复杂。 2.SAX（Simple API for XML) SAX处理的优点非常类似于流媒体的优点。分析能够立即开始，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。一般来说，SAX还比它的替代者DOM快许多。选择DOM还是选择SAX？对于需要自己编写代码来处理XML文档的开发人员来说，选择DOM还是SAX解析模型是一个非常重要的设计决策。 DOM采用建立树形结构的方式访问XML文档，而SAX 采用的是事件模型。

org.w3c.dom(java dom)解析XML文档

位于org.w3c.dom操作XML会比较简单，就是将XML看做是一颗树，DOM就是对这颗树的一个数据结构的描述，但对大型XML文件效果可能会不理想首先来了解点Java DOM 的API: 1.解析器工厂类：DocumentBuilderFactory 创建的方法：DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); 2.解析器：DocumentBuilder 创建方法：通过解析器工厂类来获得DocumentBuilder db = dbf.newDocumentBuilder(); 3.文档树模型Document 创建方法：a.通过xml文档 Document doc = db.parse("bean.xml"); b.将需要解析的xml文档转化为输入流InputStream is = new FileInputStream("bean.xml"); Document doc = db.parse(is); Document对象代表了一个XML文档的模型树，所有的其他Node都以一定的顺序包含在Document对象之内，排列成一个树状结构，以后对XML文档的所有操作都与解析器无关，直接在这个Document对象上进行操作即可；包含的方法：

4.节点列表类NodeList NodeList代表了一个包含一个或者多个Node的列表，根据操作可以将其简化的看做为数组 5.节点类Node

Node对象是DOM中最基本的对象，代表了文档树中的抽象节点。但在实际使用中很少会直接使用Node对象，而是使用Node对象的子对象Element,Attr,Text等 6.元素类Element 是Node类最主要的子对象，在元素中可以包含属性，因而Element中有存取其属性的方法

四种XML解析器比较

1.详解 1）DOM（JAXP Crimson解析器） DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于它是基于信息层次的，因而DOM被认为是基于树或基于对象的。DOM以及广义的基于树的处理具有几个优点。首先，由于树在内存中是持久的，因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航，而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。 2）SAX SAX处理的优点非常类似于流媒体的优点。分析能够立即开始，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。一般来说，SAX还比它的替代者DOM快许多。选择DOM还是选择SAX？对于需要自己编写代码来处理XML文档的开发人员来说，选择DOM 还是SAX解析模型是一个非常重要的设计决策。 DOM采用建立树形结构的方式访问XML文档，而SAX采用的事件模型。 DOM解析器把XML文档转化为一个包含其内容的树，并可以对树进行遍历。用DOM解析模型的优点是编程容易，开发人员只需要调用建树的指令，然后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用DOM解析器的时候需要处理整个XML文档，所以对性能和内存的要求比较高，尤其是遇到很大的XML文件的时候。由于它的遍历能力，DOM解析器常用于XML文档需要频繁的改变的服务中。 SAX解析器采用了基于事件的模型，它在解析XML文档的时候可以触发一系列的事件，当发现给定的tag的时候，它可以激活一个回调方法，告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低，因为它让开发人员自己来决定所要处理的tag.特别是当开发人员只需要处理文档中所包含的部分数据时，SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难，而且很难同时访问同一个文档中的多处不同数据。 3）JDOM https://www.doczj.com/doc/8a17959095.html, JDOM的目的是成为Java特定文档模型，它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型，JDOM一直得到大力推广和促进。正在考虑通过“Java规范请求JSR-102” 将它最终用作“Java标准扩展”。从2000年初就已经开始了JDOM开发。 JDOM与DOM主要有两方面不同。首先，JDOM仅使用具体类而不使用接口。这在某些方面简化了API，但是也限制了灵活性。第二，API大量使用了Collections类，简化了那些已经熟悉这些类的Java开发者的使用。 JDOM文档声明其目的是“使用20%（或更少）的精力解决80%（或更多）Java/XML问题”（根据学习曲线假定为20%）。JDOM对于大多数Java/XML应用程序来说当然是有用的，并且大多数开

四中最常用的XML文件解析总结

XML文件学习总结掌握了XML文件解析的常用的4中方式：DOM解析、SAX 解析、STAX解析以及DOM4j解析XML文件。一、DOM 解析xml文件 public List parse(String url) throws Exception{ // 1、创建解析工厂 D ocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();//创建工厂是单例模式，不能直接new对象，需要调用newInstance来创建对象。 // 2、创建解析器 D ocumentBuilder builder = factory.newDocumentBuilder(); // 3、创建解析器的url F ile file = new File(url); // 4、得到解析后的Document对象 D ocument doncument = builder.parse(file); // 5、通过得到节点名字得到所有同名节点的集合NodeList N odeList nodeList = doncument.getElementsByTagName("student"); // 6、遍历NodeList集合 f or (int i = 0; i < nodeList.getLength(); i++) { // 得到每个节点对象 Node studentNode = nodeList.item(i); Student st = new Student(); NamedNodeMap map = studentNode.getAttributes(); //for(int j=0;j

java读写xml文件的方法

在java环境下读取xml文件的方法主要有4种：DOM、SAX、JDOM、JAXB 1. DOM(Document Object Model) 此方法主要由W3C提供，它将xml文件全部读入内存中，然后将各个元素组成一棵数据树，以便快速的访问各个节点。因此非常消耗系统性能，对比较大的文档不适宜采用DOM方法来解析。 DOM API 直接沿袭了 XML 规范。每个结点都可以扩展的基于 Node 的接口，就多态性的观点来讲，它是优秀的，但是在Java 语言中的应用不方便，并且可读性不强。实例： Java代码 1.import javax.xml.parsers.*; 2.//XML解析器接口 3.import org.w3c.dom.*; 4.//XML的DOM实现 5.import org.apache.crimson.tree.XmlDocument; 6.//写XML文件要用到 7.DocumentBuilderFactory factory = DocumentBuilderFactory.newInst ance(); 8. //允许名字空间 9. factory.setNamespaceAware(true); 10. //允许验证 11. factory.setValidating(true); 12. //获得DocumentBuilder的一个实例 13.try { 14. DocumentBuilder builder = factory.newDocumentBuilder(); 15.} catch (ParserConfigurationException pce) { 16.System.err.println(pce); 17.// 出异常时输出异常信息，然后退出，下同 18.System.exit(1); 19.} 20.//解析文档，并获得一个Document实例。 21.try { 22.Document doc = builder.parse(fileURI); 23.} catch (DOMException dom) { 24.System.err.println(dom.getMessage()); 25.System.exit(1); 26.} catch (IOException ioe) { 27.System.err.println(ioe); 28.System.exit(1); 29.}

Android SAX 方式解析XML 字符串

这个是主类： import java.io.StringReader; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.xml.sax.InputSource; import org.xml.sax.XMLReader; import android.app.Activity; import android.os.Bundle; import android.util.Log; import android.widget.TextView; public class ParsingXML extends Activity { private final String MY_DEBUG_TAG = "WeatherForcaster"; public void onCreate(Bundle icicle) { super.onCreate(icicle); TextView tv = new TextView(this); String xml = "aHR0cDovLzE5Mi4xNjguMTA0LjExMy9ldW1zL2NsaWV udC90ZW1 wbGF0ZTIwMDA vbW9iaWxlZW50cnkucGhwP3VzZXJuYW1lPWNlc2hp"; // 创建一个新的字符串 StringReader read = new StringReader(xml); // 创建新的输入源SAX 解析器将使用InputSource 对象来确定如何读取XML 输入 InputSource source = new InputSource(read); try { SAXParserFactory spf = SAXParserFactory.newInstance(); SAXParser sp = spf.newSAXParser(); XMLReader xr = sp.getXMLReader(); ExampleHandler myExampleHandler = new ExampleHandler(); xr.setContentHandler(myExampleHandler); xr.parse(source); ParsedExampleDataSet parsedExampleDataSet = myExampleHandler .getParsedData(); String url=Base64Coder.decodeString(parsedExampleDataSet.toString()); tv.setText(url); } catch (Exception e) { tv.setText("Error: " + e.getMessage()); Log.e(MY_DEBUG_TAG, "WeatherQueryError", e); } this.setContentView(tv); } } 下面两个类是以SPX 方式解析XML字符串

XML DOM

第六教案课题：文档对象模型DOM 目的要求： ?理解DOM模型 ?解析XML文档，生成文档对象 ?操纵DOM模型的对象、接口、属性、方法、事件重点难点： ?重点：使用DOM API提供的对象和接口对XML进行操作，主要包括查询、添加、修改、删除接点等操作 ?难点：如何使用API 教学过程：如图。作业布置：

一、文档对象模型(DOM)概述下面，我们将说明如何通过程序访问XML文档。其中一种方法是通过文档对象模型（Document Object Model，DOM）。在本章中，我们将介绍文档对象模型，并借助几个程序实例解释它的功能。 1.1什么是文档对象模型(DOM)？文档对象模型一词在Web浏览器领域并不陌生。窗口、文档和历史等对象都被认为是浏览器对象模型的一部分。然而，任何做过Web开发的人都知道各种浏览器实现这些对象的方式不尽相同。对于如何通过Web访问和操作文档结构这个问题，为了创建更加标准化的方法，W3C提出了目前的W3C DOM规范。 W3C DOM是一种独立于语言和平台的定义，即：它定义了构成DOM的不同对象的定义，却没有提供特定的实现，实际上，它能够用任何编程语言实现。例如，为了通过DOM访问传统的数据存储，可以将DOM实现为传统数据访问功能之外的一层包装。利用DOM中的对象，开发人员可以对文档进行读取、搜索、修改、添加和删除等操作。DOM为文档导航以及操作HTML和XML文档的内容和结构提供了标准函数。 1.2常见的文档模型常见的文档模型有三类：线性模型、树型模型、对象模型。 DOM模型是对象模型。 1.3DOM的工作原理及DOM模型结构当使用DOM对XML文本文件进行操作时，它首先要解析文件，将文件分解为

使用DOM4j解析xml文件

Xml文件： studentname 78 78 98 studentname 77 68 88 JAVA文件： import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.util.Iterator; import java.util.List; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.DocumentException; import org.dom4j.DocumentHelper; import org.dom4j.Element; import org.dom4j.io.OutputFormat; import org.dom4j.io.SAXReader; import org.dom4j.io.XMLWriter; /** *DOM4j对xml文件的操作 *操作DOM4j的时候注意要导入3个jar包，否则会报异常 *dom4j-1.6.1.jar *jaxen-1.1-beta-6.jar *saxpath.jar **/ public class ReaderDom4j {

xml文件解析

查找结点，读取结点属性------------------------------------------------------ 获取结点的属性------------------------------------- 设置结点的属性------------------------------------------------ 给结点添加新属性------------------------------------------- 设置一个结点的内容---------------------------------------------------- 添加新节点---------------------------------------------------- 编码问题------------------------------------------------------------------ XML树： John Fleck June 2, 2002 example keyword This is the headline This is the body text. 1：查找结点 #include #include #include #include #include Void parseStory (xmlDocPtr doc, xmlNodePtr cur) { xmlChar *key; cur = cur->xmlChildrenNode; while (cur != NULL) { if ((!xmlStrcmp(cur->name, (const xmlChar *)"keyword")))