使用PL/SQL程序如何解析XML
(原创)
学习篇--XML文件解析
文档作者: Siman.He < 贺斌 >
MSN : Simanhe_1@https://www.doczj.com/doc/8914355728.html,
创建日期: 2009-5-22
更新日期: 2009-5-22
文档编号:
当前版本: Draft 1.0
文档控制变更记录
审阅
分发
目录
文档控制 ................................................................................................................................... i i 概述 . (4)
XML组建 (4)
XML结构图 (4)
XML常用的分析函数 (5)
XMLParser (5)
XMLDOM (5)
XML解析实例 (7)
文件的结构 (8)
解析方案 (8)
XML解析脚本 (9)
更改历史 (12)
概述
使用XML文件传输数据,现在已经被越来越多的项目所采纳。其做法通常是
用额外开发的java 程序来解析XML数据。其实Oracle已经为XML配备了一套
功能健全的工具集,该工具集允许PL/SQL和Java开发人员在Oracle数据库内
部进行工作。本文简要地概述了XML特性和适用于Oracle数据库的实用程序,
描述如何设置并使用面向XML的Oracle PL/SQL分析程序,然后介绍了一个实
例程序,该程序分析PL/SQL内的XML信息。
XML组建
在PL/SQL中利用XML ,Oracle提供了几个组件,让开发人员能轻松地利用XML
技术。这些组件包括:
1. XML 分析程序。即用来分析、构造和验证XML文档。.
2. XPath 引擎。它是使用Xpath(XML标准的另一个元素)说明语法在内存
中搜索XML文档的实用程序。 SLT 处理器。它在Oracle数据库中支持
XSLT,允许您把XML文档转换成其他格式。
3. XML SQL 实用程序。可以使用SQL产生XML文档,使您可以在Oracle数
据库表格中轻松地插入基于XML的数据。 XSQL 页。一项可以汇集声明性
XML数据然后通过XSLT公布这些数据的技术。
对于PL/SQL开发人员而言,XML分析程序是最重要的组件。通过它,您可
以在Oracle数据库中分析、操纵和转换XML文档。ML分析程序由一套APIs
(应用程序编程接口)构成。
XML结构图
XML常用的分析函数
XMLParser
包括分析XML文档所需的数据类型和程序。XML Parsing Process
想知道Oracle的parser是如何调用Java来做解析的,请查看Oracle? XML
Developer's Kit Programmer's Guide
10g Release 2 (10.2)
Part Number B14252-01
网址:
https://www.doczj.com/doc/8914355728.html,/docs/cd/B19306_01/appdev.102/b14252/adx_j_parser.ht
m#i1013320
程序中常用的方法:
Nodelist := dbms_xslprocessor.selectnodes(rootnode, xpath)
dbms_xslprocessor.valueof(节点,节点下的元素,值)
具体的实例,会在下面讲解。
XMLDOM
包括管理和建立XML文档对象模型(DOM)元素所需的数据类型和程序
Comparing DOM (Tree-Based) and SAX (Event-Based) APIs
XMLDOM 这个程序包,其实是通过封装Java 程序来解析XML 的一个PL/SQL的包。具体的作用还是要参考Oracle? Database PL/SQL Packages and Types Reference
10g Release 2 (10.2)
Part Number B14258-02
网址:https://www.doczj.com/doc/8914355728.html,/docs/cd/B19306_01/appdev.102/b14258/d_xmldom.htm
XML解析实例
案列:
XML文件:simanhe_test.xml
文件的结构
解析方案
在XML DOM的解析过程中,如果想找某个节点(Fitem)的属性(RecErrCode),
而该节点又不是根节点时,需要从最小的节点往上找父节点,一直到节点Fitem,然后
在得到其属性。如果节点是根节点,则可以直接得到根节点的元素和属性的值。
根据上图所示,我们要找根节点Dfile的元素和属性的值,直接调用。
XML解析脚本
Oracle通过调用API xmldom和dbms_xmlparser来做XML文件的解析。
1.建立一个 Directory ,假如在EBS上实现则需要在EBS DB的服务器上建立路径如:
Create Or Replace Directory FTP_XXX As '/var/tmp/ftp' 直接在APPS下就可以新建
要查找当前建立的Directory 可以使用Select * From all_directories 查找当前系统中的所有的Directory .
2.代码如下
DECLARE
p_max_size NUMBER := dbms_lob.lobmaxsize;
src_offset NUMBER := 1;
dst_offset NUMBER := 1;
lang_ctx NUMBER := nls_charset_id('UTF8');
default_csid CONSTANT INTEGER := nls_charset_id('ZHS16GBK');
warning NUMBER;
l_file_number PLS_INTEGER := 0;
l_count NUMBER;
l_bfile BFILE;
l_clob CLOB;
l_commitelement xmldom.domelement;
l_parser dbms_xmlparser.parser;
l_doc dbms_xmldom.domdocument;
l_nl dbms_xmldom.domnodelist;
l_n dbms_xmldom.domnode;
rootnode dbms_xmldom.domnode;
parent_rootnode dbms_xmldom.domnode;
file_length NUMBER;
block_size BINARY_INTEGER;
l_rootnode_name VARCHAR2(200);
l_status VARCHAR2(1000);
l_recerrcode VARCHAR2(1000);
l_FailCount VARCHAR2(200);
l_RecCount VARCHAR2(200);
l_name VARCHAR2(1000);
l_comments VARCHAR2(2000);
l_exists BOOLEAN;
FUNCTION convertclobtoxmlelement(p_document IN CLOB)
RETURN xmldom.domelement IS
x_commitelement xmldom.domelement;
l_parser xmlparser.parser;
BEGIN
l_parser := xmlparser.newparser;
xmlparser.parseclob(l_parser, p_document);
x_commitelement := xmldom.getdocumentelement(xmlparser.getdocument(l_parser));
RETURN x_commitelement;
END convertclobtoxmlelement;
BEGIN
-- 检查XML是否在路径FTP_XXX下是否存在
utl_file.fgetattr('FTP_XXX',
'simanhe_test.xml',
l_exists,
file_length,
block_size);
IF NOT l_exists THEN
dbms_output.put_line('XML文件不存在');
RETURN;
END IF;
l_bfile := bfilename('FTP_XXX', 'simanhe_test.xml');
-- 创建一个Clob
dbms_lob.createtemporary(l_clob, TRUE);
dbms_lob.OPEN(l_bfile, dbms_lob.lob_readonly);
-- 将XML文件上载并转换为Clob类型
dbms_lob.loadclobfromfile(l_clob,
l_bfile,
p_max_size,
dst_offset,
src_offset,
default_csid, -- UTF8
lang_ctx, -- GBK
warning);
l_file_number := dbms_lob.fileexists(l_bfile);
IF l_file_number = 0THEN
dbms_output.put_line('XML文件未被转换成功');
RETURN;
END IF;
dbms_lob.CLOSE(l_bfile);
-- Create a parser.
l_parser := dbms_xmlparser.newparser;
BEGIN
-- Parse the document and create a new DOM document.
dbms_xmlparser.parseclob(l_parser, l_clob);
EXCEPTION
WHEN OTHERS THEN
dbms_output.put_line('XML文件不完整');
RETURN;
END;
l_doc := dbms_xmlparser.getdocument(l_parser);
-- Free resources associated with the CLOB and Parser now they are no longer needed.
dbms_lob.freetemporary(l_clob);
-- 得到根节点
rootnode :=
xmldom.makenode(xmldom.getdocumentelement(xmlparser.getdocument(l_parser)));
l_rootnode_name := xmldom.getnodename(rootnode);
dbms_output.put_line('XML文件当前的节点名称为 ' || l_rootnode_name);
-- 得到根节点元素的值
dbms_xslprocessor.valueof(rootnode, 'RecCount/text()', l_RecCount);
dbms_xslprocessor.valueof(rootnode, 'FailCount/text()', l_FailCount);
dbms_output.put_line('XML文件当前的节点名称为 ' || l_rootnode_name ||
'的要素RecCount,FailCount值为' ||
l_RecCount||','||l_FailCount);
-- 得到根节点Dfile的属性Status的值
l_status := xmldom.getattribute(xmldom.makeelement(rootnode), 'Status');
dbms_output.put_line('XML文件当前的节点名称为 ' || l_rootnode_name ||
'的属性Status的值为' || l_status);
/*取节点Item下各元素的值,先将Items节点全部存放在 l_nl中 */
l_nl := dbms_xmldom.getelementsbytagname(l_doc, 'Item');
l_count := dbms_xmldom.getlength(l_nl);
FOR cur_emp IN0 .. dbms_xmldom.getlength(l_nl) - 1LOOP
l_n := dbms_xmldom.item(l_nl, cur_emp);
-- 得到节点Item下元素的值
dbms_xslprocessor.valueof(l_n, 'Name/text()', l_name);
dbms_xslprocessor.valueof(l_n, 'Comment/text()', l_comments);
-- 得到节点Item的父节点FItem
parent_rootnode := dbms_xmldom.getparentnode(l_n);
l_rootnode_name := xmldom.getnodename(parent_rootnode);
-- 得到节点FItem的属性RecErrCode的值
l_recerrcode := xmldom.getattribute(xmldom.makeelement(parent_rootnode),
'RecErrCode');
dbms_output.put_line('Name :' || l_name || ' ,Comment = ' ||
l_comments || ' ,RecErrCode = ' || l_recerrcode);
END LOOP;
-- 释放分析函数的资源
dbms_xmlparser.freeparser(l_parser);
-- 将DOC清空,释放资源
dbms_xmldom.freedocument(l_doc);
/* utl_file.frename('FTP_XXX',
'simanhe_test.xml',
'FTP_XXX',
'D_simanhe_test.xml',
FALSE);*/-- XML文件解析完成后重命名
/*utl_file.fremove('FTP_XXX', 'simanhe_test.xml'); */-- -- XML文件解析完成后删除文件EXCEPTION
WHEN OTHERS THEN
dbms_lob.freetemporary(l_clob);
dbms_xmlparser.freeparser(l_parser);
dbms_xmldom.freedocument(l_doc);
END;
以上程序经测试是可以正常运行的。但是对XML文件的大小有要求,最好不要超过10M。文件的个头越大解析的效率会越差。我一般建议XML文件大小为2M左右,另外对一些生僻字我在上载XML文件的时候就已经将其转化为ZHS16GBK了,所以不存在乱码的问题。
以上的脚本可以给大家提供一个参考,希望能对大伙有所帮助。
更改历史
学习:Dom4j 1、DOM4J简介 DOM4J是https://www.doczj.com/doc/8914355728.html, 出品的一个开源XML 解析包。DOM4J应用于Java 平台,采用了Java 集合框架并完全支持DOM,SAX 和JAXP。 DOM4J 使用起来非常简单。只要你了解基本的XML-DOM 模型,就能使用。 Dom:把整个文档作为一个对象。 DOM4J 最大的特色是使用大量的接口。它的主要接口都在org.dom4j里面定义:
接口之间的继承关系如下: interface https://www.doczj.com/doc/8914355728.html,ng.Cloneable interface org.dom4j.Node interface org.dom4j.Attribute interface org.dom4j.Branch interface org.dom4j.Document interface org.dom4j.Element interface org.dom4j.CharacterData interface org.dom4j.CDATA interface https://www.doczj.com/doc/8914355728.html,ment interface org.dom4j.Text interface org.dom4j.DocumentType interface org.dom4j.Entity interface org.dom4j.ProcessingInstruction 2、XML文档操作1 2.1、读取XML文档: 读写XML文档主要依赖于org.dom4j.io包,有DOMReader和SAXReader两种方式。因为利用了相同的接口,它们的调用方式是一样的。 public static Docum ent load(String filenam e) { Document docum ent =null; try { SAXReader saxReader = new SAXReader(); docum ent =saxReader.read(new File(filename)); //读取XML文件,获得docum ent 对象 } catch (Exception ex) { ex.printStackTrace();
XML报文解析测试 在平时工作中,难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案,哪个最适合我们呢?在这篇文章中,我对这四种主流方案做一个不完全评测,仅仅针对遍历 XML 这块来测试,因为遍历 XML 是工作中使用最多的(至少我认为)。 预备 测试环境: AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server SP4、Sun JDK 1.4.1+Eclipse 2.1+Resin 2.1.8,在 Debug 模式下测试。 XML 文件格式如下: <?xml version="1.0" encoding="GB2312"?> <RESULT> <VALUE> <NO>A1234</NO> <ADDR>四川省XX县XX镇XX路X段XX号</ADDR> </VALUE> <VALUE> <NO>B1234</NO> <ADDR>四川省XX市XX乡XX村XX组</ADDR> </VALUE> </RESULT> 测试方法: 采用 JSP 端调用Bean(至于为什么采用JSP来调用,请参考: https://www.doczj.com/doc/8914355728.html,/rosen/archive/2004/10/15/138324.aspx),让每一种方案分别解析10K、100K、1000K、10000K的 XML 文件,计算其消耗时间(单位:毫秒)。 JSP 文件: <%@ page contentType="text/html; charset=gb2312" %> <%@ page import="com.test.*"%> <html> <body> <% String args[]={""}; MyXMLReader.main(args); %>
一、什么是 XML? XML 被设计用来传输和存储数据。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。 准备一个解析用的xml如下:
所有的
) 4、XML 标签对大小写敏感 比如和是不一样的 5、XML 属性值必须加引号 < account name=laoz>这样会报错的,必须"laoz"才行 二、Python 对 XML 的解析 Python 有三种方法解析 XML,SAX,DOM,以及 ElementTree。 DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。 1、利用DOM解析XML 一个 DOM 的解析器在解析一个 XML 文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。
DOM解析器是通过将XML文档解析成树状模型并将其放入内存来完成解析工作的,而后对文档的操作都是在这个树状模型上完成的。这个在内存中的文档树将是文档实际大小的几倍。这样做的好处是结构清除、操作方便,而带来的麻烦就是极其耗费系统资源。而SAX正好克服了DOM的缺点,分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中,这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。 选择DOM 还是选择SAX,这取决于下面几个因素: 应用程序的目的:如果打算对数据作出更改并将它输出为XML,那么在大多数情况下,DOM 是适当的选择。并不是说使用SAX 就不能更改数据,但是该过程要复杂得多,因为您必须对数据的一份拷贝而不是对数据本身作出更改。 数据容量:对于大型文件,SAX 是更好的选择。 数据将如何使用:如果只有数据中的少量部分会被使用,那么使用SAX 来将该部分数据提取到应用程序中可能更好。另一方面,如果您知道自己以后会回头引用已处理过的大量信息,那么SAX 也许不是恰当的选择。 对速度的需要:SAX 实现通常要比DOM 实现更快。 基于上面的分析,在基于Android系统的内存和CPU资源比较有限的手持设备上,只要我们不需要修改XML数据或者随机的访问XML数据,SAX尽管可能需要更多的编码工作,但是为了更小的内存和CPU 消耗,还是值得的。 另外,Android SDK中已经包含了JAXP对应的javax.xml.parsers包,和SAX对应org.xml.sax(当然DOM对应的org.w3c.dom包也包含在内),加上Android还提供了android.sax这样的包来方便SAX Handle的开发,基于JAXP和SAX这样的标准方法来开发不仅复杂度不高,即使出现问题在讨论组中寻求解决方案也是比较容易的。 android 中的xml解析应该是和java中一条道路主要分为sax 解析和的Dom 解析。 如下的介绍的相关的包和类均为android 环境下: sax解析对应为: org\xml\sax 包:xml解析 javax.xml.parsers.SAXParserFactory javax.xml.parsers.SAXParser 两个主要用于SAXParser的上下文建立
XML解析方式介绍 1.DOM4J(Document Object Model for Java) 虽然DOM4J代表了完全独立的开发结果,但最初,它是JDOM的一种智能分支。它合并了许多超出基本XML文档表示的功能,包括集成的XPath支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。它还提供了构建文档表示的选项,它通过DOM4J API和标准DOM接口具有并行访问功能。从2000下半年开始,它就一直处于开发之中。 为支持所有这些功能,DOM4J使用接口和抽象基本类方法。DOM4J大量使用了API中的Collections 类,但是在许多情况下,它还提供一些替代方法以允许更好的性能或更直接的编码方法。直接好处是,虽然DOM4J付出了更复杂的API的代价,但是它提供了比JDOM大得多的灵活性。 在添加灵活性、XPath集成和对大文档处理的目标时,DOM4J的目标与JDOM是一样的:针对Java 开发者的易用性和直观操作。它还致力于成为比JDOM更完整的解决方案,实现在本质上处理所有Java/XML问题的目标。在完成该目标时,它比JDOM更少强调防止不正确的应用程序行为。 DOM4J是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件。如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML,特别值得一提的是连Sun的JAXM也在用DOM4J. 【优点】 ①大量使用了Java集合类,方便Java开发人员,同时提供一些提高性能的替代方法。 ②支持XPath。 ③有很好的性能。 【缺点】 ①大量使用了接口,API较为复杂。 2.SAX(Simple API for XML) SAX处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX还比它的替代者DOM快许多。 选择DOM还是选择SAX?对于需要自己编写代码来处理XML文档的开发人员来说,选择DOM还是SAX解析模型是一个非常重要的设计决策。 DOM采用建立树形结构的方式访问XML文档,而SAX 采用的是事件模型。
XML文件学习总结 掌握了XML文件解析的常用的4中方式:DOM解析、SAX 解析、STAX解析以及DOM4j解析XML文件。 一、DOM 解析xml文件 public List 1.详解 1)DOM(JAXP Crimson解析器) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的。DOM以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航,而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。 2)SAX SAX处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。 而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX还比它的替代者DOM快许多。 选择DOM还是选择SAX?对于需要自己编写代码来处理XML文档的开发人员来说,选择DOM 还是SAX解析模型是一个非常重要的设计决策。 DOM采用建立树形结构的方式访问XML文档,而SAX采用的事件模型。 DOM解析器把XML文档转化为一个包含其内容的树,并可以对树进行遍历。用DOM解析模型的优点是编程容易,开发人员只需要调用建树的指令,然后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用DOM解析器的时候需要处理整个XML文档,所以对性能和内存的要求比较高,尤其是遇到很大的XML文件的时候。由于它的遍历能力,DOM解析器常用于XML文档需要频繁的改变的服务中。 SAX解析器采用了基于事件的模型,它在解析XML文档的时候可以触发一系列的事件,当发现给定的tag的时候,它可以激活一个回调方法,告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低,因为它让开发人员自己来决定所要处理的tag.特别是当开发人员只需要处理文档中所包含的部分数据时,SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难,而且很难同时访问同一个文档中的多处不同数据。 3)JDOM https://www.doczj.com/doc/8914355728.html, JDOM的目的是成为Java特定文档模型,它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型,JDOM一直得到大力推广和促进。正在考虑通过“Java规范请求JSR-102” 将它最终用作“Java标准扩展”。从2000年初就已经开始了JDOM开发。 JDOM与DOM主要有两方面不同。首先,JDOM仅使用具体类而不使用接口。这在某些方面简化了API,但是也限制了灵活性。第二,API大量使用了Collections类,简化了那些已经熟悉这些类的Java开发者的使用。 JDOM文档声明其目的是“使用20%(或更少)的精力解决80%(或更多)Java/XML问题”(根据学习曲线假定为20%)。JDOM对于大多数Java/XML应用程序来说当然是有用的,并且大多数开 SAX是一个用于处理XML事件驱动的“推”模型,虽然它不是 W3C标准,但它却是一个得到了广泛认可的API。SAX解析器不像DOM那样建立一个完整的文档树,而是在读取文档时激活一系列事件,这些事件被推给事件处理器,然后由事件处理器提供对文档内容的访问。 常见的事件处理器有三种基本类型: ● 用于访问XML DTD内容的DTDHandler; ● 用于低级访问解析错误的ErrorHandler; ● 用于访问文档内容的ContentHandler,这也是最普遍使用的事件处理器。 图 2显示了SAX解析器如何通过一个回调机制报告事件。解析器读取输入文档并在处理文档时将每个事件推给文档处理器(MyContentHandler)。 与DOM相比,SAX解析器能提供更好的性能优势,它提供对XML文档内容的有效低级访问。SAX模型最大的优点是内存消耗小,因为整个文档无需一次加载到内存中,这使SAX解析器可以解析大于系统内存的文档。另外,你无需像在DOM中那样为所有节点创建对象。最后,SAX“推”模型可用于广播环境,能够同时注册多个ContentHandler,并行接收事件,而不是在一个管道中一个接一个地进行处理。 SAX的缺点是你必须实现多个事件处理程序以便能够处理所有到来的事件,同时你还必须在应用程序代码中维护这个事件状态,因为SAX解析器不能交流元信息,如DOM的父/子支持,所以你必须跟踪解析器处在文档层次的哪个位置。如此一来,你的文档越复杂,你的应用逻辑就越复杂。虽然没有必要一次将整个文档加载到内存中,但SAX解析器仍然需要解析整个文档,这点和DOM一样。 也许SAX面临的最大问题是它没有内置如XPath所提供的那些导航支持。再加上它的单遍解析,使它不能支持随机访问。这一限制也表现在名字空间上: 对有继承名字空间的元素不做注解。这些限制使SAX很少被用于操作或修改文档。 那些只需要单遍读取内容的应用程序可以从SAX解析中大大受益。很多B2B和EAI应用程序将XML用做封装格式,接收端用这种格式简单地接收所有数据。这就是SAX明显优于DOM的地方:因高效而获得高吞吐率。在SAX 2.0 中有一个内置的过滤机制,可以很轻松地输出一个文档子集或进行简单的文档转换。 Xml文件: Java解析XML文件 ========================================== xml文件 <?xml version="1.0" encoding="GB2312"?> <RESULT> <VALUE> <NO>A1234</NO> <ADDR>四川省XX县XX镇XX路X段XX号</ADDR> </VALUE> <VALUE> <NO>B1234</NO> <ADDR>四川省XX市XX乡XX村XX组</ADDR> </VALUE> </RESULT> ========================================== 1)DOM(JAXP Crimson解析器) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的。DOM以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航,而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。 import java.io.*; import java.util.*; import org.w3c.dom.*; import javax.xml.parsers.*; public class MyXMLReader{ public static void main(String arge[]){ long lasting =System.currentTimeMillis(); try{ File f=new File("data_10k.xml"); DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance(); DocumentBuilder builder=factory.newDocumentBuilder(); Document doc = builder.parse(f); NodeList nl = doc.getElementsByT agName("VALUE"); for (int i=0;i<nl.getLength();i++){ System.out.print("车牌号码:" + 1)DOM(JAXP Crimson解析器) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM 是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的。DOM以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航,而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。 2)SAX SAX处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX还比它的替代者DOM快许多。 选择DOM还是选择SAX?对于需要自己编写代码来处理XML文档的开发人员来说,选择DOM还是SAX解析模型是一个非常重要的设计决策。DOM 采用建立树形结构的方式访问XML文档,而SAX采用的事件模型。 DOM解析器把XML文档转化为一个包含其内容的树,并可以对树进行遍历。用DOM解析模型的优点是编程容易,开发人员只需要调用建树的指令,然 后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用DOM解析器的时候需要处理整个XML文档,所以对性能和内存的要求比较高,尤其是遇到很大的XML文件的时候。由于它的遍历能力,DOM解析器常用于XML文档需要频繁的改变的服务中。 SAX解析器采用了基于事件的模型,它在解析XML文档的时候可以触发一系列的事件,当发现给定的tag的时候,它可以激活一个回调方法,告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低,因为它让开发人员自己来决定所要处理的tag。特别是当开发人员只需要处理文档中所包含的部分数据时,SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难,而且很难同时访问同一个文档中的多处不同数据。 3)JDOM https://www.doczj.com/doc/8914355728.html,/ JDOM的目的是成为Java特定文档模型,它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型,JDOM一直得到大力推广和促进。正在考虑通过“Java规范请求JSR-102”将它最终用作“Java标准扩展”。从2000年初就已经开始了JDOM开发。 JDOM与DOM主要有两方面不同。首先,JDOM仅使用具体类而不使用接口。这在某些方面简化了API,但是也限制了灵活性。第二,API大量使用了Collections类,简化了那些已经熟悉这些类的Java开发者的使用。 xml的四种解析方法及源代码(SAX、DOM、JDOM、DOM4J) 第一种:SAX解析 SAX处理机制:SAX是一种基于事件驱动的API。利用SAX解析XML文档,牵涉到两个部分:解析器和事件处理器。解析器负责读取XML文档,并向事件处理器发生事件,如元素开始和元素结束事件;而事件处理器则负责对事件做出响应,对传递的XML数据进行处理。 测试用的xml文件:db.xml Xml代码 SAX解析实例一 org.xml.sax.DefalutHandler类: 可以扩展该类,给出自己的解析实现SAXPrinter.java Java代码 import java.io.File; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.helpers.DefaultHandler; public class SAXPrinter extends DefaultHandler { /** *//** * 文档开始事件 */ public void startDocument() throws SAXException { System.out.println(""); 查找结点,读取结点属性------------------------------------------------------ 获取结点的属性------------------------------------- 设置结点的属性------------------------------------------------ 给结点添加新属性------------------------------------------- 设置一个结点的内容---------------------------------------------------- 添加新节点---------------------------------------------------- 编码问题------------------------------------------------------------------ XML树: 电脑编程技巧与维护 XML (可扩展标记语言)是WWW 联盟定义的元语言,已成为互连网数据交换的标准。XML 具有广泛的用途,不仅被用于数据交换也经常被用于定义各种配置文件。XML 文件只是以纯文本对数据进行编码的一种格式,使用XML 文件中所编码的数据之前,必须先将数据从纯文本中解析出来。因此,XML 解析器在信息系统的构建过程中十分重要。 当前流行的XML 解析方法可以分为两类模型:SAX 和DOM 。SAX 是一个用于处理XML 事件驱动的“推”模型,虽然它不是W3C 标准,但它却得到了广泛的认可。SAX 解析器不像DOM 那样建立一个完整的文档树,而是在读取文档时激活一系列事件,这些事件被推给事件处理器,然后由事件处理器提供对文档内容的访问。DOM 是以层次结构组织的节点或信息片断的集合,是一种基于树解析方法。DOM 具有几个优点:由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构做更改;还可以在任何时候在树中上下导航,而不是像SAX 那样是一次性处理。 1XML 语法 XML 文件中通常包含下列基本元素:标记名、属性名、 属性值、文本值和各种定界符号如“<”,“>“等。标记名和属性名是符合一定命名规则的字符串。属性值和文本值可以是符合一定命名规则字符串,也可以是任意字符串。例如语句 jdom学习读取XML文件 用JDOM读取XML文件需先用org.jdom.input.SAXBuilder对象的build()方法创建Document对象,然后用Document类、Element类等的方法读取所需的内容。 例如: 详解Java解析XML的四种方法 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object Model),DTD(Document Type Definition),SAX(Simple API for XML),XSD(Xml Schema Definition),XSLT(Extensible Stylesheet Language Transformations),具体可参阅w3c官方网站文档https://www.doczj.com/doc/8914355728.html,获取更多信息。 XML在不同的语言里解析方式都是一样的,只不过实现的语法不同而已。基本的解析方式有两种,一种叫SAX,另一种叫DOM。SAX是基于事件流的解析,DOM是基于XML文档树结构的解析。假设我们XML的内容和结构如下: 1、f_Parserclob --将传入的xml Clob对象解释成一个二维数组 Function f_Parserclob(Xml Clob) Return t_Ttab_Elem Is p Xmlparser.Parser; Element t_Tab_Xmlelem; Begin --这里xml的整个解析过程可以理解为java解析xml的过程 If Trim(Xml) Is Not Null Then p := Xmlparser.Newparser;--创建一个解析器,理解为解析对象 Xmlparser.Setvalidationmode(p, False);--设置验证模式 Xmlparser.Parseclob(p, Xml);--把xml放入解析器 Element := f_Setxmlelem(p);--下面有此方法说明 Xmlparser.Freeparser(p); End If; Return f_Change_Twoarray(Element); End; 2、f_Setxmlelem --将xml解释成一个列属性记录的集合 -- t_Tab_Xmlelem只是一个自定义变量,下面有说明: Function f_Setxmlelem(p Xmlparser.Parser) Return t_Tab_Xmlelem Is Doc Xmldom.Domdocument;--文档 Nl Xmldom.Domnodelist; --节点 Nlc Xmldom.Domnodelist; n Xmldom.Domnode; e Xmldom.Domelement; Nnm Xmldom.Domnamednodemap; Len1 Number; Len2 Number; Rownum Number; Elemnum Number := 0; Nname Varchar2(32767); Nvalue Varchar2(32767); Ntype Varchar2(32767); Element t_Tab_Xmlelem; Begin Doc := Xmlparser.Getdocument(p);--获取整个xml -- get all elements四种XML解析器比较
SAX解析XML原理
使用DOM4j解析xml文件
Java解析XML文件
XML的四种解析器(dom,sax,jdom,dom4j)原理及性能比较[收藏]
xml的四种解析方法及源代码
xml文件解析
XML解析器的设计与实现
jdom读取解析XML文件
java解析XML详解
oracle解析xml或clob过程