当前位置：文档之家› 半结构化Web信息抽取技术及其应用研究

半结构化Web信息抽取技术及其应用研究

东南大学

硕士学位论文

半结构化Web信息抽取技术及其应用研究

姓名：董树明

申请学位级别：硕士

专业：计算机应用技术

指导教师：董逸生

20040301

摘要

目前Ｗｅｂ已经发展成为一个巨人的、分布和共享的信息资源，但目前Ｗｅｂ数据大多以ＨＴＭＬ形式出现，其特点使得应用程序无法直接利用Ｗｅｂ上的海量信息。针对这一问题，山现了Ｗｅｂ信息抽取技术。

本文在论述了半结构化ｗｅｂ信息抽取技术总体解决方案的基础上，着重研究了Ｗｅｂ信息抽取的实现技术以及ＥＴＬ脚本语言的实现过程。在Ｗｅｂ信息抽取的实现部分，提出了抽取规则执行算法，该算法首先获取抽取规则指定的Ｗｅｂ页面，并且利用ＨＴＭＬＴｉｄｙ将其转换为格式良好的ＸＭＬ文档，然后利用ＸＭＬＰａｒｓｅｒ将该ｘＭＬ文档转化为ＤＯＭ树，根据ＸＰａｔｈ表达式获取感兴趣数据，并将其映射到目的模式，这一过程的执行是根据己定义的映射规则来完成的；研究了ＥＴＬ脚本语言的实现技术，完成了ＥＴＬ的核心执行模块，即抽取器和转换器，这两个模块接收ＥＴＬ脚本，对脚本进行解析、执行，完成脚本定义的抽取转换任务。论文工作实现了Ｗｅｂ信息抽取技术和ＥＴＬ技术的集成，利用Ｅ］ｒＬ的抽取转换功能，使得从Ｗｅｂ上抽取的信息更加符合用户需求，为充分利爿ｊＷｅｂ上的海量数据提供了一种有价值的工具。

关键词：Ｗｅｂ，ＨＴＴＰ，ＨＴＭＬ，ＸｌＶＩＬ，ＸＰａｔｈ，ＥＴＬ，ＤＯＭ，信息抽取，抽取规则，映射规则

ＡＢＳＴＲＡＣＴ

ＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｒｔｔｏｆＩｎｔｅｒｕｅｔ，Ｗｅｂｈａｓｂｅｃｏｍｅａｈｕｇｅ，ｄｉｓｔｒｉｂｕｔｉｎｇａｎｄｓｈａｒｉｎｇｒｅｓｏｕｒｃｅｏｆｉｎｆｏｒｍａｔｉｏｎ．Ｂｕｔｍｏｓｔｏｆｗｅｂ—ｄａｔａａｒｅｒｅｐｒｅｓｅｎｔｅｄｗｉｔｈＨＴＭＬｌａｎｇｕａｇｅ．Ｓｏｔｈｅｗｅｂ—ｄａｔａａｒｅｎｏｔａｖａｉｌａｂｌｅｔｏｔｈｅ

ｏｆｗｅｂ－ｉｎｆｏｒｍａｔｉｏｎａｐｐｌｉｃａｔｉｏｎｓｂｅｃａｕｓｅｔｈｅｙｃａｎｎｏｔｂｅｐａｒｓｅｄｄｉｒｅｃｔｌｙ．Ｆｏｒｔｈｉｓｐｕｒｐｏｓｅ，ｔｈｅｔｅｃｈｎｏｌｏｇｙ

ｅｘｔｒａｃｔｉｏｎａｐｐｅａｒｅｄ．一

Ｏｎ廿１ｅｂａｓｉｓｏｆｄｉｓｃｕｓｓｉｎｇｇｅｎｅｒａｌｓｏｌｕｔｉｏｎｏｆＷｅｂ．ｄａｔａｅｘｔｒａｃｔｉｏｎ，ｗｅｆｏＣＵＳｏｎｔ１１ｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆ

Ｗｅｂ．ｄａｔａｅｘｔｒａｃｔｉｏｎｍａｄｔｈｅｅｘｅｃｕｔｉｏｎｏｆＥＴＬｓｃｒｉｐｔ．ＩｎｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＷｅｂ—ｄａｔａｅｘｔｒａｃｔｉｏｎ．ｗｅｉｎｔｒｏｄｕｃｅａｎａｌｇｏｒｉｔｈｍｏｆｅｘｔｒａｃｔｉｏｎｒｕｌｅｓ．Ｉｎｔｈｉｓａｌｇｏｒｉｔｈｍ，ａｔｆｉｒｓｔ，ｔｈｅｗｅｂｐａｇｅｓｓｐｅｃｉｆｉｅｄｂｙｔｈｅｅｘｔｒａｃｔｉｏｎｒｕｌｅａｒｅａｃｑｕｉｒｅｄ，ｔｈｅｎｕｓｉｎｇＨＴＭＬＴｉｄｙｔｏｔｒａｎｓｆｏｒｍｔｈｅｄａｔａｒｅｐｒｅｓｅｎｔｅｄｂＹＨＴＭＬｔｏｔｈｅｗｅｌｌ—ｆｏｒｍｅｄＸＭＬｄｏｃｕｍｅｎｔ，ａｎｄｕｓｅＸＭＬＰａｒｓｅｒｔｏｇｅｔｔｈｅＤＯＭｔｒｅｅｏｆｔｈｅＸＭＬｄｏｃｕｍｅｎｔ，ｍａｐｐｉｎｇｔｈｅｉｎｔｅｒｅｓｔｉｎｇｄａｔａａｂｔａｉｎｅｄａｃｃｏｒｄｉｎｇｔｈｅｍａｐｐｉｎｇ－ｒｕｌｅｔｏｔｈｅｔａｒｇｅｔｓｃｈｅｍａ；Ｓｅｃｏｎｄｌｙ，ｉｎｔｈｅｒｅｓｅａｒｃｈｏｆｔｈｅｅｘｅｃｕｔｉｏｎｏｆＥＴＬｓｃｒｉｐｔ，ｔｈｅａｕｔｈｏｒｆｉｎｉｓｈｅｄｔｈｅｃｏｒｅｍｏｄｕｌｅｓｏｆＥＴＬｅｘｃｕｔｉｏｎ．ｔｈａｔｊｓ．ＥＸＴＲＡＣＴＯＲａｎｄＴＲＡＮＳＦＯＲＭＥＲ．ＴｈｅｔｗｏｍｏｄｕｌｅＣａｌｌｒｅｃｅｉｖｅｔｈｅＥＴＬｓｃｒｉｐｔ，ａｎｄｔｈｅｎｐａｒｓｉｎｇａｎｄｅｘｅｃｕｔｉｎｇｂａｓｅｏｎｔｈｅｓｃｒｉｐｔｔｏａｃｃｏｍｐｌｉｓｈｔｈｅｔａｓｋｓｏｆｅｘｔｒａｃｔｉｏｎｏｒｔｒａｎｓｆｏｒｍ．ＴｈｉｓｔｈｅｓｉｓｉｍｐｌｅｍｅｎｔｔｈｅｉｎｔｅｇｒａｔｉｏｎｏｆＷｅｂ－ｄａｔａｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｏｌｏｇｙａｎｄＥＴＬｔｅｃｈｎｏｌｏｇｙ．ＵｓｉｎｇｔｈｅｆｕｎｃｔｉｏｎｏｆｅｘｔｒａｃｔｉｏｎａｎｄｔｒａｎｓｆｏｒｍａｔｉｏｎｐｒｏｖｉｄｅｄｂｙｔｈｅＥＴＬｔｏｏｌｅｎａｂｌｅｓｔｈｅｗｅｂｄａｔａｅｘｔｒａｃｔｉｎｇｆｒｏｍＷｅｂｔｏｂｅｍｏｒｅｓａｔｉｓｆｉｅｄｔｏｔｈｅｕｓｅｒ，ａｎｄｐｒｏｖｉｄｅｓａｖａｌｕａｂｌｅｔｏｏｌｔｏｍａｋｅｔｈｅｈｕｇｅＷｅｂ－ｄａｔａｍｏｒｅａｖａｉｌａｂｌｅ．

Ｋｅｙｗｏｒｄｓ：

Ｗｅｂ，ＨＴＴＰ，ＨＴＭＬ，ＸＭＬ，ＸＰａｔｈ，ＥＴＬ，ＤＯＭ，ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎ，ＥｘｔｒａｃｔｉｏｎＲｕｌｅ，ＭａｐｐｉｎｇＲｕｌｅ

东南大学学位论文独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究上作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

研究生签名私骘日期：

东南大学学位论文使用授权声明

东南大学、中困科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，町以公布（包括刊臀）论文的全部或部分内容。论文的公布（包括刊登）授权东南大学研究生院办理。

研究生签名

第１章绪言

１．１研究背景

随着Ｉｎｔｅｍｅｔ的飞速发展，Ｗｅｂ已经发展成为一个巨大的、分布和共享的信息资源，但目前Ｗｅｂ数据犬都阻ＨＴＭＬ形式出现，缺乏对数据本身的描述，不含清晰的语义信息，模式也不明确，结构上也不良好。这使得应用程序无法直接解析并利用ｗｅｂ上的海量信息，为了增强Ｗｅｂ数据的可用性，出现了Ｗｅｂ信息抽取技术，它通过包装现有Ｗｅｂ信息源，将网页上的信息以更为结构化的方式抽取出米，为虑用程序利用Ｗｅｂ中的数据提供了可能。现有的Ｗｅｂ的信息抽取技术不但可以直接定位到用户所需的信息，而且采用。定的方式增加了语义和模式信息，为ｗｅｂ查询提供了更为精确的方法，使Ｗｅｂ信息的再利用成为可能，冈此有着明显的优势和广阔的前景，是当今多个领域的研究热点。

１．２研究现状

信息抽取技术已经研究多年，在信息获取的方面，Ｗｅｂ信息抽取和浏览器上的信息检索和奇询有着本质上的差异，并且处理信息的粒度也不相同。现有的搜索引擎只能根据用户提交的关键词返回一一组ＵＲＬｓ，用户必须逐一浏览ＵＲＬ对应的Ｗｅｂ页，采用人工的方式定位最终信息，现有的搜索引擎本身不能直接定位到所需的数据，更谈不上为数据增加语义。另外目前很多网站提供对自身所提供的信息的查询功能，允许用户直接提交查询条件或关键词，然后系统在后台根据查询条件或关键词的“ＯＲ，ＡＮＤ”范式形式在后台数据库执行查询，最后可以直接返回给用户所需的信息，但是为了显示仍以ＨＴＭＬ形式出现，缺乏模式信息，应崩程序仍旧无法直接利用这些信息，于是ＨＴＭＬ语言的局限性就表现出来。另９ｌ－Ｉ＊ｔ户没有直接访问网站后台数据库的权限，如果网站根本不提供查询功能或者查询的信息不是用户需要的信息，崩户对此无能为力。于是对于Ｗｅｂ信息的抽取成为一件迫切需要研究的一个热点课题。

随着需求的增加，进米涌现出了多种信息抽取工具，采用的技术也各不相同，涉及多个研究领域，如：数据库、人工智能、信息检索等。

１．３本文研究内容

本文研究的主要内容是如何将基于ＨＴＭＬ文档的半结构化Ｗｅｂ信息抽取出来，将它们转换为结构化数据，并且保存到关系数据库中。提出了一种基于样例学习的半结构化Ｗｅｂ信息抽取方法，并且在已经实现的原型系统中，完成的抽取效果良好，可直接应用于专门丁．Ｗｅｂ网站的抽取，也可以用于其它应用的数据准备阶段。本文的最后指出了Ｗｅｂ信息抽取技术在ＥＴＬ系统中的应用，该原犁系统可以运行丁已经实现的ＥＴＬ框架之中［１５１。下面将本文研究内容概述如下。

、月Ｐ≈ｍ————

数据菝¨一日页数＃

图１．１Ｗｅｂ信息抽取流程

查直厶堂塑±堂笪堡兰————、｝结构化Ｗｅｂ信息抽取方法主要包括数据获取、抽取规则定义和规则执行（见图１．１）三个方面，这里所指的、ｒ结构化数据指半结构化的ＨＴＭＬ页面。

≯数据获取：下载指定的ＵＲＬ页而数据，为接ｒ来的网负数据抽取作好准备。其中涉及到网站的登录问题。有些网站必须登录（注册厉获得用户名／密码对）后才有访问其某一网页的权限，这样就要求用户指定登录ＵＲＬ（该ＵＲＬ包括用户名和密码），以成功访问目的网页。本原型系统采用ＧＥＴ方式代替ＰＯＳＴ方式解决网站的登录和参数传递问题，详见４．２节。

》抽取规则定义：抽取规则定义由用户根据自己的需求米进行。在这一阶段，要求崩户能够根据样例Ｗｅｂ页面完成抽取规则的定义任务，即：完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。完成的思路如下：系统首先根据用户指定的ＵＲＬ获取样例网页数据并且将该网页利用ＨＴＭＬＴｉｄｙ转换为ＸＭＬ（实际为ＸＨＴＭＬ），并且利用ＸＭＬＰａｒｓｅｒ将该ＸＭＬ文档解析为ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ）树，这样ＤＯＭ树就成为Ｗｅｂ网页在系统内部的表示方式。而对于用户而言，只将该样例网页直观的展示给Ｈｊ户。当进行模式定义时，只需对所看到的感兴趣数据进行拖放即可生成模式定义文件，该文件即为待抽取网页的抽取规则，其中主要虑用了ＸＭＬ的相关技术。而抽取规则如何生成是原型系统的核心问题，在本文接ｔ－－来的部分会详细论述。

≯规则执行：利用上一步产生的抽取规则，系统可以对用户指定的ＵＲＬ集合进行真止的数据抽取。

过程如Ｆ：对于某一ＵＲＬ，首先获取该网页数据，将已经定义好的规则对该网页数据进行抽取过滤，输出结果数据，放入已经定义好的目的表模式中，至此完成Ｗｅｂ数据的信息抽取Ｔ作。值得强调指出，抽取得到的结果数据集是完全结构化的，这样就大大增强了Ｗｅｂ数据的可用性。

≯已有基础：作者参与了“数据仓库设计与实现”项目的研究与开发，熟悉其中ＥＴＬ部分的理论和应用，该ＥＴＬ工具实现了结构化数据和半结构化的文本数据的抽取转换和加载工作。半结构化的Ｗｅｂ信息抽取可以看作对ＥＴＬ上具的功能扩充。在本文的末尾介绍了Ｗｅｂ信息抽取技术和ＥＴＬ系统的关系。

注：在本文中，如未特殊说明，所指ｗｅｂ信息皆为半结构化的Ｗｅｂ信息。

１．４本文组织结构

本文共分为六章，论述并解决了如何将以ＨＴＭＬ表示的Ｗｅｂ信息转换为结构化信息以增强Ｗｅｂ数据可用性的问题，安排如Ｆ：

第１章，介绍与本文密切相关的背景知识，包括课题的研究背景。国内外目前的研究现状以及本文的组织结构。

第２章，对半结构化Ｗｅｂ信息抽取进行综述，从以下两个方面展开：半结构化数据综述和信息抽取技术综述。

第３章，介绍了本文所应用的主要技术，包括ＨＴＴＰ技术，ＨＴＭＬ语言和ＸＭＬ相关技术。在每一部分都对这一技术在本文中如何应用进行了介绍，在接下来的系统设计和实现部分就不再对这些技术进行介智｛。

第４章，是本文主要１二作，详细论述了如何将ＨＴＭＬ格式的Ｗｅｂ信息转换为结构化信息，重点在抽取过程的实施部分。从以下几个方面阐述：首先剖析了目前的信息转换技术，然后概括提出了本文所采用的信息转换原理和方法，接下来以信息转换的流程为顺序分别讲述了系统往数据获取、模式定义和规则执行过程中所采用的解决问题的方法。

第５章，介绍了Ｗｅｂ信息抽取技术在数据仓库中的应用。包括数据仓库概述、ＥＴＬ工具概述以及Ｗｅｂ信息抽取技术在以上两个框架中的具体应用。文中结合作者曾经参加的“数据仓库设计与实现”（江苏省“十五”项目），讨论了如何将该工具庹用到数据仓库中，扩展数据仓库的数据范畴的问题。

第６章，本文的总结，并做出展望，指出了进一步的研究工作。

第２章相关技术

２．１ＨＴＴＰ技术

第２章相关技术

本文的数据获取部分（１ｙ４．３）需要应用到ＨＴＴＰ技术，尤其为解决网站的ｌｏｇｉｎ问题需要了解ＨＴＴＰ技术（ＨＴＴＰ－ＨＥＡＤＥＲ的理解）。下面对这…技术做简单介绍。

ＨＴＴＰ是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于１９９０年提Ⅱｊ，目前在ｗｗｗ中使用的是ＨＴＴＰ／Ｉ．０的第六版，而且ＨＴＴＰ－ＮＧ（ＮｅｘｔＧｅｎｅｒａｔｉｏｎｏｆＨＴＴＰ）的建议已经提山。详细请ｒＡ！＿［４６］下面只对本文使用的ＨＴＴＰ协议头信息（Ｈ１ＹｒＰＨＥＡＤＥＲ）做简单介绍。

２．１．１ＨＴＴＰ协议的运作方式

ＨＴＴＰ协议是基于请求／响应模式的。一个客户机与服务器建立连接后，发送一个请求给服务器。服务器接到请求屙，给予相应的响应信息，其格式为一个状态行（协议版本号、成功或错误代码）和ＭＩＭＥ信息（服务器信息、实体信息等内容）。

ＨＴＴＰ协议的宏观运作方式如图２．１所示，它分四个过程，建立连接、发送请求信息、发送响应信息、关闭连接。

客户机

２．１．２ＨＴＴＰＨＥＡＤＥＲ图２１ＨＴＴＰ运作方式

服务器

包括如下信息：

代理信息：当访问目标网站时的代理用户名、密码：

网站登录信息：登录网站时的用户名和密码。在使用ＰＯＳＴ分数时多将访问网站的登录用户名和密码否则该ＨＴＴＰＨＥＡＤＥＲ域。

我们在系统实现时，需要首先设置ＨｒｒＰ头的信息，然后在某个ｓｅｓｓｉｏｎ上发送Ｒｅｑｕｅｓｔ。节４．２的讨论要求熟悉ＨＴＴＰ协议的头信息。

２．２ＨＴＭＬ语言局限性

２．２．１ＨＴＭＬ与ＷＥＢ网页

ＷＥＢ网页是用ＨＴＭＬ语言书写的一种特殊类型的文件。如果将一个用ＨＴＩＶｌＬ制作好的网页传输到

查塑奎芏塑主堂堡堡塞

能够提供服务的ＨＴＭＬ服务器ｔ，他人便可通过ＷＥＢ浏览器看到这个网页。

ＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）是一种特殊类型的计算机超文本黄标语言，是被设计用于在多种甲台上显示网页的。【．具［４８］。

ＨＴＭＬ文档的基本结构（嵌套结构）如下：

图２．２ＨＴＭＬ文档基本结构

２．２．１．１．ＨＴＭＬ的局限性

≯ＨＴＭＬ无法描述数据内容，而这一点恰恰是数据检索、电子商务和数据挖掘等重要Ｗｅｂ应用所必须的。

≯ＨＴＭＬ对数据表现的描述能力是十分不够的，如：ＨＴＭＬ还不能描述矢量图形、科学符号等对象，目前只能通过图象米表现这些对象。

≯ＨＴＭＬ实例标记语言的目前的地位，完全不能适应发展新标记的需求。

２．２．１．２．格式良好的ＨＴＭＬ文档

格式良好的ＨＴＭＬ文档必须符合如Ｆ要求

≯所有元素的首尾标记必须配对

》所有元素的嵌套层次结构必须正确

》所有的属性值包含在引号（“”）中

＞所有的单体标记的元素以“，＞”

２．３ＸＭＬ相关技术

在本文的系统中，首先将ＨＴＭＬ文档转换为ＸＭＬ格式，接下来的数据抽取操作都在该文档的基础上进行。另外，抽取规则也采用ＸＭＬ来描述，其中的映射规则采用ＸＰａｔｈ表达式表示。

２．３．１ＸＭＬ简介

２．３．１．１．ＸＭＬ的起源和发展

ＸＭＬ的发展开始于１９９６年，ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ（Ｗ３Ｃ）推荐其为标准。它是以１９８０发展的ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｌｌｇｕａｇｅ）为基础，是ＳＧＭＬ的子集。另外ＸＭＬ比ＳＧＭＬ改进的

第２章相关技术

地方是，它和ＨＴＭＬ一样地继承了Ｗｅｂ的功能，这使得ＸＭＬ特别适合在网上传输和处理。２．３．１．２．ＸＭＬ的主要优越性

我们以Ｆ面的代码为例进行介绍：

图２．３ＸＭＬ例子代码

ＸＭＬ与ＨＴＭＬ一样都是纯本文格式的文件，文件的内容包含在“标签”（ｔａｇ）和“属性”ｒａｔｔｒｉｂｕｔｅｌ之间。ＨＴＭＬ中的每个标签，都被详尽的定义其意义，但是ＸＭＬ的文件中，标签只用来限定文档的层级，至丁它的意义，是由使用者或是程序来决定。而对比之下在ＨＴＭＬ中，只要看至ＩＪ＜Ｈｌ＞＜Ｐｒｌｌ＞，不管这个标签是在文什的哪里出现，标签中的文字，就会使用“标题１”的格式来显示，而在的ＸＭＬ中（见图２＿３），＜课程名称＞＜／课程名称＞这一组标签，代表的就是＜课程列表＞＜课程＞里面的＜课程名称，，而不是＜课程列表＞里面的＜课程名称＞，也就是说在ＸＭＬ的文件中，＜课程名称＞这个标签，并没有被定义其意义，它出现的地方不同，意义就不同。所以如果各院校之间课程列表以上面示范的形式来存放，那么以后各校就可以很容易的开课信息互相流通，这也是ＸＭＬ称为“元语言”（ｍｅｔａ－ｌａｎｇｕａｇｅ），也就是说是用来定义“语言的语言”的原因。下面详细阐述ＸＭＬ的这种优越性。

≯各种系统的文档且通：冈为ＸＭＬ是属于纯本文的文档，囡此适合做信息交换使用，就可以将信息轻易在各种系统中流通。因为ＸＭＬ是纯本文格式，所以即使装置内没有解析程序，我们一样可以用直接的人工来了解其意义。

》信息的保存：信息保存是很重要的一件事，这里的保存，不是指文档能存多久，而是指文档多久之后是否还能使用。ＸＭＬ使用纯本文的方式保存，因此即使在文档的传送或保存过程中，导致一些文档的遗失，我们仍可从文件中，取回未受损的文档。

≯相对于ＨＴＭＬ的优越性：可扩展的标签集，增加了数据有效性的验证；同样的数据可以以多种方式表示。

２．３．２ＸＭＬ的结构特征和模式

ＸＭＬ数据模型与半结构化数据之间的对应是非常明显的，许多半结构化数据模型的研究可以容易地应用到ＸＭＬ数据上。将ＯＥＭ模型稍加改动，就可以用来表示ＸＭＬ数据。下面找们就来讨论ＸＭＬ的半结构化特征和它的模式。

２．３．２．１．ＸＭＬ的结构特征

在讨论ＸＭＬ的结构特征之前，先来看看的ＸＭＬ文档的语法结构。

东南大学硕士学位论文

一个格式良好的ＸＭＬ文档由三个部分组成：

≯个可选的序言（ｐｒｏｌｏｇ）；

≯文档的丰题（ｂｏｄｙ），由一个和多个元素组成，其形式为一个可能包含字符数据的层次树；

》可选的尾声（ｅｐｉｌｏｇ），其内容包括注释、处理指令（ｐｒｏｃｅｓｓｉｎｇｉｎｓｔｒｕｃｔｉｏｎ，Ｐ１）和／或紧跟元素树后面的空白。

由于序言和尾声部分都是可选的，下面我们就主要以图２４的ＸＭＬ文档为例来介绍。

图２．４一个ＸＭＬ文档实例

ＸＭＬ标记的基本组成部分是元素。它秆Ｊ可以包含其它的元素、字符数据、字符引用、实体引用、Ｐｌ（处理指令）、注释，ｎ／或ＣＤＡＴＡ部分一一这些合在一起称为元素内容。每一个元素都必须由一个起始标记和一个结束标记分隔开。例如，图２．４中，＜ｌｅａｅｒ＞为ｌｅｔｔｅｒ元素的起始标记，而＜／ｌｅｔｔｅｒ＞是结束标记。

格式良好的ＸＭＬ文档定义形式是一个简单的层次树，该树只有一个根节点——文档实体（ＤｏｃｕｍｅｎｔＥｎｔｉｔｙ）或文档根（ＤｏｃｕｍｅｎｔＲｏｏｔ）。这个节点可能包含ＰＩ和／或注释，而且总是包含子元素树，子元素

，

树的根被称为文档元素（ＤｏｃｕｍｅｎｔＥｌｅｍｅｎｔ）。这个元素是这个树中其它所有元素的父元素，而且它不包含在其它任何元素中。需要注意，文档根和文档元素并不是一回事，在图２，４中，文档元素是ｌｅｔｔｅｒｓ元素，它是文档根的子节点。图２．５显示了如何ＸＭＬ文档的树形结构。

文档根—ｆ岸吾一

１文档元素／根元素Ｌ一元素树

－———————————一————

一———Ｊ尾声Ｉ

图２．５ＸＭＬ文档树结构

ＸＭＬ对元素有一种１Ｆ常重要的要求——它们必须正确嵌套。在这个问题上，ＨＴＭＬ和许多字处理格式都没有ＸＭＬ这么严格。

第２章相关技术

圉２．６文档结构图

由以上简要介绍的ＸＭＬ语法结构可以看出，ＸＭＬ数据模型与半结构化数据之间的对应是非常明显的，可以说ＸＭＬ是半结构化数据的一个特例。图２．６是图２．４所示文档经过ＤＯＭ解析后的文档树示意图。２．３．２．２．ＸＭＬ的模式

ＸＭＬ的模式是对ＸＭＬ文档中的结构和形式的约束机制，类似于数据库中数据模式的概念。目前由两种主要的ｘＭＬ模式定义方法：ＤＴＤ和ＳＣＨＥＭＡ。

ＸＭＬ文档传统的定义方式使用ＤＴＤ。不过，有些相当常见的约束是ＤＴＤ无法实现的。ＤＴＤ的主要限制在于它缺乏数据类型的表达，以及它无法简化子元素基数性的规范（如，只可以指定“一个或多个”＋ｆ元素，但要指定“七到十二之间”的约束很难）。

为了解珧ＤＴＤ的各种限制提出了Ｓｃｈｅｍａ，并进行了如下的改进：

≯

丰富的类型Ｓｃｈｅｍａ真正出色的地方在属性值和元素内容的类型约束上。》出现约束除了强大的类型声明以外，Ｓｃｈｅｍａ还在声明子元素模式的基数性能力的基础上进

行了改进，可以精确的指定个数，而在ＤＴＤ语法中并没有这样精确的约束。

≯

枚举无论是ＤＴＤ还是Ｓｃｈｅｍａ都允许在属性中使用枚举类型，但Ｓｃｈｅｍａ还可以在元素

内容中使ｊ｛ｊ了枚举类型。而且，Ｓｃｈｅｍａ的枚举方法非常全面而优秀。虽然Ｓｃｈｅｍａ在许多场台中胜过ＤＴＤ，但仍然还有一些ＤＴＤ更胜一筹的领域。当遇到以下情况时，ＤＴＤ仍然是首选的模式：

≯文档规则的简洁表示很重要；

》希望下游用户能够通过内部参数集覆盖将类型专｜、ｊ化；

≯文档规则主要考虑元素的嵌套而不是内容的语义约束；

》

惯常使用的工具支持ＤＴＤ胜于支持Ｓｃｈｅｍａ根据系统的实际情况和ＤＴＤ的特点，我们在本文采并ｊＤＴＤ方式设计ＸＭＬ文档的模式。在节４．３中系统自行设计了用于表示抽取规则的ＸＭＬ描述文件。

２．３．２．３．ＤＯＭ树

文档对象模型（ＤＯＭ，ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ）是由Ｗ３Ｃ（ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ）支持的创建和处理ＸＭＬ和ＨＴＭＬ文档结构和内容的ＡＰＩ。在分析ＸＭＬ文件时，它自然地将每个ＸＭＬ各个如元素、文本或者注释映射为一个对象。这些对象叫做节点；英文ＸＭＬ文档时一种层次经过，所以他制在内存中都以一棵树的形式保存。例如，代表元素的节点对象包含它的子元素节点，字符数据注释等。代表子元素的１，点还包括它自己的子节点，等等。因此，常常将文档对象模型（ＤＯＭ）直接称为ＤＯＭ树。下面为该技术的应用。

为了分析源网页，本文采用了ＤＯＭ树的方法来定义源网页的模式结构，并将在节４．４中应用。由于经过ＨＴＭＬＴｉｄｙ整理过的ＨＴＭＬ文档被转换为ＸＭＬ文档，具有“格式良好”的特征，可以直接将其解

龈Ｊ慧～一Ｊ瑟

～／甜

变亘盔兰塑主兰焦堡苎

析表示为树形结构（ＤＯＭ树）．其中根节点表示整个ＨＴＭＬ文档，非叶节点表示一对ＨＴＭＬ标签，如：“＜ｔｒ＞…＜／ｔｒ＞”．这些：仃点在ＤＯＭ树中的顺序与其在ＨＴＭＬ页面中出现的顺序是一致的。每一个叶节点表示待抽取的感兴趣语义项数据。下面为一个ＤＯＭ树的例子：

图２．７一个有关天气预报的嘲站ＨＴＭＬＤＯＭ树

２．３．２．４．ＸＰａｔｈ

ｘＰａｌｈ是ｗ３ｃ推荐的在ＸＭＬ文档中定位的技术，是用来帮助ＸＳＬＴ在ｘＭＬ源文档中查找定位信息

的语言。在实际使用过程中，ＸＰａｔｈ和ＸＳＬＴ总是混在一起使Ｊ［｛ｊ。我们将ｘＰａｃｈ应用丁ＤＯＭ树上。有关ｘＰａＩｈ的详细标准，请参加［４９］．

～蝥竺犁用ｘＰａｔｈ表达式在ＤＯＭ树来定位。比如执行该表达式“．．ＪＴＡＢＬＥＩＯＩ／７＂Ｒ１２Ｉ／ＴＤｌ２Ｉ／ｔｅｘｔ０，，以后返回值为“Ｓｈｏｗｅｒｓ”．（图２．７）

２．３．３ＸＭＬ技术在本文中的应用

≯

在本文中，我们在抽取过程定义完成后，将产生Ｗｅｂ信息抽取过程描述文件（ＩＥＰＤＦ），该文件使用ＸＭＬ描述。我们采用ＸＭＬ解析器（ＭｉｃｒｏｓｏｆｔＸＭＬＰａｒｓｅｒ）访问该文档。有关该文档的具体说明请参照４．３。

＞在获得源网页以后，为便于接Ｆ来的信息抽取，我们使崩ＨＴＭＬ

ＴｉｄｙＪ二具将ＨＴＭＬ页面转换为格式良好的ＸＭＬ页面，对该页面的访问我们使用ＸＭＬ解析器来完成。

≯

另外我们使用ｘＰａｔｈ来定义源网页的模式信息。在应用的过程中，我们要解析ｘＰａｔｌｌ表达式并且根据该表达式在ＤＯＭ树上定何感兴趣信息。

第３帝半结构化Ｗｅｂ信息抽取

第３章半结构化Ｗｅｂ信息抽取

以ｒ从两个方面综述与本文有关的研究一ｒ’作。首先概述半结构化数据的特点，然后介绍Ｗｅｂ信息抽取技术的研究情况。

３．１半结构化数据

所谓、Ｆ结构化数据，就是介于结构化数据（如关系数据库，面向对象数据库）和无结构的数据（如声音，图形等）之间的数据，ＨＴＭＬ文档就属丁、ｆ，结构化数据。它一般是白描述的，数据的内容和结构混合在一起，没有明显区分（［１７１第三章）。

３．１．１半结构化数据出现的原因

半结构化数据的山现有以ｒ儿个原因：

≯某些数据源被当作数据库处理，但它并不完全遵循某种数据形式。最典型的例子就是Ｗｅｂ数据。

在进行数据库研究时，我们认为Ｗｅｂ是一个数据库，但是，在多大程度上我们可以使用数据库工具米检索Ｗｅｂ数据呢？大多数Ｗｅｂ查询是利ＨｊＲｅｔｒｉｅｖｅ技术从Ｗｅｂ内容中获取单个的刚页，而没有利用Ｗｅｂ的结构来明确表达查询。此外，由于Ｗｅｂ并不符合任何标准的数据模型，闭此我们需要一种方法来描述它的结构。

≯在不同数据库之间交换数据时需要一种灵活的数据模式，这是数据交换和数据转换的需求。

≯对于某些结构化数据，为了显示的方便也将它作为半结构化数据来处理。通常，如果不了解数据库的模式，是不可能写出数据库查询语句的，而数据库的模式又包含许多难以理解的术语和关系，因此，为了能够在不完全了解数据模式的情况下写出查询语句，就提出了这个需求。

３．１．２半结构化数据的特点

半结构化数据存在一定的结构，但这些结构或者没有被清晰的描述，或者经常动态变化，或者过于复杂而不能被传统的模式定义米表现。半结构化数据模式与传统的关系或面向对象数据模式不同，它主要有以Ｆ有些特点：

≯、ｐ结构化数据先有数据，后有模式；

》半结构化数据的模式用于描述数据的结构信息，而不是对数据结构进行强制性的约束；

≯、ｒ结构化数据的模式具有非精确性。它可能只描述数据的一部分结构，也可能随着数据处理不同阶段的视角不同而不同；

》半结构化数据的模式可能规模很大，甚至超过源数据的规模，而且会由丁数据的不断更新而处于动态的变化过程中。

３．１．３现有的半结构化Ｗｅｂ页面分类

鉴于目前Ｗｅｂ网页的特点，按照单张网页对应的记录数目，如下分类。

３．１．３．１．单页单记录

单个网页包含郫ＪＮ，ｇ被抽取后Ｓ被映射到目的结构的单条记录中，即一个网页只含有单个信息块，一个网页对应一条记录。例如包含某型号数码相机详细介绍的网页，页面信息在模式定义（本文节４．３）完成后，将被映射到目的结构的单条记录中。如果目的模式设计为如Ｆ（图３．１）

．９．

查堕盔堂堕±堂壁堡塞一——

图３．１单页单记录抽取模式定义

则抽取出米的数据在目的结构中应该如下（幽３．２）

商品名一”｝：ｊ：品藤≥謦～ｊ攀簿誊｝一｝｝浚裕。『Ｉ颜色｛｛｝；

ｌ奥林巴斯ｕ４００数码相机奥林巴斯架￥３９９０００无

图３．２译页单记录抽取结果

３．１．３．２．单页多记录

一个网页含有多条记录，即多信息块，其中包含的信息被抽取屙分别对应到目的结构的多条记录中。例如包含多种电子产品的网页。对于数据抽取而言，有关每一款产品的信息都对应目的结构的一条描述记录。即如果目的结构的模式定义为（图３．３）

图３．３单页多记录模式定义

则抽取的结果数据应该如ｔ－（图３。４）：

叠算一－一｛；慕§品；瀵ｌ黥黪：簿？；誊ｉｌ；２瓣糕；：、囊

索尼Ｔｌ数码相机￥６５８０．ＯＯ

卡西欧ｚ．４数码相机￥４９８０．００

飞利浦吸尘器ＦＣ８３８８￥８６２．ＯＯ

图３．４单页多记录网页抽取结果

单页多记录的情况很多见，对于该类网页的数据抽取实际上是有关“多信息块Ｗｅｂ页面抽取”的问题，住［２１ｑａ对该种情况有详细的讨论，文中提出了一个采用新的抽取规则的包装器，该包装器结合了基于文档结构抽取和基于特征Ｐａｔｔｅｒｎ匹配抽取的优点。

３．２信息抽取技术

随着计算机的普及以及互联网（ｗｗｗ）的迅猛发展，大量的信息以电子文档的形式出现崔人｛ｆＪ面前。为了鹿对信息爆炸带来的严重挑战，迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取（ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎ）技术的研究正是在这种背景下产生的ｆ２６１。

它的主要目标是让计算机不但找到相关的文档，而且还耍找到相关的内容。

信息抽取的主要目的是从ｊｐ结构或无结构的信息中抽取出特定的事实信息（ＦａｃｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）。比如，从新闻报道中抽取出恐怖事什的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等；从经济新闻中抽取出公司发布新产品的情况：公司名、产品名、发布时间、产品性能等；从病人的医疗记录中抽取山症状、诊断记录、检验结果、处方等等。通常，被抽取出来的信息以结构化的形式描述，可以直接存入数据库中，供用户查询以及进一步分析利用。

第３章半结构化Ｗｅｂ信息抽取

结构化、语义更为清晰的格式【ｌ】。传统方式下，信息抽取是通过被称作包装器的程序来实现的，下面给出信息抽取的定义。

３．２．１信息抽取定义

正如上面所讨论的，信息抽取实际上是从无结构或、ｒ结构的信息中识别出用户感兴趣的数据，并将其转化为更为结构化、语义更为清晰的数据的过程，该过程定义如Ｆ：

信息抽取过程Ｉ＝Ｓ—兰斗Ｓ。

其中映射ｗ为包装器，完成从无结构或二ｒ结构的信息到结构化信息的转换功能，Ｓ为包含一组隐含并待抽取对象的无结构或、仁结构的信息源（比如，ｗｅｂ页面）；Ｓ。为一种更为结构化。语义更为清晰的数

据结构（如：ＸＭＬ，关系数据库等）。

有关信息抽取的定义，［４５１中阐明其实质如下：

‘‘ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎｉｎｖｏｌｖｅｓｔｈｅｃｒｅａｔｉｏｎｏｆａｓｔｒｕｃｔｕｒｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ（ｓｕｃｈａｓａｄａｔａｂａｓｅ）ｏｆｓｅｌｅｃｔｅｄｉｎｆｏｒｍａｔｉｏｎｄｒａｗｎｆｒｏｍｔｈｅｔｅｘｔ．（Ｇｒｉｓｈｍａｎ１９９７）”，该定义重点强调了“数据结构化”目标。

ｒ面对当今的信息抽取技术作简要的介绍和对比，旨在借鉴其中的技术，提出本文的信息抽取流程。３．２．２ｗｅｂ信息抽取特点

传统的Ｗｅｂ数据抽取的主要方法是编写只针对于某一网站的数据抽取程序，该程序称作包装器。它可以识别用户感兴趣的数据并将结果的数据映射到结构化的数据存储模式中（ＸＭＬ，关系数据库等）。对于包装器而言，其最富有挑战性的方面在于它必须能够在繁多的无关数据中识别出用户感兴趣的数据，而这些数据的模式并不固定，它们可能是扁平数据，也可能是复杂的多层次结构，这意味包装器的设计必须考虑对网页数据源的结构和内容变化的适应性。

３．２．３Ｗｅｂ信息抽取分类

随着需求的增加，近来涌现出了多种信息抽取工具，采用的技术也各不相同，涉及多个研究领域，如数据库、人１：智能、信息检索等。为了对信息抽取技术作进一步研究，以增强本文原型的易用和实用性，有必要对现有的信息抽取技术进行分析。Ｗｅｂ信息抽取技术有多种分类方式【２５】。

３．２．３．１．按自动化程度分类

这种分类方法比较简单，分为人工方式、半自动方式和全自动方式。

３．２．３－２－按抽取原理分类

根据各种抽取＿Ｌ＝具所采用的原理将现有的工具分为５类：基丁自然语言处理方式的信息抽取、基于包装器归纳方式的信息抽取、基于ＯＮＴＯＬＯＧＹ方式的信息抽取、基ｙ－ＨＴＭＬ结构的信息抽取和基丁Ｗｅｂ肖询的信息抽取［１１。

Ｆ面结合典型的系统，在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行分析和比较。其中结构化的数据称为对象；模式的定义方式主要两种，信息抽取之前给出对象模式的称为先模式，反之称为后模式。

３．２．３．２．１．基于自然语言处理方式的信息抽取

这类信息抽取主要适片ｊ于源文档中包含大量文本的情况（特别针对于合乎文法的文本），在一定程度上借鉴了自然语言处理技术ｔ利用子旬结构、短语和子旬之间的关系，建立基于语法和语义的抽取规则实

蔓堕△兰堡±兰笪迨茎一一现信息抽取。目前采用这种原理的典型系统有ＲＡＰＩＥＲ［２７］，ＳＲＶｌ２８］，ＷＨＩＳＫｌ２９］。Ｆ面结合比较典型的系统ＷＨＩＳＫ来详细说明这种方式的信息抽取。

ＷＨＩＳＫ：该系统既适朋于结构化、半结构化的文本也适用丁自由文本。结构化和半结构化的文本，一般１ｉ符合文法，所以系统主要是根据语义项的上ｒ文实现感兴趣信息的定位。此时基本上没有利用到自然语言处理技术，对这种情况这里不作详细的分析。对自由文本，系统首先根据分割符将源文档分割成多个实例（每一个实例是一个语义相关的文本块，如，在一个房地产广告的页面中，每一则广告称为一个实例）。在交互式的环境Ｆ，相同每一次呈现给用户一组实例。用户在可视化的环境ｒ根据系统提供的实例标记出感兴趣的信息并定义模式。系统使用语法分析器和语义类（如人名、机构名）分析器，分析出用户标记信息的语法成分和对应的语义类，生成基于语法标记和语义类标记的抽取规则，实现信息抽取。系统采用了先模式的方式。

这种基丁自然语言理解方式的信息抽取技术，是将Ｗｅｂ文档视为文本进行处理的（主要适用于含有大量文本的Ｗｅｂ页面），抽取的实现没有利用剑Ｗｅｂ文档独特于普通文本的层次特性。获得有效的抽取规则需要大虽的样本学习。

３．２．３．２．２．基于包装器归纳方式的信息抽取

包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习方式的归纳算法，生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义项上Ｆ文的描述，即根据语义项的左右边界来定佗语义项。该类信息抽取方式和基于自然语言理解方式的信息抽取技术最大的不同在于仅仅使用语义项的上Ｆ文来定位信息，并没有使用语言的语法约束。采用这种原理的典型的系统有ＳＴＡＬＫＥＲ［３０．３ｌ，３２，３３１，ＳＯＦＴＭＥＡＬＹ［３４］，ＷＩＥＮ［３５］．Ｆ面根据具体的系统来详细分析这类信息抽取技术。

ＳＴＡＬＫＥＲ：该系统根据用户事先标记的样本页面和用户嵌入式分类树（ＥｍｂｅｄｄｅｄＣａｔａｌｏｇＴｒｅｅ）形式提供的页面的结构信息，应用逐步覆盖算法（ｓｅｑｕｅｎｔｉａＩｃｏｖｅｒｉｎｇａｌｇｏｒｉｔｈｍ），逐步归纳生成基于定界符的精确的抽取规则，实现层次信息抽取。

｝沃入式分类树（ＥＣＴ）在该系统中是一个重要的概念，它是用户根据页面结构定义的嵌套模式，该树形结构一方面描述了页面的逻辑结构，另一方面提供了模式信息和语义信息（树中节点的名称）。下面说明信息抽取过程：系统遍历ＥＣＴ，若根节点的孩子为Ｌｉｓｔ节点则在源文档中应用普通抽取规则抽取出多个对象组成的信息块，然后再在获得的信息块中应用迭代规则实现单个对象的定位，若该Ｌｉｓｔ节点的孩子为叶节点，则系统在上一步获得的单个对象构成的信息块中执行叶节点对应的抽取规则获得单个语义项。

该系统中语义的附加和模式的定义是在用户定义嵌入式分类树阶段完成的，属于先模式的方式。信息定位的实质是使用左右边界实现感兴趣信息的识别。该系统在一定程度上是按结构抽取和按文本抽取的结合，所以可以抽取复杂的对象。但是规则中的定界符不仅仅是由ＨＴＭＬ标记组成，而且还有某类网页经常出现的关键字组成。所咀该类信息抽取不但对页面的结构有所依赖，而且对网页的内容也有所依赖，要想获得精确的抽取规则，必须进行大量的样本训练。

ＷＩＥＮ：该系统中事先由用户标记样本页面，系统根据页面逻辑结构的不同，使用不同的启发式归纳算法生成不同的包装器。例如，产生一个ＨＬＲＴ（Ｈｅａｄ，Ｂｏｄｙ，Ｔａｉｌ）包装器。

该系统语义和模式信息是用户附加的。通过感兴趣信息的左右边界实现信息的定位。方式和上面系统类似，本文不作介绍。只是该系统对复杂对象不做处理。

３．２．３．２．３．基于ＯＮＴＯＬＯＧＹ方式的信息抽取

该类信息抽取介绍主要利用对数据本身的描述信息实现抽取，对网页结构的依赖较少。由ＢｒｉｇｈａｍＹｏｎｇＵｎｉｖｅｒｓｉｔｙ（ＢＹＵ）开发的信息抽取工具［３６１＠采用了这种方式，另外ＱＵＩＸＯＴＥ［３７，３８１也采用了这种方式。

ＢＹＵ：在该小组开发的系统中，事先需要由领域专家采用人工方式书写某一领域的ｏｎｔｏｌｏｇｙ。系统根据边界分割符和启发信息将源文档分割为多个描述某～事物（如汽车广告）不同实例的无结构文本块，然后根据ｏｎｔｏｌｏｇｙ中的描述信息产生抽取规则，对每个无结构的文本块进行抽取获得各语义项的值，最后将抽嵌出的结果放入根据ｏｎｔｏｌｏｇｙ的描述信息生成的数据库中。

第３章半结构化Ｗｅｂ信息抽取

创建的应用领域ｏｎｔｏｌｏｇｙ足够强大丰富，系统可以对某一应用领域中的各种网页实现信息抽取。但是系统使用不太方便，某一应用领域的ｏｎｔｏｌｏｇｙ只能由领域知识专家创建。另外由丁是根据数据本身实现信息抽取的，因此在减少了对网页的结构依赖的同时，增加了对网页中包含的数据结构的要求，如要求内容中包含时间、日期、ＩＤ号码等一定的格式内容。

ＱＵＩＸＯＴＥ：该系统利ｊ＿｝ｊ特殊主题的爬行Ｉ一具搜集到一组和某一主题相关的文档，然后使用常见的文本分割符（如：“，”，“：”等）对文本节点进行分割将人的文本块分割成小的语义块，再将小的语义块送入事先由用户崩领域知识训练过的贝叶斯分类器（１３ａｙｅｓｃｌａｓｓｉｆｉｅｒ）得到每个语义块对应的语义，如若有文本块，“张三，男，东南大学，硕十”，经过分割后依次进入分类器后，可得到“姓名，性别，学校，学位”４个语义项作为元素类型名，采用一定的重构规则，把ＨＴＭＬ格式文档转换为ＸＭＬ格式文档。对得到的这组ＸＭＬ文档进行模式提取，得到公共的模式。

该系统通过事先训练分类器，给系统提供语义信息，通过文本分割，分类确定网页内容的语义，采用了后模式的方式，即在虽币提取ＸＭＬ文档的公共模式。此方法能够对一组主题相关、结构不同的文档进行抽取。

３．２．３．２．４．基于ＩｔＴＭＬ结构的信息抽取

该类信息抽取技术的特点是，根据Ｗｅｂ页面的结构定位信息。在信息抽取之前，通过解析器将Ｗｅｂ文档解析成语法树（或者类似的标签树Ｔａｇ－Ｔｒｅｅ），通过自动或者、ｒ自动的方式产生抽取规则，将信息抽取转化为对语法树的操作实现信息抽取。采用该类介绍的典型系统有ＬＩＸＴＯ［３９，４０］，ＸＷＲＡＰ【４ｌ，４２］，

ＲｏａｄＲｕｎｎｅｒ［４３］｝ｔｌＷ４Ｆ［４４］等。下面对具有都代表性的系统进行分析，详细的研究请参考对应的参考文献。

本文的原型系统借鉴了该类的信息抽取技术，尤其体现在可视化模式定义阶段。

ＸＷＲＡＰ：通过交互的方式，由用户在样本页中指定抽取区域的起始位置，系统确定整个抽取区域，并确定区域的类型，然后通过可视化的方式，由用户在样本页中指定语义项（如表头）以及与之对应的实例，系统自动产生抽取规则实现信息抽取，最后系统利用启发信息获得数据间的层次结构关系，生成ＸＭＬ文档。该系统采用用户在网页中指定语义项的方式附加语义信息，即将网页的部分内容作为语义项，对应不同的区域类型（如：Ｔａｂｌｅ。Ｌｉｓｔ等）采用不同抽取规则提高系统的灵活性和效率。

Ｌ１ＸＴＯ：允许用户以可视化、交互式的方式对样本页面中的信息进行标记，系统通过记录用户标记的信息生成信息抽取规则，实现对相似结构网页的信息抽取。用户无需具备与系统相关的专业知识，就可以完成对数据源的包装。

在该系统中，语义信息是在样本学习阶段，由崩户加入的，采用了先模式的方式。事先由用户在可视化的界面中定义模式，抽取出的数据最终以ＸＭＬ格式存放，使用用户定义的语义项作为ＸＭＬ文档中的元素粪犁名。ＬＩＸＴＯ在一定程度上简化了信息抽取的步骤，增强了信息抽取技术的实用性。该系统的不足之处在于：它的抽取规则使用基于Ｄａｔａｌｏｇ的Ｅｌｏｇ语言描述的（见节２．１，４．２），实现和优化校围难，另外抽取规则中抽取信息的描述不够丰富，而且对网页中的超链接不作处理，不支持图像信息和文献信息的处理。

ＲｏａｄＲｕｎｎｅｒ：该系统通过对２个和多个样本页面结构的比较，获得一个利用正则表达式表示的该类页面的通用结构模式，实现对相似页面的信息抽取。

该系统实现了全自动的信息抽取。结构模式确定的数据都可以抽取出米（可能包含用户不感兴趣的信息）。抽取出的数据仍然没有语义信息，如果要利用的话，可以采用后模式的方式为其附加语义。另外该系统需要大量的样本训练。

３．２．３．２．５．基于Ｗｅｂ查询的信息抽取

使用Ｗｅｂ的相关技术解决Ｗｅｂ的问题称为Ｗｅｂ技术规范。

Ｅ述的信息抽取Ｔ具，采用了不同的原理，抽取规则的形式和感兴趣信息的定位方式也各不相同，因此均不具有通用性。具有Ｗｅｂ技术规范的信息抽取，将ｗｅｂ信息抽取转化为使用标准的ｗｅｂ查询语言对

．１３．

东南大学硕士学位论文

Ｗｅｂ文档的查询，具有通崩性。采用该类技术的典型的系统有：Ｗｅｂ．ＯＱＬ［５３，５４】以及自主开发的原型系统ＰＱＡｇｅｎｔ［５５，５６】

ＰＱＡｇｅａｔ：系统采用了交互式的方式，系统通过样本学习生成基于ｘＱｕｅｒｙ的抽取规则，利用生成的抽取规则实现对相似结构页面的信息抽取。要求事先通过预处理使源文档符合ＸＭＬ语法规范，然后商接利＿【；ｆｊＸＱｕｅｒｙ引擎执行ＸＱｕｅｒｙ查询语句实现信息抽取。

浚系统采用先模式的方式，由用户附加语义并确定模式。抽取规则以ＸＱｕｅｒｙ的形式表示。应用抽取规则可直接定位到对象。相对于前面的系统，该系统的抽取规则相当健壮，有很强的表达能力，并统一了ＨＴＭＬ和ＸＭＬ查询，不仅便于最终用户使用，也便于作为包装器（Ｗｒａｐｐｅｒ），由应用查询调用，这是其它方法无法比拟的优点。但是系统对于网页结构的依赖性仍比较强。

Ｗｅｂ一０ＱＬ：Ｗｅｂ－ＯＱＬ是类似于ＳＱＬ语句的Ｗｅｂ查洵语言。系统利用Ｗｅｂ－ＯＱＬ语言提出了一种通用的ＨＴＭＬ包装器框架。系统首先将输入的Ｗｅｂ文档解析成抽象的ＨＴＭＬ语法树Ｈｙｐｅｒｔｒｅｅ，然后用户在信息抽取之前根据页面的结构和标记写出合适的奁询语句实现信息抽取。

该系统试图将Ｗｅｂ信息抽取转化为Ｗｅｂ查询。但并没有看到其实现。Ｗｅｂ．ＯＱＬ仅作为一种ｗｅｂ裔询语肓出现，并为ＸＱｕｅｒｙ规范的形成作出贡献。

３．３本文的信息抽取技术特点

目前虽然国内外对于包装器自动产生与维护的研究较多，但是在实际应用中，为了完成Ｗｅｂ信息的抽取，大都利用手＿＿丁ｉ的方式针对某一网站的页面设计相应的抽取程序，这一程序作为网站包装器。这样就带来了程序适应性不强的问题：如果目标网站有所改动，必须随时修改程序，而且往往修改调试起来非常繁琐。而本文所提出的系统可以对某一网站的页面模式进行定义，如果目标网站有所改动，只需要重新定义抽取规则即可，而无须对程序进行修改，所以从这个意义上来说，本文系统是一包装器生成程序，对网站变动的适应性较强，基本达到了一次设计，多次使用的目的。

第４章Ｗｅｂ信息抽取过程的设计与实现

４．１Ｗｅｂ信息抽取难点

对于基于Ｗｅｂ的信息抽取技术的研究我们面临的问题主要有如下方面：

≯模式定义问题，其中涉及到如下几个子问题：

?ＵＲＬ指定问题：如何使用户方便的指定待抽取网页的ＵＲＬ，而目前已有的系统大多将待抽取页面分为导航网页（ＮａｖｉｇａｔｉｏｎａｌＰａｇｅｓ）和目的网页（ＴａｒｇｅｔＰａｇｅｓ），导航网页网页包含指

向目的网页或者其它导航网页的链接［１１］，利用网页爬行工具可以将用户要求的目的网页数

据获取过来供进一步抽取使用。由于本文只将重点放在数据抽取的定义和执行部分，所以有

关爬行工具的问题不做讨论，请参阅相关的技术资料。

?样本训练问题：是指如何指定网页作为待抽取批量网页的样本，并且能使用户方便的发现样本页面的模式信息，使Ｗｅｂ抽取＿Ｔ具能够忠实的按照用户的初衷抽取出感兴趣数据。样本集

的选择是关键的问题。其实该问题可以和网页爬行工具结合起来，使得原型系统可以自动分

析待抽取网站的网页类型，并且提供给用户目前该网站的页面类型和每一种页面类型的样本

页面，这样可使用户无须自己分析网页结构信息，直接从备选页面中选取即可。如此考虑可

以大人降低系统对用户的要求，方便性也大大改善。为简化本文原型系统，样本的选择采用

用户指定ＵＲＬ的方式。此处是待扩展的部分，但如此处理也一定程度上降低了系统的复杂

性。

●感兴趣信息的定界问题：是指如何准确方便的定义用户感兴趣的数据的问题。对于可视化的

信息抽取０Ｅ）２具，很有必要在准确性和方便性两者之间作出合理的权衡。

?抽取规则表示问题：目前系统内部抽取规则的表示方式有：ＸＰａｔｈ方式，ＸＭＬ方式和系统自主创建的内部脚本方式（这种方式只是专用于所在的抽取工具中，通用性不强）。本文原型

系统所采用的抽取规则采用了ＸＭＬ表示（有关ＸＭＬ技术见节２．３）

》规则执行问题：是指根据定义的抽取规则，如何在待抽取网页上实施该抽取规则（实际为专用于系统内部的抽取指令），将定义好的抽取规则在目的网页上做相应处理过滤（如模式匹配，结构匹配，语义关键词定位，语义项边界定位等）。本文采用的执行方式如下：

●解析ｘＭＬ格式的抽取规则

●根据抽取规则中的ＵＲＬ信息获取待抽取网页数据；

●根据其中感兴趣数据分割定义截取感兴趣数据：

●根据目的表模式定义，创建在指定的关系数据库中创建目的表结构；

●根据模式映射信息将感兴趣数据映射到目的关系数据表中。

?完成抽取规则的执行。．

＞网页结构变化问题：如果源网页的数据结构发生变化，那么已有的抽取规则是否仍然有效？需要多大的改动才能再次正确的完成抽取任务？这正是Ｗｅｂ信息抽取技术的对于Ｗｅｂ网页结构变化的适应性问题。从理论意义上来说，某一抽取技术对于网页结构变化要求健壮，适应性强，但是从实际意义而言，只能尽量减少抽取技术对于结构变化的敏感程度。

＞网页｝勺容的变化问题：当源网页的关键字或者语义项发生变化时，要求己有的抽取规则做较少改动或者不做改动就可以适应这一变化。一般而言，基于语义或者基于内容的Ｗｅｂ信息抽取技术对这一变化比较敏感ｔ网为往往这些抽取方法的抽取规则的定义都依赖于语义关键字或者领域内的语义项。

实际研究’Ｔ：作中，在选择某一抽取原理的时候，往往要求在“依赖网页结构”和依赖网页内容之间作出权衡，目前的Ｗｅｂ信息抽取技术大多选取两者之一，而较少有把两种很好的结合起来的研究技术。

－１５．

东南大学硕士学位论文

ｒ面讨论的信息抽取原理和方法基于图４．１，目标是从Ｗｅｂ页面中获得结构化数据并且保存到转换为关系数据库中，我们将分四个部分讨论这一抽取转换过程。

图４ｌＷｅｂ数据抽取过程逻辑定义

计算机半结构化数据源的数据挖掘技术研究_赵伟

│ Computer CD Software and Applications 120 计算机半结构化数据源的数据挖掘技术研究赵伟 / 太原师范学院计算机中心，太原 030012 着因特网的发展，数据信息来源种类逐渐增多，相应的信息复杂性也在增加，传统的数据存储和处理方式已经不能很好的满足实际使用与研究的需求，XML 作为一种半结构化数据标准，已经开始被越来越广泛的应用，而对于此类结构化数据的挖掘也为我们的日常研究提供了一个方向。对于半结构化数据源的挖掘不同于传统的数据挖掘。传统的数据库中的数据类型工整，数据结构性很强，为完全的结构化数据，因此对于此类数据处理较为简单，只需要按照其规律进行分析即可。而对于半结构化的数据则因其表现形式的多样性，所以对其挖掘要比对于单个数据仓库的数据挖掘要复杂。 1 半结构化数据半结构化数据有两种，一种是指该数据在物理层面上缺少结构，另外一种是指该数据在逻辑层上缺少结构。在现有的Web 环境中，有一些结构化的数据，为了用于网页页面显示而采用了与HTML 语言标记符号嵌套的方式，因此就构成了第一种物理上的半结构化数据。另外网络中有众多的Web 页面，页面上有着丰富的数据内容，这些数据大多都以HTML 文件的方式存在，并没有严格的结构和类型定义，这样的数据都属于第二类的逻辑层的半结构化数据。网络页面上的数据与传统数据库中存储的数据不同，传统数据库内的数据都有一定的数据模型，每个特定的数据都可以根据模型来进行描述，而网络页面上的数据很复杂，并且不能按照特定的模型进行描述，每一个站点的数据都遵循其独立的设计规则，并且它的数据本身具有自我描述的特性和动态的可变性。因此网络页面上的数据具有一定的结构性，但是其因为具有自述层次的存在，因此属于一种非完全结构化的数据，也称为半结构化数据。 2 半结构化数据的来源（1）在Internet 上因为对所存储的数据没有严格模式的限制而产生的半机构化数据，常见的有HTML 、XML 、 SGML 等类型的文件。（2）在电子邮件、电子商务文件、文献资料等文件中，由于没有严格的格式要求，所以存在着大量结构与内容不固定的半结构化数据。（3）在包含有异构信息源集成的情况下，由于信息源集成范围广泛，对于信息源的存取范围包括各类数据库、电子图书馆、知识库和文件系统等，因此也会产生半结构化数据。 3 半结构化数据的几个特点（1）包含有隐藏的模式信息。虽然说半结构化数据具有一定的结构，但是由于数据和结构混合在一起，所以并没有明显的模式定义。（2）结构不规则。半结构化数据的一个数据集合可以由不同结构的元素组成，或者在某些情况下使用不同类型的数据来表示相同的信息。（3）类型约束不严格。半结构化数据由于没有预先确定的表达模式，并且数据在结构上没有遵循相同的规则，因此会导致其缺乏对于数据的严格约束。基于以上几个半结构化数据模型的特点可以看出半结构化数据缺乏严格、完整的数据结构，但是这类数据并非没有结构，但是它们的结构可能是隐藏的、并不完整的，并且可能是需要不断进行修改的。半结构化数据的模式与以往的关系数据模式或者面向对象的数据模式最大的区别在于半结构化数据是现有数据然后再有模式。不对数据的结构进行强制性的约束，只需要描述出数据的结构信息，并且它只描述数据部分结构的非精确模式，在应用中随着数据对象的不断更新而动态修改其描述，据此分析半结构化数据的数据特点和它所产生的原因，半结构化数据源的挖掘是能够实现的。半结构化数据源挖掘技术首先要解决的是数据远模型及其查询与集成的问题。要解决网页页面上的异构数据的集成与查询，就必须要有一个适当的模型来对这些数据进行清晰的描述，因此如何创建这个半结构化的数据模型就成为了解决问题的关键所在。首先我们需要定义一个半结构化数据模型，其次我们还需要一种适用于此模型的半结构化模型挖掘技术用来的从现有的数据中自动挖掘半结构化模型。对于网页页面数据的挖掘就必须以此半结构化数据模型和半结构化数据模型挖掘技术为手段来建立相应的数据库。在针对多数据源的数据库进行半结构化数据提取、表示和查询的处理一般采用包装的方式来进行。首先把信息源的数据通过包装转换成为目标数据库所使用的格式和类型。同时处理过程中负责监视的部分将自动监测信息中的数据变化，如果发现数据有变化则将这些变化上报，这些变化经过分析发现有新的数据源连接仓库系统或者信息源发生变化时，那么系统就会把这些有变化的数据进行过滤、汇总，并把这些信息源进行汇总处理，并将收集到数据库中。此系统对半结构化数据进行处理的过程中所面临的主要问题就是如何将其转化为更易于处理的结构化信息。但是对这些半结构化数据进行转换的目标是庞大的网页页面数据源，如果依靠人工手段针对每个数据源编写相应的转换方式的话工作量非常代价。因此，我们需要一种能够快速建造并且直至自动维护的转换工具。目前这类工具还不是很多，并且使用上并不十分完善。但是，随着近年来X ML 及其应用技术的发展为处理半结构化数据提供了很好的工具和方法。随中图分类号：TP311.13

简述结构化数据、非结构化数据、半结构化数据

在数据分析中，我们会接触到很多的数据，而这些数据都是有类别之分的。这些数据根据结构分类被划分为三种，它们分别是结构化数据、非结构化数据、半结构化数据。在这篇文章中我们就简单地给大家介绍一下这三种数据的相关知识。首先我们说一下结构化数据，结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号。传统的关系数据模型、行数据，存储于数据库，可用二维表结构表示。而结构化的数据的存储和排列是很有规律的，这对查询和修改等操作很有帮助。然后我们说一下半结构化数据，半结构化数据是结构化数据的一种形式，它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分隔语义元素以及对记录和字段进行分层。因此，它也被称为自描述的结构。半结构化数据，属于同一类实体可以有不同的属性，即使他们被组合在一起，这些属性的顺序并不重要。所谓半结构化数据，就是介于完全结构化数据和完全无结构的数据之间的数据，XML、HTML文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。而不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据，怎么理解呢？

最后我们给大家介绍一下非结构化数据，非结构化数据顾名思义，就是没有固定结构的数据。各种文档、图片、视频、音频等都属于非结构化数据。对于这类数据，我们一般直接整体进行存储，而且一般存储为二进制的数据格式。非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据而且更适合处理非结构化数据。在这篇文章中我们简单地给大家介绍了结构化数据、非结构化数据以及半结构化数据的知识，其实现在很多的数据分析师都开始加大对非结构化数据的研究。由此可见，非结构化数据的前景还是十分明朗的。

结构化数据、半结构化数据、非结构化数据

结构化数据、半结构化数据和非结构化数据结构化数据结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。举一个例子： idname age gender 1lyh12 male 2liangyh13 female 3liang18 male 所以，结构化的数据的存储和排列是很有规律的，这对查询和修改等操作很有帮助。但是，显然，它的扩展性不好（比如，我希望增加一个字段，怎么办？）。半结构化数据半结构化数据是结构化数据的一种形式，它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分隔语义元素以及对记录和字段进行分层。因此，它也被称为自描述的结构。半结构化数据，属于同一类实体可以有不同的属性，即使他们被组合在一起，这些属性的顺序并不重要。常见的半结构数据有XML和JSON，对于对于两个XML文件，第一个可能有 A 13 female 第二个可能为：

B male 从上面的例子中，属性的顺序是不重要的，不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据，怎么理解呢？上面的例子中，标签是树的根节点，和标签是子节点。通过这样的数据格式，可以自由地表达很多有用的信息，包括自我描述信息（元数据）。所以，半结构化数据的扩展性是很好的。非结构化数据顾名思义，就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据，我们一般直接整体进行存储，而且一般存储为二进制的数据格式。

web信息抽取技术纵览

网上信息抽取技术纵览 Line Eikvil 原著（1999.7）陈鸿标译(2003.3) 第一章导论信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。本文首先在第二章简要介绍信息抽取技术，第三章介绍网页分装器(wrapper)的开发，第四章介绍已经开发出来的网站信息抽取系统，第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。第二章信息抽取技术概述信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别；第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。第2.1.节IR和IE

Web信息抽取及知识表示系统的研究与实现

万方数据

计算机系统应用２０１０年第１９卷第９期图３示例文档对应的ＤＯＭ树结构２．２．６数据抽取根据得到的ＤＯＭ树进行数据模型映射，步骤如下： ①利用ＤＯＭ树生成对应的ＸＭＬ文档和ＤＴＤ模式定义文档： ②利用ＤＴＤ进行对象一关系映射，将ＸＭＬ映射到知识数据库中，生成映射规则，进行数据抽取及存入数据库处理。２．３知识表示采用Ｂ／Ｓ架构，利用数据库检索技术结合智能化方案生成算法，直接为用户提供解决方案，而不仅仅是知识的罗列。对解决方案给出一些评价标准，根据用户的选择按照评价标准对方案进行排序，使用户方便快捷的找到符合自己需求的方案。３实例及分析本文以交通信息抽取及混合交通出行方案查询作为实例，通过相关Ｗｅｂ页面获取及Ｗｅｂ信息抽取模块从互联网上逐步抽取得到地点信息、站点信息、列车时刻信息、航班时刻信息、长途汽车客运时刻信息、各种交通票价信息等，实验中从配置的１５个站点的约３０万个动态页面中抽取相关数据，抽取准确率接近１００％。图４即是通过Ｗｅｂ信息抽取得到的火车时刻信息。开发了混合交通的出行方案生成系统，前台提供出行方案查询页面，可以指定多种交通工具和转车次数进行查询，按时间、金额、转车次数等进行排序显示。结果页面按序显示符合条件的各种出行方案，每条方案中全面给出从起点到终点的详细信息。４系统建设ＳｙｓｔｅｍＣｏｎｓｔｒｕｃｔｉｏｎ图４通过Ｗｅｂ信息抽取得到的火车时刻信息实验结果表明，本系统具有如下一些优点：１）以知识数据库作为支撑，通过配置网站库，能实现各种特定领域相关知识动态Ｗｅｂ页面的自动下载：２）使用了基于本体的关键词库及概念标注库，使信息抽取能适应不同知识领域，适应无统一语义的Ｗｅｂ环境。４结论针对现有Ｗｅｂ信息抽取方法对不同领域、不同结构Ｗｅｂ页面的信息抽取缺乏通用性，本文提出了一种新的Ｗｅｂ信息抽取和知识表示系统，实现不同知识领域下各种数据密集型动态Ｗｅｂ页面的自动信息抽取，系统具有如下创新点：１）传统ＰＡＴ－ａｒｒａｙ算法无法区分重复模式区域的标题项和数据项，本系统采用基于本体的关键词库从重复模式中区分出标题和数据，自动识别数据显示结构模型和语义：２）将Ｗｅｂ信息抽取和知识数据库有机结合起来，把知识数据库已有知识作为Ｗｅｂ信息抽取的基础，从互联网上抽取新知识再存入知识数据库。从而达到知识数据库的不断自扩展。实验表明该系统具有高抽取准确率和良好的适应性。下一步在页面数据显示结构模型自动识别中将利用基于本体的页面结构识别方法，提高具有复杂标题结构的重复模式结构识别能力。参考ｊ．Ｊ氏ｌ张岭．智能信息检索中的Ｗｅｂ挖掘研究【博士学位论文】．上海：上海交通大学，２００３．（下转第９页）万方数据

视频结构化数据的查询及信息挖掘

视频结构化数据的查询及信息挖掘领域的大数据应用，主要体现在两方面：视频录像的集群和视频结构化数据的查询及信息挖掘。 1．视频录像的集群存储在面向大数据的架构中，可根据实际现场的部署需要，设立一个或多个集群组成，采集的流数据会被划分成段，并分布于数据集群节点，因为集群节点有内部进行多副本备份等机制，可以由软件技术来保证整体系统的高可靠性和高稳定性。这些数据节点可以采用廉价通用型的硬件，避免采用传统高端硬件的模式，能极大地降低投资成本。录像文件的集群存储，国内云储存厂家多采用CEPH技术和HDFS技术的方式。以HDFS 的方式举例，思路为：通过HADOOP提供的API结构，实现将接收到的视频流文件从本地上传到HDFS中。在这一过程中，把接收到的视频文件不断地存储到一个指定的本地临时文件夹中，而这个本地文件夹是在不断动态变换的，可以将该文件夹当成是一个缓冲区，把缓冲区中的文件以流的方式将上传到HDFS中。 2．视频结构化数据的查询及信息挖掘原始的视频图像是一种非结构化数据，它不能直接被计算机和上层应用软件读取和识别，为了让视频图像更好的应用，就必须对视频图像进行结构化的处理，提取出关键信息，并进行文本的语义描述，也就是视频结构化。一段视频里面，需要提取的关键信息主要有两类：第一类是运动目标的识别，也就是画面中运动对象的识别，是人还是机动车或者非机动车；第二类是运动目标特征的识别，也就是画面中运动的人、车、物有什么特征，行人特征主要有：是否带眼镜、围巾、上衣、裤子、是否带口罩、是否背包，性别分类等；机动车主要特征有：车牌号码、车身颜色、车型等；物体特征主要有：大小尺寸、颜色、方向等。一个案件的审看需要更为广泛地查看相关的摄像机视频，所审看的视频量时常达到数百上千小时。视频结构化提取技术对视频中运动的物体等进行提取，再通过软件进行检索和排

海量结构化数据分析平台解决方案

曙光海量结构化数据分析平台解决方案曙光信息产业(北京)有限公司 2012-05

导言在数据爆炸的今天，从海量结构化数据中提取并挖掘出有用的信息逐渐成为众多行业的新的应用热点。而海量数据的分析中呈现出的高并发加载数据，海量存储，低并发查询，但每次查询的规模都非常高的特点。使得如何将数据库操作有效并行化成为海量数据分析首要需要解决的问题。虽然目前流行的Hadoop的map-reduce并行计算框架在很多互联网企业中得到了广泛的应用，但却由于其不支持SQL语句，使得难以与现有的基于SQL的关系型数据库的应用场景进行结合。曙光在海量数据分析和挖掘领域积累了多年的经验，和计算所智能中心合作研发出专门针对海量关系型数据库应用特点的关系型数据库系统DRAC，为海量数据分析系统提供高性能，高可扩展性的并行数据库系统，并且已成功部署在多个国家大型项目中。其底层采用无共享（shared-nothing）的oracle数据库节点作为数据节点，具有较好的扩展性和系统可靠性。DRAC软件将用户的操作透明地转化成对底层数据库的操作，而对用户呈现为单一的数据库系统。DRAC系统可根据数据的访问频度和重要性实施多级存储的方案，以降低整个系统的成本，提高系统的性价比。技术特点曙光集群并行数据库DRAC(Dawning’s Real Application Cluster)是一种无共享（shared- nothing）结构的并行数据库管理系统。DRAC原是专为分析网络监控数据设计的并行数据库系统，现已部署在国家某大型项目、某市大型项目等多个系统中。它具有如下技术特点： DRAC采取目前主流的集群设计方法，具有性价比高、扩展性好等诸多优点。它直接将任意查询分解成操作于分区数据的子查询和汇总中间结果的后处理查询，用成熟的DBMS来实现两种查询的执行，从而避免了一般的分布式查询处理器为了通用而引入的复杂性。配合针对特定应用的分区策略，DRAC的方法能保证查询执行的效率。大任务全并行处理。DRAC采用单机数据库作为基本数据处理单元，将数据并行地写入这些单元数据库，查询时并行地从各个数据库中读取和处理这些数据。这种完全并行的处理极大地提高了系统存储数据的能力并缩短单个查询的完成时间。DDL 操作也在各数据库节点上并行地执行。 DRAC对外提供单一系统映像，用户使用类似ODBC或JDBC的接口提交SQL语句。这些操作被服务节点自动地并行执行。 DRAC采取了功能分离的设计思路，像加载、查询等功能均可按需要配置，满足在线扩展的高可用要求。和Oracle RAC等并行数据库不同，DRAC不需要光纤交换机和较高端的盘阵，硬件成本低。配合灵活部署和简易管理的工具，DRAC在大规模部署时有较高的性能价格比。