当前位置:文档之家› 半结构化Web信息抽取技术及其应用研究

半结构化Web信息抽取技术及其应用研究

半结构化Web信息抽取技术及其应用研究
半结构化Web信息抽取技术及其应用研究

东南大学

硕士学位论文

半结构化Web信息抽取技术及其应用研究

姓名:董树明

申请学位级别:硕士

专业:计算机应用技术

指导教师:董逸生

20040301

摘要

目前Web已经发展成为一个巨人的、分布和共享的信息资源,但目前Web数据大多以HTML形式出现,其特点使得应用程序无法直接利用Web上的海量信息。针对这一问题,山现了Web信息抽取技术。

本文在论述了半结构化web信息抽取技术总体解决方案的基础上,着重研究了Web信息抽取的实现技术以及ETL脚本语言的实现过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,该算法首先获取抽取规则指定的Web页面,并且利用HTMLTidy将其转换为格式良好的XML文档,然后利用XMLParser将该xML文档转化为DOM树,根据XPath表达式获取感兴趣数据,并将其映射到目的模式,这一过程的执行是根据己定义的映射规则来完成的;研究了ETL脚本语言的实现技术,完成了ETL的核心执行模块,即抽取器和转换器,这两个模块接收ETL脚本,对脚本进行解析、执行,完成脚本定义的抽取转换任务。论文工作实现了Web信息抽取技术和ETL技术的集成,利用E]rL的抽取转换功能,使得从Web上抽取的信息更加符合用户需求,为充分利爿jWeb上的海量数据提供了一种有价值的工具。

关键词:Web,HTTP,HTML,XlVIL,XPath,ETL,DOM,信息抽取,抽取规则,映射规则

ABSTRACT

WiththerapiddevelopmerttofInteruet,Webhasbecomeahuge,distributingandsharingresourceofinformation.Butmostofweb—dataarerepresentedwithHTMLlanguage.Sotheweb—dataarenotavailabletothe

ofweb-informationapplicationsbecausetheycannotbeparseddirectly.Forthispurpose,thetechnology

extractionappeared.一

On廿1ebasisofdiscussinggeneralsolutionofWeb.dataextraction,wefoCUSont11eimplementationof

Web.dataextractionmadtheexecutionofETLscript.IntheimplementationofWeb—dataextraction.weintroduceanalgorithmofextractionrules.Inthisalgorithm,atfirst,thewebpagesspecifiedbytheextractionruleareacquired,thenusingHTMLTidytotransformthedatarepresentedbYHTMLtothewell—formedXMLdocument,anduseXMLParsertogettheDOMtreeoftheXMLdocument,mappingtheinterestingdataabtainedaccordingthemapping-ruletothetargetschema;Secondly,intheresearchoftheexecutionofETLscript,theauthorfinishedthecoremodulesofETLexcution.thatjs.EXTRACTORandTRANSFORMER.ThetwomoduleCallreceivetheETLscript,andthenparsingandexecutingbaseonthescripttoaccomplishthetasksofextractionortransform.ThisthesisimplementtheintegrationofWeb-dataextractiontechnologyandETLtechnology.UsingthefunctionofextractionandtransformationprovidedbytheETLtoolenablesthewebdataextractingfromWebtobemoresatisfiedtotheuser,andprovidesavaluabletooltomakethehugeWeb-datamoreavailable.

Keywords:

Web,HTTP,HTML,XML,XPath,ETL,DOM,InformationExtraction,ExtractionRule,MappingRule

东南大学学位论文独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究上作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

研究生签名私骘日期:

东南大学学位论文使用授权声明

东南大学、中困科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,町以公布(包括刊臀)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学研究生院办理。

研究生签名

第1章绪言

第1章绪言

1.1研究背景

随着Intemet的飞速发展,Web已经发展成为一个巨大的、分布和共享的信息资源,但目前Web数据犬都阻HTML形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不明确,结构上也不良好。这使得应用程序无法直接解析并利用web上的海量信息,为了增强Web数据的可用性,出现了Web信息抽取技术,它通过包装现有Web信息源,将网页上的信息以更为结构化的方式抽取出米,为虑用程序利用Web中的数据提供了可能。现有的Web的信息抽取技术不但可以直接定位到用户所需的信息,而且采用。定的方式增加了语义和模式信息,为web查询提供了更为精确的方法,使Web信息的再利用成为可能,冈此有着明显的优势和广阔的前景,是当今多个领域的研究热点。

1.2研究现状

信息抽取技术已经研究多年,在信息获取的方面,Web信息抽取和浏览器上的信息检索和奇询有着本质上的差异,并且处理信息的粒度也不相同。现有的搜索引擎只能根据用户提交的关键词返回一一组URLs,用户必须逐一浏览URL对应的Web页,采用人工的方式定位最终信息,现有的搜索引擎本身不能直接定位到所需的数据,更谈不上为数据增加语义。另外目前很多网站提供对自身所提供的信息的查询功能,允许用户直接提交查询条件或关键词,然后系统在后台根据查询条件或关键词的“OR,AND”范式形式在后台数据库执行查询,最后可以直接返回给用户所需的信息,但是为了显示仍以HTML形式出现,缺乏模式信息,应崩程序仍旧无法直接利用这些信息,于是HTML语言的局限性就表现出来。另9l-I*t户没有直接访问网站后台数据库的权限,如果网站根本不提供查询功能或者查询的信息不是用户需要的信息,崩户对此无能为力。于是对于Web信息的抽取成为一件迫切需要研究的一个热点课题。

随着需求的增加,进米涌现出了多种信息抽取工具,采用的技术也各不相同,涉及多个研究领域,如:数据库、人工智能、信息检索等。

1.3本文研究内容

本文研究的主要内容是如何将基于HTML文档的半结构化Web信息抽取出来,将它们转换为结构化数据,并且保存到关系数据库中。提出了一种基于样例学习的半结构化Web信息抽取方法,并且在已经实现的原型系统中,完成的抽取效果良好,可直接应用于专门丁.Web网站的抽取,也可以用于其它应用的数据准备阶段。本文的最后指出了Web信息抽取技术在ETL系统中的应用,该原犁系统可以运行丁已经实现的ETL框架之中[151。下面将本文研究内容概述如下。

、月P≈m————

数据菝¨一日页数#

图1.1Web信息抽取流程

查直厶堂塑±堂笪堡兰————、}结构化Web信息抽取方法主要包括数据获取、抽取规则定义和规则执行(见图1.1)三个方面,这里所指的、r结构化数据指半结构化的HTML页面。

≯数据获取:下载指定的URL页而数据,为接r来的网负数据抽取作好准备。其中涉及到网站的登录问题。有些网站必须登录(注册厉获得用户名/密码对)后才有访问其某一网页的权限,这样就要求用户指定登录URL(该URL包括用户名和密码),以成功访问目的网页。本原型系统采用GET方式代替POST方式解决网站的登录和参数传递问题,详见4.2节。

》抽取规则定义:抽取规则定义由用户根据自己的需求米进行。在这一阶段,要求崩户能够根据样例Web页面完成抽取规则的定义任务,即:完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。完成的思路如下:系统首先根据用户指定的URL获取样例网页数据并且将该网页利用HTMLTidy转换为XML(实际为XHTML),并且利用XMLParser将该XML文档解析为DOM(DocumentObjectModel)树,这样DOM树就成为Web网页在系统内部的表示方式。而对于用户而言,只将该样例网页直观的展示给Hj户。当进行模式定义时,只需对所看到的感兴趣数据进行拖放即可生成模式定义文件,该文件即为待抽取网页的抽取规则,其中主要虑用了XML的相关技术。而抽取规则如何生成是原型系统的核心问题,在本文接t--来的部分会详细论述。

≯规则执行:利用上一步产生的抽取规则,系统可以对用户指定的URL集合进行真止的数据抽取。

过程如F:对于某一URL,首先获取该网页数据,将已经定义好的规则对该网页数据进行抽取过滤,输出结果数据,放入已经定义好的目的表模式中,至此完成Web数据的信息抽取T作。值得强调指出,抽取得到的结果数据集是完全结构化的,这样就大大增强了Web数据的可用性。

≯已有基础:作者参与了“数据仓库设计与实现”项目的研究与开发,熟悉其中ETL部分的理论和应用,该ETL工具实现了结构化数据和半结构化的文本数据的抽取转换和加载工作。半结构化的Web信息抽取可以看作对ETL上具的功能扩充。在本文的末尾介绍了Web信息抽取技术和ETL系统的关系。

注:在本文中,如未特殊说明,所指web信息皆为半结构化的Web信息。

1.4本文组织结构

本文共分为六章,论述并解决了如何将以HTML表示的Web信息转换为结构化信息以增强Web数据可用性的问题,安排如F:

第1章,介绍与本文密切相关的背景知识,包括课题的研究背景。国内外目前的研究现状以及本文的组织结构。

第2章,对半结构化Web信息抽取进行综述,从以下两个方面展开:半结构化数据综述和信息抽取技术综述。

第3章,介绍了本文所应用的主要技术,包括HTTP技术,HTML语言和XML相关技术。在每一部分都对这一技术在本文中如何应用进行了介绍,在接下来的系统设计和实现部分就不再对这些技术进行介智{。

第4章,是本文主要1二作,详细论述了如何将HTML格式的Web信息转换为结构化信息,重点在抽取过程的实施部分。从以下几个方面阐述:首先剖析了目前的信息转换技术,然后概括提出了本文所采用的信息转换原理和方法,接下来以信息转换的流程为顺序分别讲述了系统往数据获取、模式定义和规则执行过程中所采用的解决问题的方法。

第5章,介绍了Web信息抽取技术在数据仓库中的应用。包括数据仓库概述、ETL工具概述以及Web信息抽取技术在以上两个框架中的具体应用。文中结合作者曾经参加的“数据仓库设计与实现”(江苏省“十五”项目),讨论了如何将该工具庹用到数据仓库中,扩展数据仓库的数据范畴的问题。

第6章,本文的总结,并做出展望,指出了进一步的研究工作。

第2章相关技术

2.1HTTP技术

第2章相关技术

本文的数据获取部分(1y4.3)需要应用到HTTP技术,尤其为解决网站的login问题需要了解HTTP技术(HTTP-HEADER的理解)。下面对这…技术做简单介绍。

HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提Ⅱj,目前在www中使用的是HTTP/I.0的第六版,而且HTTP-NG(NextGenerationofHTTP)的建议已经提山。详细请rA!_[46]下面只对本文使用的HTTP协议头信息(H1YrPHEADER)做简单介绍。

2.1.1HTTP协议的运作方式

HTTP协议是基于请求/响应模式的。一个客户机与服务器建立连接后,发送一个请求给服务器。服务器接到请求屙,给予相应的响应信息,其格式为一个状态行(协议版本号、成功或错误代码)和MIME信息(服务器信息、实体信息等内容)。

HTTP协议的宏观运作方式如图2.1所示,它分四个过程,建立连接、发送请求信息、发送响应信息、关闭连接。

客户机

2.1.2HTTPHEADER图21HTTP运作方式

服务器

包括如下信息:

代理信息:当访问目标网站时的代理用户名、密码:

网站登录信息:登录网站时的用户名和密码。在使用POST分数时多将访问网站的登录用户名和密码否则该HTTPHEADER域。

我们在系统实现时,需要首先设置HrrP头的信息,然后在某个session上发送Request。节4.2的讨论要求熟悉HTTP协议的头信息。

2.2HTML语言局限性

2.2.1HTML与WEB网页

WEB网页是用HTML语言书写的一种特殊类型的文件。如果将一个用HTIVlL制作好的网页传输到

查塑奎芏塑主堂堡堡塞

能够提供服务的HTML服务器t,他人便可通过WEB浏览器看到这个网页。

HTML(HypertextMarkupLanguage)是一种特殊类型的计算机超文本黄标语言,是被设计用于在多种甲台上显示网页的。【.具[48]。

HTML文档的基本结构(嵌套结构)如下:

图2.2HTML文档基本结构

2.2.1.1.HTML的局限性

≯HTML无法描述数据内容,而这一点恰恰是数据检索、电子商务和数据挖掘等重要Web应用所必须的。

≯HTML对数据表现的描述能力是十分不够的,如:HTML还不能描述矢量图形、科学符号等对象,目前只能通过图象米表现这些对象。

≯HTML实例标记语言的目前的地位,完全不能适应发展新标记的需求。

2.2.1.2.格式良好的HTML文档

格式良好的HTML文档必须符合如F要求

≯所有元素的首尾标记必须配对

》所有元素的嵌套层次结构必须正确

》所有的属性值包含在引号(“”)中

>所有的单体标记的元素以“,>”

2.3XML相关技术

在本文的系统中,首先将HTML文档转换为XML格式,接下来的数据抽取操作都在该文档的基础上进行。另外,抽取规则也采用XML来描述,其中的映射规则采用XPath表达式表示。

2.3.1XML简介

2.3.1.1.XML的起源和发展

XML的发展开始于1996年,WorldWideWebConsortium(W3C)推荐其为标准。它是以1980发展的SGML(StandardGeneralizedMarkupLallguage)为基础,是SGML的子集。另外XML比SGML改进的

第2章相关技术

地方是,它和HTML一样地继承了Web的功能,这使得XML特别适合在网上传输和处理。2.3.1.2.XML的主要优越性

我们以F面的代码为例进行介绍:

图2.3XML例子代码

XML与HTML一样都是纯本文格式的文件,文件的内容包含在“标签”(tag)和“属性”rattributel之间。HTML中的每个标签,都被详尽的定义其意义,但是XML的文件中,标签只用来限定文档的层级,至丁它的意义,是由使用者或是程序来决定。而对比之下在HTML中,只要看至IJ<Hl><Prll>,不管这个标签是在文什的哪里出现,标签中的文字,就会使用“标题1”的格式来显示,而在的XML中(见图2_3),<课程名称></课程名称>这一组标签,代表的就是<课程列表><课程>里面的<课程名称,,而不是<课程列表>里面的<课程名称>,也就是说在XML的文件中,<课程名称>这个标签,并没有被定义其意义,它出现的地方不同,意义就不同。所以如果各院校之间课程列表以上面示范的形式来存放,那么以后各校就可以很容易的开课信息互相流通,这也是XML称为“元语言”(meta-language),也就是说是用来定义“语言的语言”的原因。下面详细阐述XML的这种优越性。

≯各种系统的文档且通:冈为XML是属于纯本文的文档,囡此适合做信息交换使用,就可以将信息轻易在各种系统中流通。因为XML是纯本文格式,所以即使装置内没有解析程序,我们一样可以用直接的人工来了解其意义。

》信息的保存:信息保存是很重要的一件事,这里的保存,不是指文档能存多久,而是指文档多久之后是否还能使用。XML使用纯本文的方式保存,因此即使在文档的传送或保存过程中,导致一些文档的遗失,我们仍可从文件中,取回未受损的文档。

≯相对于HTML的优越性:可扩展的标签集,增加了数据有效性的验证;同样的数据可以以多种方式表示。

2.3.2XML的结构特征和模式

XML数据模型与半结构化数据之间的对应是非常明显的,许多半结构化数据模型的研究可以容易地应用到XML数据上。将OEM模型稍加改动,就可以用来表示XML数据。下面找们就来讨论XML的半结构化特征和它的模式。

2.3.2.1.XML的结构特征

在讨论XML的结构特征之前,先来看看的XML文档的语法结构。

东南大学硕士学位论文

一个格式良好的XML文档由三个部分组成:

≯个可选的序言(prolog);

≯文档的丰题(body),由一个和多个元素组成,其形式为一个可能包含字符数据的层次树;

》可选的尾声(epilog),其内容包括注释、处理指令(processinginstruction,P1)和/或紧跟元素树后面的空白。

由于序言和尾声部分都是可选的,下面我们就主要以图24的XML文档为例来介绍。

图2.4一个XML文档实例

XML标记的基本组成部分是元素。它秆J可以包含其它的元素、字符数据、字符引用、实体引用、Pl(处理指令)、注释,n/或CDATA部分一一这些合在一起称为元素内容。每一个元素都必须由一个起始标记和一个结束标记分隔开。例如,图2.4中,<leaer>为letter元素的起始标记,而</letter>是结束标记。

格式良好的XML文档定义形式是一个简单的层次树,该树只有一个根节点——文档实体(DocumentEntity)或文档根(DocumentRoot)。这个节点可能包含PI和/或注释,而且总是包含子元素树,子元素

树的根被称为文档元素(DocumentElement)。这个元素是这个树中其它所有元素的父元素,而且它不包含在其它任何元素中。需要注意,文档根和文档元素并不是一回事,在图2,4中,文档元素是letters元素,它是文档根的子节点。图2.5显示了如何XML文档的树形结构。

文档根—f岸吾一

1文档元素/根元素L一元素树

-———————————一————

一———J尾声I

图2.5XML文档树结构

XML对元素有一种1F常重要的要求——它们必须正确嵌套。在这个问题上,HTML和许多字处理格式都没有XML这么严格。

第2章相关技术

圉2.6文档结构图

由以上简要介绍的XML语法结构可以看出,XML数据模型与半结构化数据之间的对应是非常明显的,可以说XML是半结构化数据的一个特例。图2.6是图2.4所示文档经过DOM解析后的文档树示意图。2.3.2.2.XML的模式

XML的模式是对XML文档中的结构和形式的约束机制,类似于数据库中数据模式的概念。目前由两种主要的xML模式定义方法:DTD和SCHEMA。

XML文档传统的定义方式使用DTD。不过,有些相当常见的约束是DTD无法实现的。DTD的主要限制在于它缺乏数据类型的表达,以及它无法简化子元素基数性的规范(如,只可以指定“一个或多个”+f元素,但要指定“七到十二之间”的约束很难)。

为了解珧DTD的各种限制提出了Schema,并进行了如下的改进:

丰富的类型Schema真正出色的地方在属性值和元素内容的类型约束上。》出现约束除了强大的类型声明以外,Schema还在声明子元素模式的基数性能力的基础上进

行了改进,可以精确的指定个数,而在DTD语法中并没有这样精确的约束。

枚举无论是DTD还是Schema都允许在属性中使用枚举类型,但Schema还可以在元素

内容中使j{j了枚举类型。而且,Schema的枚举方法非常全面而优秀。虽然Schema在许多场台中胜过DTD,但仍然还有一些DTD更胜一筹的领域。当遇到以下情况时,DTD仍然是首选的模式:

≯文档规则的简洁表示很重要;

》希望下游用户能够通过内部参数集覆盖将类型专|、j化;

≯文档规则主要考虑元素的嵌套而不是内容的语义约束;

惯常使用的工具支持DTD胜于支持Schema根据系统的实际情况和DTD的特点,我们在本文采并jDTD方式设计XML文档的模式。在节4.3中系统自行设计了用于表示抽取规则的XML描述文件。

2.3.2.3.DOM树

文档对象模型(DOM,DocumentObjectModel)是由W3C(WorldWideWebConsortium)支持的创建和处理XML和HTML文档结构和内容的API。在分析XML文件时,它自然地将每个XML各个如元素、文本或者注释映射为一个对象。这些对象叫做节点;英文XML文档时一种层次经过,所以他制在内存中都以一棵树的形式保存。例如,代表元素的节点对象包含它的子元素节点,字符数据注释等。代表子元素的1,点还包括它自己的子节点,等等。因此,常常将文档对象模型(DOM)直接称为DOM树。下面为该技术的应用。

为了分析源网页,本文采用了DOM树的方法来定义源网页的模式结构,并将在节4.4中应用。由于经过HTMLTidy整理过的HTML文档被转换为XML文档,具有“格式良好”的特征,可以直接将其解

龈J慧~一J瑟

~/甜

变亘盔兰塑主兰焦堡苎

析表示为树形结构(DOM树).其中根节点表示整个HTML文档,非叶节点表示一对HTML标签,如:“<tr>…</tr>”.这些:仃点在DOM树中的顺序与其在HTML页面中出现的顺序是一致的。每一个叶节点表示待抽取的感兴趣语义项数据。下面为一个DOM树的例子:

图2.7一个有关天气预报的嘲站HTMLDOM树

2.3.2.4.XPath

xPalh是w3c推荐的在XML文档中定位的技术,是用来帮助XSLT在xML源文档中查找定位信息

的语言。在实际使用过程中,XPath和XSLT总是混在一起使J[{j。我们将xPach应用丁DOM树上。有关xPaIh的详细标准,请参加[49].

~蝥竺犁用xPath表达式在DOM树来定位。比如执行该表达式“..JTABLEIOI/7"R12I/TDl2I/text0,,以后返回值为“Showers”.(图2.7)

2.3.3XML技术在本文中的应用

在本文中,我们在抽取过程定义完成后,将产生Web信息抽取过程描述文件(IEPDF),该文件使用XML描述。我们采用XML解析器(MicrosoftXMLParser)访问该文档。有关该文档的具体说明请参照4.3。

>在获得源网页以后,为便于接F来的信息抽取,我们使崩HTML

TidyJ二具将HTML页面转换为格式良好的XML页面,对该页面的访问我们使用XML解析器来完成。

另外我们使用xPath来定义源网页的模式信息。在应用的过程中,我们要解析xPatll表达式并且根据该表达式在DOM树上定何感兴趣信息。

第3帝半结构化Web信息抽取

第3章半结构化Web信息抽取

以r从两个方面综述与本文有关的研究一r’作。首先概述半结构化数据的特点,然后介绍Web信息抽取技术的研究情况。

3.1半结构化数据

所谓、F结构化数据,就是介于结构化数据(如关系数据库,面向对象数据库)和无结构的数据(如声音,图形等)之间的数据,HTML文档就属丁、f,结构化数据。它一般是白描述的,数据的内容和结构混合在一起,没有明显区分([171第三章)。

3.1.1半结构化数据出现的原因

半结构化数据的山现有以r儿个原因:

≯某些数据源被当作数据库处理,但它并不完全遵循某种数据形式。最典型的例子就是Web数据。

在进行数据库研究时,我们认为Web是一个数据库,但是,在多大程度上我们可以使用数据库工具米检索Web数据呢?大多数Web查询是利HjRetrieve技术从Web内容中获取单个的刚页,而没有利用Web的结构来明确表达查询。此外,由于Web并不符合任何标准的数据模型,闭此我们需要一种方法来描述它的结构。

≯在不同数据库之间交换数据时需要一种灵活的数据模式,这是数据交换和数据转换的需求。

≯对于某些结构化数据,为了显示的方便也将它作为半结构化数据来处理。通常,如果不了解数据库的模式,是不可能写出数据库查询语句的,而数据库的模式又包含许多难以理解的术语和关系,因此,为了能够在不完全了解数据模式的情况下写出查询语句,就提出了这个需求。

3.1.2半结构化数据的特点

半结构化数据存在一定的结构,但这些结构或者没有被清晰的描述,或者经常动态变化,或者过于复杂而不能被传统的模式定义米表现。半结构化数据模式与传统的关系或面向对象数据模式不同,它主要有以F有些特点:

≯、p结构化数据先有数据,后有模式;

》半结构化数据的模式用于描述数据的结构信息,而不是对数据结构进行强制性的约束;

≯、r结构化数据的模式具有非精确性。它可能只描述数据的一部分结构,也可能随着数据处理不同阶段的视角不同而不同;

》半结构化数据的模式可能规模很大,甚至超过源数据的规模,而且会由丁数据的不断更新而处于动态的变化过程中。

3.1.3现有的半结构化Web页面分类

鉴于目前Web网页的特点,按照单张网页对应的记录数目,如下分类。

3.1.3.1.单页单记录

单个网页包含郫JN,g被抽取后S被映射到目的结构的单条记录中,即一个网页只含有单个信息块,一个网页对应一条记录。例如包含某型号数码相机详细介绍的网页,页面信息在模式定义(本文节4.3)完成后,将被映射到目的结构的单条记录中。如果目的模式设计为如F(图3.1)

.9.

查堕盔堂堕±堂壁堡塞一——

图3.1单页单记录抽取模式定义

则抽取出米的数据在目的结构中应该如下(幽3.2)

商品名一”}:j:品藤≥謦~j攀簿誊}一}}浚裕。『I颜色{{};

l奥林巴斯u400数码相机奥林巴斯架¥399000无

图3.2译页单记录抽取结果

3.1.3.2.单页多记录

一个网页含有多条记录,即多信息块,其中包含的信息被抽取屙分别对应到目的结构的多条记录中。例如包含多种电子产品的网页。对于数据抽取而言,有关每一款产品的信息都对应目的结构的一条描述记录。即如果目的结构的模式定义为(图3.3)

图3.3单页多记录模式定义

则抽取的结果数据应该如t-(图3。4):

叠算一-一{;慕§品;瀵l黥黪:簿?;誊il;2瓣糕;:、囊

索尼Tl数码相机¥6580.OO

卡西欧z.4数码相机¥4980.00

飞利浦吸尘器FC8388¥862.OO

图3.4单页多记录网页抽取结果

单页多记录的情况很多见,对于该类网页的数据抽取实际上是有关“多信息块Web页面抽取”的问题,住[21qa对该种情况有详细的讨论,文中提出了一个采用新的抽取规则的包装器,该包装器结合了基于文档结构抽取和基于特征Pattern匹配抽取的优点。

3.2信息抽取技术

随着计算机的普及以及互联网(www)的迅猛发展,大量的信息以电子文档的形式出现崔人{fJ面前。为了鹿对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(InformationExtraction)技术的研究正是在这种背景下产生的f261。

它的主要目标是让计算机不但找到相关的文档,而且还耍找到相关的内容。

信息抽取的主要目的是从jp结构或无结构的信息中抽取出特定的事实信息(FactualInformation)。比如,从新闻报道中抽取出恐怖事什的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取山症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。

第3章半结构化Web信息抽取

结构化、语义更为清晰的格式【l】。传统方式下,信息抽取是通过被称作包装器的程序来实现的,下面给出信息抽取的定义。

3.2.1信息抽取定义

正如上面所讨论的,信息抽取实际上是从无结构或、r结构的信息中识别出用户感兴趣的数据,并将其转化为更为结构化、语义更为清晰的数据的过程,该过程定义如F:

信息抽取过程I=S—兰斗S。

其中映射w为包装器,完成从无结构或二r结构的信息到结构化信息的转换功能,S为包含一组隐含并待抽取对象的无结构或、仁结构的信息源(比如,web页面);S。为一种更为结构化。语义更为清晰的数

据结构(如:XML,关系数据库等)。

有关信息抽取的定义,[451中阐明其实质如下:

‘‘InformationExtractioninvolvesthecreationofastructuredrepresentation(suchasadatabase)ofselectedinformationdrawnfromthetext.(Grishman1997)”,该定义重点强调了“数据结构化”目标。

r面对当今的信息抽取技术作简要的介绍和对比,旨在借鉴其中的技术,提出本文的信息抽取流程。3.2.2web信息抽取特点

传统的Web数据抽取的主要方法是编写只针对于某一网站的数据抽取程序,该程序称作包装器。它可以识别用户感兴趣的数据并将结果的数据映射到结构化的数据存储模式中(XML,关系数据库等)。对于包装器而言,其最富有挑战性的方面在于它必须能够在繁多的无关数据中识别出用户感兴趣的数据,而这些数据的模式并不固定,它们可能是扁平数据,也可能是复杂的多层次结构,这意味包装器的设计必须考虑对网页数据源的结构和内容变化的适应性。

3.2.3Web信息抽取分类

随着需求的增加,近来涌现出了多种信息抽取工具,采用的技术也各不相同,涉及多个研究领域,如数据库、人1:智能、信息检索等。为了对信息抽取技术作进一步研究,以增强本文原型的易用和实用性,有必要对现有的信息抽取技术进行分析。Web信息抽取技术有多种分类方式【25】。

3.2.3.1.按自动化程度分类

这种分类方法比较简单,分为人工方式、半自动方式和全自动方式。

3.2.3-2-按抽取原理分类

根据各种抽取_L=具所采用的原理将现有的工具分为5类:基丁自然语言处理方式的信息抽取、基于包装器归纳方式的信息抽取、基于ONTOLOGY方式的信息抽取、基y-HTML结构的信息抽取和基丁Web肖询的信息抽取[11。

F面结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行分析和比较。其中结构化的数据称为对象;模式的定义方式主要两种,信息抽取之前给出对象模式的称为先模式,反之称为后模式。

3.2.3.2.1.基于自然语言处理方式的信息抽取

这类信息抽取主要适片j于源文档中包含大量文本的情况(特别针对于合乎文法的文本),在一定程度上借鉴了自然语言处理技术t利用子旬结构、短语和子旬之间的关系,建立基于语法和语义的抽取规则实

蔓堕△兰堡±兰笪迨茎一一现信息抽取。目前采用这种原理的典型系统有RAPIER[27],SRVl28],WHISKl29]。F面结合比较典型的系统WHISK来详细说明这种方式的信息抽取。

WHISK:该系统既适朋于结构化、半结构化的文本也适用丁自由文本。结构化和半结构化的文本,一般1i符合文法,所以系统主要是根据语义项的上r文实现感兴趣信息的定位。此时基本上没有利用到自然语言处理技术,对这种情况这里不作详细的分析。对自由文本,系统首先根据分割符将源文档分割成多个实例(每一个实例是一个语义相关的文本块,如,在一个房地产广告的页面中,每一则广告称为一个实例)。在交互式的环境F,相同每一次呈现给用户一组实例。用户在可视化的环境r根据系统提供的实例标记出感兴趣的信息并定义模式。系统使用语法分析器和语义类(如人名、机构名)分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语义类标记的抽取规则,实现信息抽取。系统采用了先模式的方式。

这种基丁自然语言理解方式的信息抽取技术,是将Web文档视为文本进行处理的(主要适用于含有大量文本的Web页面),抽取的实现没有利用剑Web文档独特于普通文本的层次特性。获得有效的抽取规则需要大虽的样本学习。

3.2.3.2.2.基于包装器归纳方式的信息抽取

包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习方式的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义项上F文的描述,即根据语义项的左右边界来定佗语义项。该类信息抽取方式和基于自然语言理解方式的信息抽取技术最大的不同在于仅仅使用语义项的上F文来定位信息,并没有使用语言的语法约束。采用这种原理的典型的系统有STALKER[30.3l,32,331,SOFTMEALY[34],WIEN[35].F面根据具体的系统来详细分析这类信息抽取技术。

STALKER:该系统根据用户事先标记的样本页面和用户嵌入式分类树(EmbeddedCatalogTree)形式提供的页面的结构信息,应用逐步覆盖算法(sequentiaIcoveringalgorithm),逐步归纳生成基于定界符的精确的抽取规则,实现层次信息抽取。

}沃入式分类树(ECT)在该系统中是一个重要的概念,它是用户根据页面结构定义的嵌套模式,该树形结构一方面描述了页面的逻辑结构,另一方面提供了模式信息和语义信息(树中节点的名称)。下面说明信息抽取过程:系统遍历ECT,若根节点的孩子为List节点则在源文档中应用普通抽取规则抽取出多个对象组成的信息块,然后再在获得的信息块中应用迭代规则实现单个对象的定位,若该List节点的孩子为叶节点,则系统在上一步获得的单个对象构成的信息块中执行叶节点对应的抽取规则获得单个语义项。

该系统中语义的附加和模式的定义是在用户定义嵌入式分类树阶段完成的,属于先模式的方式。信息定位的实质是使用左右边界实现感兴趣信息的识别。该系统在一定程度上是按结构抽取和按文本抽取的结合,所以可以抽取复杂的对象。但是规则中的定界符不仅仅是由HTML标记组成,而且还有某类网页经常出现的关键字组成。所咀该类信息抽取不但对页面的结构有所依赖,而且对网页的内容也有所依赖,要想获得精确的抽取规则,必须进行大量的样本训练。

WIEN:该系统中事先由用户标记样本页面,系统根据页面逻辑结构的不同,使用不同的启发式归纳算法生成不同的包装器。例如,产生一个HLRT(Head,Body,Tail)包装器。

该系统语义和模式信息是用户附加的。通过感兴趣信息的左右边界实现信息的定位。方式和上面系统类似,本文不作介绍。只是该系统对复杂对象不做处理。

3.2.3.2.3.基于ONTOLOGY方式的信息抽取

该类信息抽取介绍主要利用对数据本身的描述信息实现抽取,对网页结构的依赖较少。由BrighamYongUniversity(BYU)开发的信息抽取工具[361@采用了这种方式,另外QUIXOTE[37,381也采用了这种方式。

BYU:在该小组开发的系统中,事先需要由领域专家采用人工方式书写某一领域的ontology。系统根据边界分割符和启发信息将源文档分割为多个描述某~事物(如汽车广告)不同实例的无结构文本块,然后根据ontology中的描述信息产生抽取规则,对每个无结构的文本块进行抽取获得各语义项的值,最后将抽嵌出的结果放入根据ontology的描述信息生成的数据库中。

第3章半结构化Web信息抽取

创建的应用领域ontology足够强大丰富,系统可以对某一应用领域中的各种网页实现信息抽取。但是系统使用不太方便,某一应用领域的ontology只能由领域知识专家创建。另外由丁是根据数据本身实现信息抽取的,因此在减少了对网页的结构依赖的同时,增加了对网页中包含的数据结构的要求,如要求内容中包含时间、日期、ID号码等一定的格式内容。

QUIXOTE:该系统利j_}j特殊主题的爬行I一具搜集到一组和某一主题相关的文档,然后使用常见的文本分割符(如:“,”,“:”等)对文本节点进行分割将人的文本块分割成小的语义块,再将小的语义块送入事先由用户崩领域知识训练过的贝叶斯分类器(13ayesclassifier)得到每个语义块对应的语义,如若有文本块,“张三,男,东南大学,硕十”,经过分割后依次进入分类器后,可得到“姓名,性别,学校,学位”4个语义项作为元素类型名,采用一定的重构规则,把HTML格式文档转换为XML格式文档。对得到的这组XML文档进行模式提取,得到公共的模式。

该系统通过事先训练分类器,给系统提供语义信息,通过文本分割,分类确定网页内容的语义,采用了后模式的方式,即在虽币提取XML文档的公共模式。此方法能够对一组主题相关、结构不同的文档进行抽取。

3.2.3.2.4.基于ItTML结构的信息抽取

该类信息抽取技术的特点是,根据Web页面的结构定位信息。在信息抽取之前,通过解析器将Web文档解析成语法树(或者类似的标签树Tag-Tree),通过自动或者、r自动的方式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。采用该类介绍的典型系统有LIXTO[39,40],XWRAP【4l,42],

RoadRunner[43]}tlW4F[44]等。下面对具有都代表性的系统进行分析,详细的研究请参考对应的参考文献。

本文的原型系统借鉴了该类的信息抽取技术,尤其体现在可视化模式定义阶段。

XWRAP:通过交互的方式,由用户在样本页中指定抽取区域的起始位置,系统确定整个抽取区域,并确定区域的类型,然后通过可视化的方式,由用户在样本页中指定语义项(如表头)以及与之对应的实例,系统自动产生抽取规则实现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成XML文档。该系统采用用户在网页中指定语义项的方式附加语义信息,即将网页的部分内容作为语义项,对应不同的区域类型(如:Table。List等)采用不同抽取规则提高系统的灵活性和效率。

L1XTO:允许用户以可视化、交互式的方式对样本页面中的信息进行标记,系统通过记录用户标记的信息生成信息抽取规则,实现对相似结构网页的信息抽取。用户无需具备与系统相关的专业知识,就可以完成对数据源的包装。

在该系统中,语义信息是在样本学习阶段,由崩户加入的,采用了先模式的方式。事先由用户在可视化的界面中定义模式,抽取出的数据最终以XML格式存放,使用用户定义的语义项作为XML文档中的元素粪犁名。LIXTO在一定程度上简化了信息抽取的步骤,增强了信息抽取技术的实用性。该系统的不足之处在于:它的抽取规则使用基于Datalog的Elog语言描述的(见节2.1,4.2),实现和优化校围难,另外抽取规则中抽取信息的描述不够丰富,而且对网页中的超链接不作处理,不支持图像信息和文献信息的处理。

RoadRunner:该系统通过对2个和多个样本页面结构的比较,获得一个利用正则表达式表示的该类页面的通用结构模式,实现对相似页面的信息抽取。

该系统实现了全自动的信息抽取。结构模式确定的数据都可以抽取出米(可能包含用户不感兴趣的信息)。抽取出的数据仍然没有语义信息,如果要利用的话,可以采用后模式的方式为其附加语义。另外该系统需要大量的样本训练。

3.2.3.2.5.基于Web查询的信息抽取

使用Web的相关技术解决Web的问题称为Web技术规范。

E述的信息抽取T具,采用了不同的原理,抽取规则的形式和感兴趣信息的定位方式也各不相同,因此均不具有通用性。具有Web技术规范的信息抽取,将web信息抽取转化为使用标准的web查询语言对

.13.

东南大学硕士学位论文

Web文档的查询,具有通崩性。采用该类技术的典型的系统有:Web.OQL[53,54】以及自主开发的原型系统PQAgent[55,56】

PQAgeat:系统采用了交互式的方式,系统通过样本学习生成基于xQuery的抽取规则,利用生成的抽取规则实现对相似结构页面的信息抽取。要求事先通过预处理使源文档符合XML语法规范,然后商接利_【;fjXQuery引擎执行XQuery查询语句实现信息抽取。

浚系统采用先模式的方式,由用户附加语义并确定模式。抽取规则以XQuery的形式表示。应用抽取规则可直接定位到对象。相对于前面的系统,该系统的抽取规则相当健壮,有很强的表达能力,并统一了HTML和XML查询,不仅便于最终用户使用,也便于作为包装器(Wrapper),由应用查询调用,这是其它方法无法比拟的优点。但是系统对于网页结构的依赖性仍比较强。

Web一0QL:Web-OQL是类似于SQL语句的Web查洵语言。系统利用Web-OQL语言提出了一种通用的HTML包装器框架。系统首先将输入的Web文档解析成抽象的HTML语法树Hypertree,然后用户在信息抽取之前根据页面的结构和标记写出合适的奁询语句实现信息抽取。

该系统试图将Web信息抽取转化为Web查询。但并没有看到其实现。Web.OQL仅作为一种web裔询语肓出现,并为XQuery规范的形成作出贡献。

3.3本文的信息抽取技术特点

目前虽然国内外对于包装器自动产生与维护的研究较多,但是在实际应用中,为了完成Web信息的抽取,大都利用手__丁i的方式针对某一网站的页面设计相应的抽取程序,这一程序作为网站包装器。这样就带来了程序适应性不强的问题:如果目标网站有所改动,必须随时修改程序,而且往往修改调试起来非常繁琐。而本文所提出的系统可以对某一网站的页面模式进行定义,如果目标网站有所改动,只需要重新定义抽取规则即可,而无须对程序进行修改,所以从这个意义上来说,本文系统是一包装器生成程序,对网站变动的适应性较强,基本达到了一次设计,多次使用的目的。

第4章Web信息抽取过程的设计与实现

第4章Web信息抽取过程的设计与实现

4.1Web信息抽取难点

对于基于Web的信息抽取技术的研究我们面临的问题主要有如下方面:

≯模式定义问题,其中涉及到如下几个子问题:

?URL指定问题:如何使用户方便的指定待抽取网页的URL,而目前已有的系统大多将待抽取页面分为导航网页(NavigationalPages)和目的网页(TargetPages),导航网页网页包含指

向目的网页或者其它导航网页的链接[11],利用网页爬行工具可以将用户要求的目的网页数

据获取过来供进一步抽取使用。由于本文只将重点放在数据抽取的定义和执行部分,所以有

关爬行工具的问题不做讨论,请参阅相关的技术资料。

?样本训练问题:是指如何指定网页作为待抽取批量网页的样本,并且能使用户方便的发现样本页面的模式信息,使Web抽取_T具能够忠实的按照用户的初衷抽取出感兴趣数据。样本集

的选择是关键的问题。其实该问题可以和网页爬行工具结合起来,使得原型系统可以自动分

析待抽取网站的网页类型,并且提供给用户目前该网站的页面类型和每一种页面类型的样本

页面,这样可使用户无须自己分析网页结构信息,直接从备选页面中选取即可。如此考虑可

以大人降低系统对用户的要求,方便性也大大改善。为简化本文原型系统,样本的选择采用

用户指定URL的方式。此处是待扩展的部分,但如此处理也一定程度上降低了系统的复杂

性。

●感兴趣信息的定界问题:是指如何准确方便的定义用户感兴趣的数据的问题。对于可视化的

信息抽取0E)2具,很有必要在准确性和方便性两者之间作出合理的权衡。

?抽取规则表示问题:目前系统内部抽取规则的表示方式有:XPath方式,XML方式和系统自主创建的内部脚本方式(这种方式只是专用于所在的抽取工具中,通用性不强)。本文原型

系统所采用的抽取规则采用了XML表示(有关XML技术见节2.3)

》规则执行问题:是指根据定义的抽取规则,如何在待抽取网页上实施该抽取规则(实际为专用于系统内部的抽取指令),将定义好的抽取规则在目的网页上做相应处理过滤(如模式匹配,结构匹配,语义关键词定位,语义项边界定位等)。本文采用的执行方式如下:

●解析xML格式的抽取规则

●根据抽取规则中的URL信息获取待抽取网页数据;

●根据其中感兴趣数据分割定义截取感兴趣数据:

●根据目的表模式定义,创建在指定的关系数据库中创建目的表结构;

●根据模式映射信息将感兴趣数据映射到目的关系数据表中。

?完成抽取规则的执行。.

>网页结构变化问题:如果源网页的数据结构发生变化,那么已有的抽取规则是否仍然有效?需要多大的改动才能再次正确的完成抽取任务?这正是Web信息抽取技术的对于Web网页结构变化的适应性问题。从理论意义上来说,某一抽取技术对于网页结构变化要求健壮,适应性强,但是从实际意义而言,只能尽量减少抽取技术对于结构变化的敏感程度。

>网页}勺容的变化问题:当源网页的关键字或者语义项发生变化时,要求己有的抽取规则做较少改动或者不做改动就可以适应这一变化。一般而言,基于语义或者基于内容的Web信息抽取技术对这一变化比较敏感t网为往往这些抽取方法的抽取规则的定义都依赖于语义关键字或者领域内的语义项。

实际研究’T:作中,在选择某一抽取原理的时候,往往要求在“依赖网页结构”和依赖网页内容之间作出权衡,目前的Web信息抽取技术大多选取两者之一,而较少有把两种很好的结合起来的研究技术。

-15.

东南大学硕士学位论文

r面讨论的信息抽取原理和方法基于图4.1,目标是从Web页面中获得结构化数据并且保存到转换为关系数据库中,我们将分四个部分讨论这一抽取转换过程。

图4lWeb数据抽取过程逻辑定义

计算机半结构化数据源的数据挖掘技术研究_赵伟

│ Computer CD Software and Applications 120 计算机半结构化数据源的数据挖掘技术研究 赵伟 / 太原师范学院计算机中心,太原 030012 着因特网的发展,数据信息来源种类逐渐增 多,相应的信息复杂性也在增加,传统的数 据存储和处理方式已经不能很好的满足实际 使用与研究的需求,XML 作为一种半结构化数据标准,已 经开始被越来越广泛的应用,而对于此类结构化数据的挖 掘也为我们的日常研究提供了一个方向。 对于半结构化数据源的挖掘不同于传统的数据挖掘。 传统的数据库中的数据类型工整,数据结构性很强,为完 全的结构化数据,因此对于此类数据处理较为简单,只需 要按照其规律进行分析即可。而对于半结构化的数据则因 其表现形式的多样性,所以对其挖掘要比对于单个数据仓 库的数据挖掘要复杂。 1 半结构化数据 半结构化数据有两种,一种是指该数据在物理层面上 缺少结构,另外一种是指该数据在逻辑层上缺少结构。在 现有的Web 环境中,有一些结构化的数据,为了用于网页 页面显示而采用了与HTML 语言标记符号嵌套的方式,因 此就构成了第一种物理上的半结构化数据。另外网络中有 众多的Web 页面,页面上有着丰富的数据内容,这些数据 大多都以HTML 文件的方式存在,并没有严格的结构和类 型定义,这样的数据都属于第二类的逻辑层的半结构化数 据。网络页面上的数据与传统数据库中存储的数据不同, 传统数据库内的数据都有一定的数据模型,每个特定的数 据都可以根据模型来进行描述,而网络页面上的数据很复 杂,并且不能按照特定的模型进行描述,每一个站点的数 据都遵循其独立的设计规则,并且它的数据本身具有自我 描述的特性和动态的可变性。因此网络页面上的数据具有 一定的结构性,但是其因为具有自述层次的存在,因此属 于一种非完全结构化的数据,也称为半结构化数据。 2 半结构化数据的来源 (1)在Internet 上因为对所存储的数据没有严格模式 的限制而产生的半机构化数据,常见的有HTML 、XML 、 SGML 等类型的文件。 (2)在电子邮件、电子商务文件、文献资料等文件中, 由于没有严格的格式要求,所以存在着大量结构与内容不 固定的半结构化数据。 (3)在包含有异构信息源集成的情况下,由于信息源 集成范围广泛,对于信息源的存取范围包括各类数据库、 电子图书馆、知识库和文件系统等,因此也会产生半结构 化数据。 3 半结构化数据的几个特点 (1)包含有隐藏的模式信息。虽然说半结构化数据具 有一定的结构,但是由于数据和结构混合在一起,所以并 没有明显的模式定义。 (2)结构不规则。半结构化数据的一个数据集合可以由不同结构的元素组成,或者在某些情况下使用不同类型的数据来表示相同的信息。 (3)类型约束不严格。半结构化数据由于没有预先确定的表达模式,并且数据在结构上没有遵循相同的规则,因此会导致其缺乏对于数据的严格约束。 基于以上几个半结构化数据模型的特点可以看出半结构化数据缺乏严格、完整的数据结构,但是这类数据并非没有结构,但是它们的结构可能是隐藏的、并不完整的,并且可能是需要不断进行修改的。 半结构化数据的模式与以往的关系数据模式或者面向对象的数据模式最大的区别在于半结构化数据是现有数据然后再有模式。不对数据的结构进行强制性的约束,只需要描述出数据的结构信息,并且它只描述数据部分结构的非精确模式,在应用中随着数据对象的不断更新而动态修改其描述,据此分析半结构化数据的数据特点和它所产生的原因,半结构化数据源的挖掘是能够实现的。 半结构化数据源挖掘技术首先要解决的是数据远模型及其查询与集成的问题。要解决网页页面上的异构数据的集成与查询,就必须要有一个适当的模型来对这些数据进行清晰的描述,因此如何创建这个半结构化的数据模型就成为了解决问题的关键所在。首先我们需要定义一个半结构化数据模型,其次我们还需要一种适用于此模型的半结构化模型挖掘技术用来的从现有的数据中自动挖掘半结构化模型。对于网页页面数据的挖掘就必须以此半结构化数据模型和半结构化数据模型挖掘技术为手段来建立相应的数据库。 在针对多数据源的数据库进行半结构化数据提取、表示和查询的处理一般采用包装的方式来进行。首先把信息源的数据通过包装转换成为目标数据库所使用的格式和类型。同时处理过程中负责监视的部分将自动监测信息中的数据变化,如果发现数据有变化则将这些变化上报,这些变化经过分析发现有新的数据源连接仓库系统或者信息源发生变化时,那么系统就会把这些有变化的数据进行过滤、汇总,并把这些信息源进行汇总处理,并将收集到数据库中。 此系统对半结构化数据进行处理的过程中所面临的主要问题就是如何将其转化为更易于处理的结构化信息。但是对这些半结构化数据进行转换的目标是庞大的网页页面数据源,如果依靠人工手段针对每个数据源编写相应的转换方式的话工作量非常代价。因此,我们需要一种能够快速建造并且直至自动维护的转换工具。目前这类工具还不是很多,并且使用上并不十分完善。但是,随着近年来X ML 及其应用技术的发展为处理半结构化数据提供了很好的工具和方法。 随 中图分类号:TP311.13

简述结构化数据、非结构化数据、半结构化数据

在数据分析中,我们会接触到很多的数据,而这些数据都是有类别之分的。这些数据根据结构分类被划分为三种,它们分别是结构化数据、非结构化数据、半结构化数据。在这篇文章中我们就简单地给大家介绍一下这三种数据的相关知识。 首先我们说一下结构化数据,结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示。而结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。 然后我们说一下半结构化数据,半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。所谓半结构化数据,就是介于完全结构化数据和完全无结构的数据之间的数据,XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。而不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?

最后我们给大家介绍一下非结构化数据,非结构化数据顾名思义,就是没有固定结构的数据。各种文档、图片、视频、音频等都属于非结构化数据。对于这类数据,我们一般直接整体进 行存储,而且一般存储为二进制的数据格式。非结构化数据库是指其字段长度可变,并且每 个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化 数据而且更适合处理非结构化数据。 在这篇文章中我们简单地给大家介绍了结构化数据、非结构化数据以及半结构化数据的知识,其实现在很多的数据分析师都开始加大对非结构化数据的研究。由此可见,非结构化数据的 前景还是十分明朗的。

结构化数据、半结构化数据、非结构化数据

结构化数据、半结构化数据和非结构化数据 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子: idname age gender 1lyh12 male 2liangyh13 female 3liang18 male 所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?)。 半结构化数据 半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。 半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。 常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有 A 13 female 第二个可能为:

B male 从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,标签是树的根节点,标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。 非结构化数据 顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

web信息抽取技术纵览

网上信息抽取技术纵览 Line Eikvil 原著(1999.7)陈鸿标译(2003.3) 第一章导论 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。 信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。 信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。 由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库! 信息抽取技术是近十年来发展起来的新领域,遇到许多新的挑战。 本文首先在第二章简要介绍信息抽取技术,第三章介绍网页分装器(wrapper)的开发,第四章介绍已经开发出来的网站信息抽取系统,第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。 第二章信息抽取技术概述 信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。 本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别;第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。 第2.1.节IR和IE

Web信息抽取及知识表示系统的研究与实现

万方数据

万方数据

万方数据

计算机系统应用2010年第19卷第9期 图3示例文档对应的DOM树结构 2.2.6数据抽取 根据得到的DOM树进行数据模型映射,步骤如下: ①利用DOM树生成对应的XML文档和DTD模式定义文档: ②利用DTD进行对象一关系映射,将XML映射到知识数据库中,生成映射规则,进行数据抽取及存入数据库处理。 2.3知识表示 采用B/S架构,利用数据库检索技术结合智能化方案生成算法,直接为用户提供解决方案,而不仅仅是知识的罗列。对解决方案给出一些评价标准,根据用户的选择按照评价标准对方案进行排序,使用户方便快捷的找到符合自己需求的方案。 3实例及分析 本文以交通信息抽取及混合交通出行方案查询作为实例,通过相关Web页面获取及Web信息抽取模块从互联网上逐步抽取得到地点信息、站点信息、列车时刻信息、航班时刻信息、长途汽车客运时刻信息、各种交通票价信息等,实验中从配置的15个站点的约30万个动态页面中抽取相关数据,抽取准确率接近100%。图4即是通过Web信息抽取得到的火车时刻信息。 开发了混合交通的出行方案生成系统,前台提供出行方案查询页面,可以指定多种交通工具和转车次数进行查询,按时间、金额、转车次数等进行排序显示。结果页面按序显示符合条件的各种出行方案,每条方案中全面给出从起点到终点的详细信息。 4系统建设SystemConstruction 图4通过Web信息抽取得到的火车时刻信息 实验结果表明,本系统具有如下一些优点: 1)以知识数据库作为支撑,通过配置网站库,能实现各种特定领域相关知识动态Web页面的自动下载: 2)使用了基于本体的关键词库及概念标注库,使信息抽取能适应不同知识领域,适应无统一语义的Web环境。 4结论 针对现有Web信息抽取方法对不同领域、不同结构Web页面的信息抽取缺乏通用性,本文提出了一种新的Web信息抽取和知识表示系统,实现不同知识领域下各种数据密集型动态Web页面的自动信息抽取,系统具有如下创新点: 1)传统PAT-array算法无法区分重复模式区域的标题项和数据项,本系统采用基于本体的关键词库从重复模式中区分出标题和数据,自动识别数据显示结构模型和语义: 2)将Web信息抽取和知识数据库有机结合起来,把知识数据库已有知识作为Web信息抽取的基础,从互联网上抽取新知识再存入知识数据库。从而达到知识数据库的不断自扩展。 实验表明该系统具有高抽取准确率和良好的适应性。下一步在页面数据显示结构模型自动识别中将利用基于本体的页面结构识别方法,提高具有复杂标题结构的重复模式结构识别能力。 参考j.J氏 l张岭.智能信息检索中的Web挖掘研究【博士学位论文】.上海:上海交通大学,2003. (下转第9页) 万方数据

视频结构化数据的查询及信息挖掘

视频结构化数据的查询及信息挖掘 领域的大数据应用,主要体现在两方面:视频录像的集群和视频结构化数据的查询及信息挖掘。 1.视频录像的集群存储 在面向大数据的架构中,可根据实际现场的部署需要,设立一个或多个集群组成,采集的流数据会被划分成段,并分布于数据集群节点,因为集群节点有内部进行多副本备份等机制,可以由软件技术来保证整体系统的高可靠性和高稳定性。这些数据节点可以采用廉价通用型的硬件,避免采用传统高端硬件的模式,能极大地降低投资成本。 录像文件的集群存储,国内云储存厂家多采用CEPH技术和HDFS技术的方式。以HDFS 的方式举例,思路为:通过HADOOP提供的API结构,实现将接收到的视频流文件从本地上传到HDFS中。在这一过程中,把接收到的视频文件不断地存储到一个指定的本地临时文件夹中,而这个本地文件夹是在不断动态变换的,可以将该文件夹当成是一个缓冲区,把缓冲区中的文件以流的方式将上传到HDFS中。 2.视频结构化数据的查询及信息挖掘 原始的视频图像是一种非结构化数据,它不能直接被计算机和上层应用软件读取和识别,为了让视频图像更好的应用,就必须对视频图像进行结构化的处理,提取出关键信息,并进行文本的语义描述,也就是视频结构化。 一段视频里面,需要提取的关键信息主要有两类:第一类是运动目标的识别,也就是画面中运动对象的识别,是人还是机动车或者非机动车;第二类是运动目标特征的识别,也就是画面中运动的人、车、物有什么特征,行人特征主要有:是否带眼镜、围巾、上衣、裤子、是否带口罩、是否背包,性别分类等;机动车主要特征有:车牌号码、车身颜色、车型等;物体特征主要有:大小尺寸、颜色、方向等。 一个案件的审看需要更为广泛地查看相关的摄像机视频,所审看的视频量时常达到数百上千小时。视频结构化提取技术对视频中运动的物体等进行提取,再通过软件进行检索和排

海量结构化数据分析平台解决方案

曙光海量结构化数据分析平台解决方案 曙光信息产业(北京)有限公司 2012-05

导言 在数据爆炸的今天,从海量结构化数据中提取并挖掘出有用的信息逐渐成为众多行业的新的应用热点。而海量数据的分析中呈现出的高并发加载数据,海量存储,低并发查询,但每次查询的规模都非常高的特点。使得如何将数据库操作有效并行化成为海量数据分析首要需要解决的问题。虽然目前流行的Hadoop的map-reduce并行计算框架在很多互联网企业中得到了广泛的应用,但却由于其不支持SQL语句,使得难以与现有的基于SQL的关系型数据库的应用场景进行结合。 曙光在海量数据分析和挖掘领域积累了多年的经验,和计算所智能中心合作研发出专门针对海量关系型数据库应用特点的关系型数据库系统DRAC,为海量数据分析系统提供高性能,高可扩展性的并行数据库系统,并且已成功部署在多个国家大型项目中。其底层采用无共享(shared-nothing)的oracle数据库节点作为数据节点,具有较好的扩展性和系统可靠性。DRAC软件将用户的操作透明地转化成对底层数据库的操作,而对用户呈现为单一的数据库系统。DRAC系统可根据数据的访问频度和重要性实施多级存储的方案,以降低整个系统的成本,提高系统的性价比。 技术特点 曙光集群并行数据库DRAC(Dawning’s Real Application Cluster)是一种无共享(shared- nothing)结构的并行数据库管理系统。DRAC原是专为分析网络监控数据设计的并行数据库系统,现已部署在国家某大型项目、某市大型项目等多个系统中。它具有如下技术特点: DRAC采取目前主流的集群设计方法,具有性价比高、扩展性好等诸多优点。 它直接将任意查询分解成操作于分区数据的子查询和汇总中间结果的后处理查询,用成熟的DBMS来实现两种查询的执行,从而避免了一般的分布式查询处理器为了 通用而引入的复杂性。配合针对特定应用的分区策略,DRAC的方法能保证查询执 行的效率。 大任务全并行处理。DRAC采用单机数据库作为基本数据处理单元,将数据并行地写入这些单元数据库,查询时并行地从各个数据库中读取和处理这些数据。这种完 全并行的处理极大地提高了系统存储数据的能力并缩短单个查询的完成时间。DDL 操作也在各数据库节点上并行地执行。 DRAC对外提供单一系统映像,用户使用类似ODBC或JDBC的接口提交SQL语句。 这些操作被服务节点自动地并行执行。 DRAC采取了功能分离的设计思路,像加载、查询等功能均可按需要配置,满足在线扩展的高可用要求。 和Oracle RAC等并行数据库不同,DRAC不需要光纤交换机和较高端的盘阵,硬件成本低。配合灵活部署和简易管理的工具,DRAC在大规模部署时有较高的性能价 格比。

相关主题
文本预览
相关文档 最新文档