当前位置:文档之家› 开放式文本信息抽取--非常好的综述

开放式文本信息抽取--非常好的综述

开放式文本信息抽取--非常好的综述
开放式文本信息抽取--非常好的综述

开放式文本信息抽取

赵军,刘康,周光有,蔡黎

(中国科学院自动化研究所模式识别国家重点实验室,北京100190)

摘要:信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。本文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。

关键词:开放式信息抽取;知识工程;文本理解

Open Information Extraction

ZHAO Jun, LIU Kang, ZHOU Guangyou, CAI Li (National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing,

100190, China)

Abstract:The research on information extraction is being developed into open information extraction, i.e. extracting open categories of entities, relations and events from open domain text resources. The methods used are also transferred from pure statistical machine learning model based on human annotated corpora into statistical learning model incorporated with knowledge bases mined from large-scaled and heterogeneous Web resources. This paper firstly reviews the history of the researches on information extraction, then detailedly introduces the task definitions, difficulties, typical methods, evaluations, performances and the challenges of three main open domain information extraction tasks, i.e. entity extraction, entity disambiguation and relation extraction. Finally, based on our researches on this field, we analyze and discuss the development directions of open information extraction research and its applications in large-scaled knowledge engineering, question answering, etc. Keywords:Open information extraction; Knowledge engineering; text understanding

1 引言

文本信息抽取(Text Information Extraction)指的是从自然语言文本中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输出的文本处理技术[1]。例如从有线新闻和广播电视的文本中抽取相关恐怖事件情况:时间、地点、作案者、受害者、袭击目标等信息。从二十世纪八十年代开始,在Message Understanding Conference (MUC)[2]、Automatic Content Extraction (ACE)[3]以及Text Analysis Conference (TAC)[4]等评测会议的大力推动下,文本信息抽取技术的研究得到蓬勃发展。MUC从1987年到1997年总共进行了七届,其五大评测任务是命名实体识别、同指关系(Co-reference)消解、模板元素(Template element)填充(类似于实体属性抽取)、模板关系(Template relation)确定(类似于实体关系抽取)和场景模板(Scenario Template)填充(类似于事件抽取)。数据来源是限定领域语料,例如海军军事情报、恐怖袭击、人事职位变动等;ACE从1999年到2008年总共进行了九届,涉及实体检测与跟踪(Entity Detection and Tracking, EDT)、数值检测与识别(Value Detection and Recognition, VDR)、时间识别和规范化(Time Expression Recognition and Normalization, TERN)、关系检测与描述(Relation Detection and Characterization, RDC)、事件

基金项目:国家自然科学基金项目(60875041,61070106)

作者简介:赵军(1966-),男,研究员,博士生导师;刘康(1981-),男,博士,助理研究员;周光有(1983-),男,博士生;蔡黎(1981-),男,博士生;研究方向皆为自然语言处理、信息抽取和问答系统。

检测与描述(Event Detection and Characterization, EDC)、实体翻译(Entity Translation, ET)等评测任务。数据来源主要是书面新闻语料。TAC-KBP从2009年开始到目前共进行了三届,评测任务包括实体链接(Entity Linking)和实体属性值抽取(Slot Filling),数据来源是新闻和网络数据。

纵观信息抽取技术的发展历程,传统信息抽取评测任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取,这大大制约了文本信息抽取技术的发展和应用,例如问答系统所需要的信息抽取技术远远超越我们通常研究的人名、地名、机构名、时间、日期等有限实体类别;上下位(Hypernym-hyponym)、部分整体(Part-whole)、地理位置(Located/Near)等有限关系类别;毁坏(Destruction/Damage)、创造(Creation/Improvement)、所有权转移(Transfer of Possession or Control)等有限事件类别,甚至所需要的类别是未知的、不断变化的。这种应用需求为信息抽取技术的研究提出了新的挑战。另一方面,从信息抽取的技术手段来讲,由于网络文本具有不规范性、开放性以及海量性的特点,使得传统的依赖于训练语料的统计机器学习方法遇到严重挑战。

为了适应互联网实际应用的需求,越来越多的研究者开始研究开放式信息抽取技术,目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息,并形成结构化数据格式输出。其特点在于:①文本领域开放:处理的文本领域不再限定于规范的新闻文本或者某一领域文本,而是不限定领域的网络文本;②语义单元类型开放:所抽取的语义单元不限定类型,而是自动地从网络中挖掘语义单元的类型,例如实体类型、关系类型和事件类型等;③以“抽取”替代“识别”:相对于传统信息抽取,开放式文本信息抽取不再拘泥于从文本中精确识别目标信息的每次出现,而是充分利用网络数据海量、冗余的特性,以抽取的方式构建面向实际应用的多层次语义单元集合。在这一过程中,不仅需要考虑文本特征,同时需要综合考虑网页结构特征、用户行为特征等。

本文以开放式文本信息抽取为主题,在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、关系抽取和实体消歧的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程中的应用进行分析讨论。由于篇幅限制,面向开放式的其他信息抽取技术,例如事件抽取[5][6][7]、观点信息抽取[8]等不在本文论述的范围。

2 开放式实体抽取

传统的命名实体识别任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体[2][9],也有一些研究针对一些特定领域的特定类型的命名实体(例如:产品名称、基因名称等)进行研究[10]。开放式实体抽取的任务是在给出特定语义类的若干实体(称为“种子”)的情况下,找出该语义类包含的其他实体,其中特定语义类的标签可能显式给出,也可能隐式给出。比如给出“中国、美国、俄罗斯”这三个实体,要求找出“国家”这个语义类的其他实体诸如“德国、法国、日本…...”。从方式上,传统意义上的实体识别关注的是从文本中识别出实体字符串位置以及所属类别(比如人名、地名、组织机构名等),而开放式实体抽取关注的是从海量、冗余、不规范的网络数据源上抽取出符合某个语义类的实体列表。传统方法更侧重于识别,而开放式实体抽取更侧重于抽取。相对而言,实体抽取比实体识别在任务上更加底层,实体抽取的结果可以作为列表支撑实体的识别。在互联网应用领域,开放式实体抽取技术对于知识库构建、网络内容管理、语义搜索、问答系统等都具有重要应用价值。

(1)开放式实体抽取的难点

开放式实体抽取目标是根据用户输入的种子词从网络中抽取同类型的实体,在这一过程中需要自动判别用户输入种子词的类别信息或者根据用户输入的类别进行类别词扩展。具体难点如下:

①初始信息少:实体抽取通常采用半监督或无监督的方法,已知信息一般有以下三种:种子实例、语义类别标签以及预先定义的信息。其中给出的种子通常少于5个,语义类别标签有时会给出有时不会给出,而预先定义的信息通常是若干模板,可以利用的已知信息非常少。

②语义类别难以确定:在没有给定语义类别标签的情况下,种子实体可能会同时属于多个语义类,使得目标语义类别的确定非常困难。比如给出“中国、美国、俄罗斯”三个种子实体,这三个种子实体都可归为“国家”类别,但同时又都可归为“联合国安理会常任理事会成员”类别,或者归为“有核武器的国家”类别。

③缺乏公认的评测:实体抽取缺乏公认的评测,研究者在各自构造的实例集上进行研究,评价指标也各有不同,造成不同方法之间横向可比性差。而且由于测试语义类别很少,算法的可推广性不足。

(2)现有方法

开放式实体抽取的基本假设是:“同类实体在网络上具有相似的网页结构或者相似的上下文特征”。因此抽取过程就是首先找到这样的网页或者文本,然后从中抽取未知的同类型实体。例如在图1中,“奥迪”、“宝马”、“保时捷”等具有相同的网页结构,如果已知“奥迪”、“宝马”为汽车品牌名,那么该网页中其他具有相同上下文特征的字符串也很可能是汽车品牌类型实体。

图1. 开放式实体抽取示例

开放式实体抽取过程通常包括两个步骤:①候选实体获取;②候选实体置信度计算和排序。其主要方法是:从种子实体出发,通过分析种子实体在语料中的上下文特征得到模板,根据模板得到更多候选实体,选取置信度高的候选实体作为新种子进行迭代,满足一定条件后停止迭代,返回历次置信度高的候选实体作为结果输出。其基本抽取过程如下图所示:

图2. 开放式实体抽取基本流程

目前绝大多数方法都基于上述思路,具体区别在于目标语料来源不同,例如从网页中进行实体抽取,从具有特殊性质的文本(查询日志、网页表格、维基百科)中进行实体抽取等等,以下分别介绍。

使用网页语料:网络上存在大量含有同类实体列表的网页,可以利用这类网页的结构信息辅助类别实例抽取。Wang等人[11][12][13]首先通过搜索引擎返回包含全部种子实体且排名靠

前的前100个网页作为语料;然后从这些语料中学习模板,进而获取候选;最后使用网页、模板和候选以及它们彼此的链接关系构造图,使用随机步算法为候选打分。Whitelaw等人[14]首先根据种子实体在网页文本中的出现情况及上下文获得高质量的训练数据,然后选用有效的特征训练分类器,利用分类器判定候选是否是给定类别的实体。

使用某种具有特殊性质的文本作为语料(查询日志、网页表格、维基百科等):Pasca[15]利用查询日志进行实体抽取,首先利用种子实体在查询日志中的上下文特征抽取出特定模板;然后通过模板获取候选实例;最后对种子和候选实例分别构建上下文向量,通过计算相似度来打分。He等人[16]利用出现在同一个网页中同一个表格中的文本串,很有可能是同类实体这一假设,将文本串和表格作为两类不同的节点构建二分图,通过图算法对文本串进行打分并排序。

综合使用多种资源:Pennacchiotti等人[17]认为对于不同数据源应该根据其特性采用不同方法进行处理,最后将融合结果。他们针对不同数据源设计不同的抽取器来抽取实体,同时从不同数据源中抽取特征,构建排序函数,对于不同数据源抽取得到的实体进行融合和排序,输出最终结果。这种方法有效地利用了多源数据的冗余特性,利用大规模数据中的统计特征对于目标实体进行抽取。实验结果表明准确率得到有效提升。

另外,种子的质量对于实体抽取的结果具有重要的影响。Vyas等人[18]通过定义种子的典型度、歧义度和覆盖度来衡量种子的质量,进而选择更好的种子实体。而为了减少人工校对扩展结果的工作量,Vyas等人在先前的工作基础上提出了一种多次迭代,每次迭代由人工指定一个错误候选之后重新打分的提纯方法[19]。

(3)系统评测和技术水平

实体抽取目前还没有举办过公开的评测,研究工作的数据来源也不统一。通常使用平均准确率(Average Precision, AP)或者P@N作为评价指标。表1是Wang等人[20]对中英文各12种语义类别进行实体抽取的结果。其中,E1、E2是两种不同的模板获取方法,E1表示取3个种子实体的所有命名性指称项的公共上下文作为模板;E2表示取3个种子实体中每个种子的至少1次命名性指称项的公共上下文作为模板。EF、GW是两种不同的打分排序方法,EF(extracted frequency)表示按照抽取出的候选出现的次数进行排序,GW(graph walk)表示按照图漫步方法的输出的结果进行排序。

表1 中英文各12种语义类别进行实体抽取的结果

(a)英文结果

Max. 100 results Max. 200 Max. 300

English Google Sets E1+EF E2+EF E2+GW E2+GW E2+GW

classic-disney 37.62% 79.36% 74.45% 84.42% 88.20% 89.39%

cmu-buildings 0.00% 87.85% 87.75% 87.83% 87.83% 87.83%

Common-diseases 1.12% 17.94% 52.84% 57.46% 75.79% 76.87%

constellations 10.45% 89.61% 99.97% 100.00% 100.00% 100.00%

countries 14.24% 95.95% 97.86% 98.17% 98.67% 98.53%

mlb-teams 70.06% 98.61% 99.50% 99.80% 99.84% 99.81%

nba-teams 90.73% 100.00% 100.00% 100.00% 100.00% 100.00%

nfl-temas 94.26% 99.22% 99.98% 100.00% 100.00% 100.00%

periodic-comets 0.22% 69.24% 79.04% 84.78% 84.77% 84.77%

popular-car-makers 73.61% 79.18% 88.23% 95.16% 96.23% 96.95%

us-presidents 56.77% 91.64% 97.07% 99.99% 100.00% 100.00%

us-states 76.00% 99.96% 93.55% 100.00% 100.00% 100.00%

Average 43.76% 84.05% 89.19% 92.30% 94.28% 94.51%

(b) 中文结果

Max. 100 results Max. 200 Max. 300

中文E1+EF E2+EF E2+GW E2+GW E2+GW

china-dynasties 25.45% 33.86% 65.20% 64.62% 65.22%

china-provinces 94.97% 99.19% 99.21% 99.34% 99.35%

class-disney 80.73% 91.17% 91.68% 91.68% 91.68%

constellations 92.00% 96.25% 99.99% 99.99% 99.99%

countries 94.79% 95.39% 96.94% 97.76% 97.72%

mlb-teams 94.42% 84.05% 99.98% 99.96% 99.96%

nba-teams 90.29% 95.04% 99.90% 100.00% 100.00%

nfl-teams 68.08% 88.43% 95.75% 95.75% 95.75%

popular-car-makers 71.44% 83.29% 94.36% 94.47% 94.55%

taiwan-cities 95.26% 98.04% 100.00% 100.00% 100.00%

us-presidents 62.84% 82.61% 93.03% 94.24% 94.24%

us-states 98.47% 97.08% 99.48% 99.48% 99.48%

Average 80.73% 87.03% 94.63% 94.77% 94.83%

从上表来看,似乎实体抽取问题已经得到很好解决,但实际上并非如此。现有方法对不同类别实体抽取的效果差别很大,有些语义类别比较容易处理,比如“国家”这一类别,主要原因是这些语义类别的相关语料较多(比如在网络上出现的次数多),或者该类别实体的集中程度更好(比如经常在同一个网页中,甚至经常以列表的形式出现)。但是对于一些小的语义类别,由于数据的稀疏性,语义的歧义性,使得抽取结果中噪声严重,影响应用效果。

(4)实体抽取存在的问题

尽管目前存在着各种不同的实体抽取方法,有些方法的实验性能也达到了较高水平,但是实体抽取还存在着很多问题,其中最突出的问题是:

?算法的可扩展性问题

由于缺少相关评测,目前用于测试方法的数据皆由研究者自行构造,不同方法在不同数据上得到的结果难以比较。由于实验中采用的数据类别很少,使得算法的可扩展性差,无法满足面向互联网大规模真实应用的需求。

?模板的获取问题

目前的方法主要依靠模板来获取候选实体,而模板主要包括自定义的语义模板(比如“such as、kinds of”)以及简单统计得到的上下模板。这类模板对语义类别的描述能力有限,而且与特定的数据格式和上下文密切相关,如何挖掘和抽取有效的模板是今后研究的重点。

?目标数据源的置信度问题

目前实体抽取的数据源有普通网页、查询日志、维基百科等,这些数据源的质量层次不齐,严重影响了实体抽取的性能,如何过滤掉低质量的数据源是下一步的重要研究课题。

?开放式中文实体抽取

开放式中文实体抽取,尤其是当不存在网页结构特征的情况下,抽取任务变得更加困难。其中一个重要原因是分词问题,未知实体往往在分词过程中被分开。针对纯文本环境下开放式中文实体抽取的任务,本课题组[21]利用启发式规则来判别目标实体被错分的边界,然后利用上下文特征判别目标是否为实体以及实体类别,在搜狗语料上测试,能够达到70%的准

确率,有效地改善了中文开放式实体抽取的性能,但是这一结果还远远不能达到实用程度,还需进行进一步深入研究。

3 实体消歧

实体歧义指的是一个实体指称项可对应到多个真实世界实体(或称实体概念)的问题。例如,给定如下的三个实体指称项“华盛顿”:

美国开国元勋华盛顿。

美国首都华盛顿特区。

华盛顿州, 位于美国西北部。

它们分别指向“美国的第一任总统”、“美国首府”及“美国的华盛顿州”三个真实世界实体。在许多任务中,需要确定一个实体指称项所指向的真实世界实体,这就是实体消歧。

(1)实体消歧的难点

实体消歧任务与普通的词义消歧(Word sense disambiguation) 任务有很多相似之处[22],但是有其自身的难点。

①实体消歧目标不明确:传统的词义消歧任务是在具体上下文环境中确定多义词的确切词义,其词义候选来源于专家编撰的词典,目标明确。而实体消歧任务中,往往不能提供实体概念列表,或者提供的实体概念列表不完整,实体消歧难以完成。

②指称项的多样性(Name variation):指一个实体概念可以用多种命名性指称项指称,例如全称、别称、简称、拼写错误、多语言名称等。例如:NBA篮球明星Michael Jeffrey Jordan 在文本中可以用Michael Jordan、MJ、Jordan指称。

③指称项的歧义性(Name ambiguity):指一个命名性指称项在不同上下文中可以指称不同的实体概念。例如:“迈克尔·乔丹获得今年NBA的MVP”中有三个歧义实体:“迈克尔·乔丹”可能是篮球明星Michael Jeffrey Jordan,也可能是University of California, Berkeley的教授Michael I. Jordan;NBA可能是“National Basketball Association”,也可能是“National Bicycle Association”;MVP可能是Most V aluable Player,也可能是MVP: Health Care。

(2)现有方法

目前命名实体消歧任务分为两种类型:实体聚类消歧和实体链接消歧,主要解决单语言实体消歧问题,多语言实体消歧有其特有的方法[23][24],由于篇幅限制,本文不再介绍。

?实体聚类消歧

实体聚类消歧任务为:给定一个包含某个歧义实体的网页集合,按照网页中实体指称项所指向的实体概念对网页进行聚类,并抽取一个网页中关于某个实体的特定属性来辅助进行实体消歧。目前,实体聚类聚类消歧一般采用如下步骤:①对每一个实体指称项,抽取其上下文特征(包括词、实体等),并将其表示成特征向量;②计算实体指称项之间的相似度;③基于指称项之间的相似度,采用一定聚类算法将其聚类,将每个类看作是一个实体概念。核心是如何计算实体指称项之间的相似度。

传统方法主要利用上下文的词信息建立Bag-of-words模型(BOW),从而进行实体指称项相似度计算[25][26][27][28][29]。针对人名消岐, 基于图算法[30][31][32],充分利用社会化关系的传递性而考虑隐藏的实体关系知识,在某些情况下(特别是结构化数据,如论文记录、电影记录等)能取得更为准确的实体指称项相似度计算结果。但是,基于社会化网络的相似度度量的缺点在于它只用到上下文中的实体指称项本身的信息,不能利用实体指称项的其它上下文信息,因此通常不能在文本实体消歧领域取得有竞争力的性能。

为了克服基于表层特征的实体消歧方法的缺陷,一些研究者开始使用知识资源来提升实体消歧的效果,所使用的知识资源包括:Wikipedia[33][34]、Web上的链接信息[35] [36]、命名实体的

同现信息[37]、领域特定语料库[38]等。Bunescu and Pasca [39]将Wikipedia中的类别信息用于Wikipedia中的实体消歧;Cucerzan[40]同时利用BOW 和Wikipedia 类别信息对Wikipedia中以及普通网页上的实体名进行消歧;利用Wikipedia条目信息对于目标实体的上下文进行语义表示的优点在于可以更加精确地捕捉目标实体的语义关联度,而缺点在于这种表示具有稀疏性。针对这一问题,本课题组[33]利用Wikipedia中的知识链接信息计算实体指称项之间的相似度,其中采用概念对齐策略来捕捉不同百科条目之间的语义关联度,使得实体消歧的性能得到改善。但是单一使用Wikipedia知识库进行语义表示仍然具有语义稀疏性,针对这一问题,我们综合利用WordNet、Wikipedia、网页信息等多种知识源挖掘实体指称项的上下文语义信息,并提出了基于图的知识表示模型,将异构语义信息融合在统一的基于图的知识表示框架下,以此为基础挖掘概念之间的潜在语义关联,从而同时集成来自于不同知识源的语义知识[34] 。与基于单一知识源的方法相比,该方法显著提升了实体消歧的性能。

?实体链接消歧

基于聚类的实体消岐方法尽管可以将不同语义的实体指称项区分开,但是不能显式地给出实体的语义信息。针对这一问题,现在越来越多的研究者转向实体链接Entity Linking(也称Entity Resolution,Record Linkage和Entity Disambiguation)研究。实体链接消歧任务为:给定一个实体指称项,将其链接到知识库中的实体概念上。例如:将“Michael Jordan has published over 300 research articles on topics in computer science, statistics, electrical engineering, molecular biology and cognitive science.”中的实体指称项“Michael Jordan”链接到知识库中的实体概念“UC Berkeley大学教授Michael Jordan”上,而不是链接到实体概念“NBA球星Michael Jordan”上。

实体链接消歧主要有两个步骤:①候选实体的发现:给定实体指称项,链接系统根据知识、规则等信息找到实体指称项的候选实体。例如:对“Michael Jordan is a former NBA player, active businessman and majority owner of the Charlotte Bobcats.”中的Michael Jordan 进行实体消歧,首先要找出Michael Jordan可能指向的真实世界实体Michael Jordan (basketball player)、Michael Jordan(mycologist)、Michael Jordan (footballer)、Michael B. Jordan、Michael H. Jordan、Michael-Hakim Jordan、Michael Jordan (Irish polotician)等等;②候选实体的链接:链接系统根据指称项和候选实体之间的相似度等特征,选择实体指称项的目标实体。

候选实体发现目前有两种方法,一种是通过挖掘Wikipedia等网络百科得到,我们可以利用Wikipedia中锚文本的超链接关系、消歧页面(Disambiguation page)以及重定向页面(Redirection page)获得候选实体。另一种是通过挖掘待消歧实体指称项的上下文文本得到,这种方法主要用于发现缩略语的候选实体。缩略语在实体指称项中十分常见,据统计,KBP2009测试数据的3904个实体指称项中有827个为缩略语[41],缩略语指称项具有很强的歧义性,但它的全称往往是没有歧义的。Zhang等人[41]利用规则方法从上下文中获取缩略语候选实体,取得不错的效果。

实体链接的核心仍然是计算实体指称项和候选实体的相似度,选择相似度最大的候选实体作为链接的目标实体。从相似度计算的方式上,可以分成单一实体链接和协同实体链接,以下分别介绍。

单一实体链接:该方法仅仅考虑实体指称项与目标实体间的语义相似度。Honnibal等人[42]和Bikel等人[43]将实体指称项的上下文与候选实体的上下文分别表示成BOW 向量形式,通过计算向量间的余弦值确定指称项与候选实体的相似度,系统选择相似度最大的候选实体进行链接。Bunescu等人[39]考虑到候选实体的文本内容可能太短,会导致相似度计算不准确,加入指称项文本中的词语与候选实体类别的共现特征。Han[44]认为实体链接与三个因素相关:①实体指称项与目标实体之间的关联度;②目标实体在上下文中的语义一

致性;③目标实体在语料中的流行度。基于这三个考虑给出了一种产生式模型,充分融入了候选实体的背景知识与先验信息,显著提升了实体链接的性能。

协同实体链接:传统的单一实体链接只是孤立的单个实体的消岐问题,但是在现实文本存在大量的歧义实体,如果把每个歧义实体看做是一个孤立点,就忽略了实体之间的语义关联。而协同实体链接的目的就是利用协同式策略综合考虑多个实体间的语义关联,建立全局语义约束,从而更好地对于文本内的多个实体进行消岐。Cucerzan等人[40]考虑不同实体的类别信息,利用实体类别重合度计算目标实体的语义相似度。Kulkarni等人[45]采用pair-wise策略,将多个目标指称项分解为多个目标对,计算每个对之间的语义关联度,然后累加起来作为文本内部多个实体之间的语义一致性度量。这种方法尽管考虑了目标实体之间的语义一致性,但是pair-wise策略仍然是一种局部寻优方法,在寻优过程中考虑的仅仅是局部语义一致性。因此,本课题组在充分分析问题的基础上,给出了一种基于图的方法,利用图上的计算,充分考虑文本内部目标实体之间的全局语义一致性、指称项与目标实体之间的关联度[46]。相对于传统单一消岐方法以及pairwise方法能够有效地提高消岐的精度。

(3)系统评测和技术水平

目前主流的命名实体消歧评测平台主要有两个:一个是WePS(Web Person Search Clustering Task)评测[47][48],主要针对基于聚类的命名实体消歧系统进行评测;第二个是TAC KBP的Entity Linking评测[49],主要针对基于实体链接的命名实体消歧系统进行评测。

WePS主要针对Web人名搜索结果的消歧技术进行评测,其任务是通过对人名搜索结果进行聚类来消除歧义。目前WePS评测已经开展了两届,正在进行的是第三届:其中第一届评测作为SemEval 2007的子任务进行,共有15家单位参加;第二届评测作为WWW 2009的子任务进行,共有17家单位参加。目前WePS评测共包含三个数据集,分别为第一届的开发集(WePS1_Training)、第一届的测试集(WePS1_Test)和第二届的测试集(WePS2_Test)。这些数据集共包含109个待消歧人名,其中每个人名下大约有100个网页(第二届为150个)。

与WePS不同,TAC KBP评测对实体链接(Entity Linking)任务进行评测。目前,TAC实体链接任务的目标实体知识库使用2008年10月版本的Wikipedia构建,共包含了约82万个实体,其中有人物实体11万,占14%;组织实体5.5万,占6.8%;地理实体11万,占14.2%;其它类别的实体53万,占65%。目标知识库的总大小约为2.6Gb。下表是TAC KBP 2010评测的结果。

图3 TAC KBP 2010 结果

从图3可以看出,各个系统的平均水平在70%,还无法满足真实的应用需求,因此仍然需要深入研究和探索。

(4)实体消歧存在的问题

?空目标实体问题(NIL Entity Problem)

实体链接的一个未解决的问题是空实体问题(实体知识库中不包含某指称项的目标实体),现有的框架使用基于相似性阈值的处理方法,不能很好地建模和解决这个问题。我们正在尝试在语言模型框架下,用一个伪实体语言模型来建模这个问题,从而为有效地解决空实体问题提供一种思路。

?知识库的覆盖度问题

目前的研究表明,基于知识资源设计更精确的实体指称项相似度计算方法可以在某种程度上提升实体消歧的性能,但常常面临知识覆盖度问题。例如,仅仅使用社会化网络并不能对所有特征关联进行建模,如概念之间的语义关联、词汇之间的语义关联。对多源异构网络知识资源进行有效挖掘和集成是解决上述问题的一种途径。

?知识不确切的问题

互联网上的知识源通常面临着不准确的问题,甚至包含错误的知识。通常有两个方面的原因:①知识本身的不可靠:网络百科(如维基百科、百度百科等)本身存在错误;②由于抽取技术不可靠带来的知识不可靠:利用信息抽取、网页抽取等技术从社会化网络以及Web中抽取出来的知识很可能存在错误。因此需要研究能够容错的知识集成和推理技术。

?知识库使用的问题

利用知识库进行实体消歧时,对于知识库的使用目前所有方法都集中于使用单文档特征,例如:对实体概念的描述仅仅使用其Wikipedia页面。但是,单文档特征常常面临数据稀疏问题,不足以描述实体概念。另外,仅仅使用单文档特征也忽略了其它知识,如语料库中存在的聚类结构和网页链接结构、概念或实体的层级结构等。因此,有必要在语言模型框架下提出新的可以有效使用这些知识的方法。

4 开放式实体关系抽取

实体关系抽取指的是确定实体之间是否存在关系并确定其关系类别的任务。例如,给定“国家财政部部长项怀诚发表了重要讲话”这个句子,实体关系抽取需要识别其中的实体“国家财政部”和“项怀诚”之间存在“Employee_of”类别的关系。传统的实体关系抽取大都是给定关系类别,要求在限定语料中判别两个实体之间是否存在给定关系,可以看作是一个模板填充或者槽填充的过程。例如在MUC-6[2]中,其机构模板中包含LOCATE和COUNTRY两个填充槽,分别表示该机构所处的位置和所在国家。MUC-7[50]把命名实体之间潜在的关系从实体的属性值中分离出来,正式引入了模板关系(TR,Template Relation)任务,它要求识别实体之间的三种相互关系(即location_of、employee_of和product_of等)。在TAC KBP Slot Filling任务中,针对不同类型实体,定义了不同的实体关系(是各种属性关系),要求系统从大规模文本中找到指定实体的属性值。

在面对海量网络文本资源时,不同的实体类型具有不同关系(或属性)。传统实体关系抽取研究受到人工定义关系类型的限定以及训练语料的限制,很难适应网络文本快速增长、变化的需求。因此,开放式实体关系抽取的目标就是突破封闭的关系类型限定以及训练语料的约束,从海量的网络文本中抽取实体关系三元组(Arg1, Pred, Arg2),这里Arg1表示实体,Arg2表示实体关系值,通常也为实体,Pred表示关系名称,通常为动词、名词或者名词短语。例如对于下面这句话:

“McCain fought hard against Obama, but finally lost the election”

从中,我们可以抽取出如下两组三元组(McCain, fought, Obama)和(McCain, lost, election)。

(1)开放式关系抽取的难点

开放式实体关系抽取包含两个子任务:①实体关系类型抽取;②实体关系值抽取。

实体关系类型抽取:面对开放领域,如何针对每一领域内实体类别确定其关系类别,是开放式关系抽取的首要难点,这种关系不仅仅包含概念之间的上下位关系、部分整体关系、属主关系等通用关系,也包含不同类别实体概念所特有的语义关系,例如“篮球运动员”的以下属性关系:身高、臂展、命中率、篮板等。Web上存在着大量结构化知识源,其中蕴含着大量易于获取的实体语义关系类别(如维基百科的Infobox),挖掘和利用Web知识源中的语义知识,并充分利用数据冗余性进行知识验证是可行的解决方案。

实体关系值抽取:基于给定类别体系,如何在网络文本中挖掘其关系值是传统关系抽取任务的主要研究点。以往方法依赖于训练语料,通过上下文特征进行关系值抽取。然而,面对开放领域,针对每一个领域构建相应的训练语料不具有可行性。那么面对开放的网络资源,如何利用结构化网络知识与非结构化网络知识的冗余性,自动构建训练语料,同时建立自适应的关系抽取算法,是开放式关系抽取的另一个难点问题。

(2)现有方法

在开放式实体关系抽取方面,Washington大学的人工智能研究组在这方面做了大量代表性的工作,并且开发了一系列原型系统:TextRunner[51]、WOE[52]、ReVerb[53]等。对于关系名称的抽取,TextRunner[51]把动词作为关系名称,抽取过程类似于语义角色标注,通过动词链接两个论元,从而挖掘论元之间的关系。WOE[52]是以Wikipedia为目标,从中抽取实体关系类型,从而构建实体的属性描述框架。在Wikipedia中,在每个概念条目中,通常都会有人工标注的Infobox信息,其中包含了大量实体关系类别,如图4所示。依据Infobox中蕴含的大量实体关系对,WOE对于概念条目正文进行回标,以此来自动产生关系值抽取的训练语料,从而解决了开放式关系抽取训练语料不足的问题。

3

图4. 从Wikipedia中抽取关系

除了从纯文本以及半结构化网页中进行关系类别抽取外,Pasca等人[15]以用户日志为数据源,利用其中实体、属性和关系词的共现信息获取目标实体类别的属性类别列表。比如输入目标类别“电脑厂商”和种子实体“联想、苹果、戴尔”,输出排序后的目标类别的属性类别列表为“笔记本、售后、CEO,…”。实验表明,这种方法在前50个结果中平均可以达到76%的准确率。

在关系值抽取方面,TextRunner直接从网页的纯文本中抽取实体关系,在这一过程中只考虑文本中词与词之间的关系特征,而不考虑网页内部的结构特征。TextRunner首先利用简单的启发式规则,在宾州树库上产生训练语料,提取一些浅层句法特征,训练一个分

类器,用来判断两个实体间是否存在语义关系;然后在海量网络数据上,找到候选句子,提取浅层句法特征,利用分类器判断所抽取的关系对是否可信;最后利用网络数据的冗余信息,对初步认定可信的关系进行评估。但是,TextRunner的问题在于往往从文本中抽取出无信息量的三元组(Un-informative Extractions)和错误的三元组(Incoherent Extractions),其中无信息量三元组在抽取结果中占7%的比例,错误三元组占13%的比例。针对这一问题,Etzioni等人[53]开发了ReVerb系统,提出了利用句法和词汇信息对抽取过程进行约束,实验证明这种方法可以较大幅度地提升关系值抽取的准确率和召回率。

(3)系统评测和技术水平

开放式关系抽取目前还没有举办过公开评测,研究工作的数据来源也不统一。目前,评价指标仍然和传统信息抽取评价指标一样,采用正确率(Precision)、召回率(Recall)以及F值作为评价指标。Wu[52]给出了几个开放式关系抽取系统的实验比较,如图5所示:

(a) 关系名抽取(b) 关系名与关系值抽取

图5 开放式关系抽取系统比较

从图5我们可以看出,对于关系名抽取,目前F值可以达到70%左右的,而综合考虑关系值的抽取,性能下降很多。从面向互联网的真实应用需要来看,未来还需要深入研究。

(4)需要解决的问题

从传统给定类别的关系抽取到开放式的关系抽取,是关系抽取研究思路上的一个转变,目前开放式抽取系统还存在的不足是:

?针对真实网络数据的关系抽取问题

目前的关系抽取研究大多数是在干净的文本上进行的,而网络数据格式不规范,噪声大,质量层次不齐,如何针对真实网络数据研究鲁棒的关系抽取方法是需要重点研究的问题之一。

?单纯利用Infobox抽取关系名覆盖率不高的问题

Wu[52]利用Infobox信息进行回标产生训练集,这种方法对于中文百科页面仍然具有局限性。在中文百科页面中(百度百科、互动百科等)并不是所有的类别条目下都有Infobox信息,这使得Wu[52]的方法具有很大局限性。同时,Infobox中往往是一些同类型条目共有的信息,而大部分条目特有的属性信息散落在百科条目的文本中,以半结构化或者纯文本形式出现。开放式关系抽取不能忽略这一部分信息。

5 结束语

信息抽取技术的研究从上世纪八十年代开始至今走过了二十多年的历程,研究内容和技术手段随着互联网的发展而发展。在研究内容上,已经从面向限定领域、限定类型的信息抽取任

务逐渐发展为开放领域、开放类别的信息抽取任务。在技术手段上,从早期基于人工模板的方法,到基于语料库的统计方法,再到目前Web2.0时代从大规模用户生成内容(User Generated Content,例如网络百科、社区问答等)进行知识挖掘,进而融合知识和统计方法进行开放式信息抽取,技术手段越来越有效。在以上进展过程中,信息抽取技术乃至自然语言处理技术的研究越来越面向互联网应用,而互联网也为信息抽取技术和自然语言处理技术的研究提供了越来越多的宝贵资源和技术创新的源泉。近年来,研究人员利用网络上丰富的数据资源开展了一系列的研究工作,比如利用网络海量数据提升句法分析的性能[54][55]; 利用网络上积累的大量问答对开展社区问答方面的研究[56][57][58][59], 等等。在这种交叉融合的趋势下,信息抽取技术和自然语言处理技术的研究和应用必将得到加速发展。

作为开放式信息抽取技术的应用,大规模知识库的自动构建是一个典型代表。很多互联网应用任务都需要背景知识库的支撑,这个知识库不仅包含WordNet[60]、HowNet[61]等常识知识库中的通用语义知识,而且包含百科全书、领域知识库中的领域语义知识。如果能把多源知识集成为一个大的知识系统,将可能提高很多互联网应用系统的性能,并开创语义网时代的很多应用。现有的知识库如WordNet[60]、HowNet[61]和CYC[62]等大多数依靠专家人工编撰。随着互联网的发展,知识呈爆炸式增长,人工构建知识库特别是领域知识库遇到了很大困难[63]:不仅费时费力,而且知识覆盖率低,数据稀疏,更新缓慢。另一方面,机器自动构建知识库的方法目前仍旧只能完成简单粗浅的任务[64],无法达到构建高质量知识库的要求。开放式信息抽取技术研究的不断深入以及Wikipedia、Freebase、百度百科、互动百科等大规模网络知识库的大量出现,为大规模知识工程的构建提供了新的契机。信息抽取和知识工程领域的研究人员在这方面做出了积极有效的探索。YAGO[65]从Wikipedia的category pages中提取出实体实例和关系实例候选,并与WordNet进行衔接,准确率达到97%。这样,YAGO既具有WordNet干净的概念层级结构,又拥有Wikipedia的海量实例。目前,YAGO 有100万实体及其500万事实。本研究组利用在信息抽取方面的技术积累,以《中国大百科全书》知识体系作为目标知识库的结构,从网络知识库中抽取概念实例并综合利用网络百科网页中蕴含的丰富的语义标签、半结构化信息和非结构化信息进行概念实例挂载,从而将百科知识库从8万条目扩展为目前的百万条目级别,在此基础上进行概念属性抽取,为下一步研发面向开放式的自动问答系统提供了知识资源的支撑[66]。

综上所述,信息抽取在互联网应用中具有非常重要的应用前景。面对互联网的实际需求以及网络文本的特点,传统信息抽取技术已经遇到技术瓶颈,无法得到广泛应用,迫切需要更加系统深入的研究。本文重点介绍面向互联网应用的开放式信息抽取技术,以实体为核心,重点分析介绍实体识别和抽取、实体消歧和实体关系抽取等三个开放式信息任务的研究现状、存在的问题和值得深入研究的方向。从研究方法上来看,研究人员已经开始突破传统的依赖人工标注语料库的统计学习方法,有效地挖掘和集成多源异构的网络知识并与统计方法结合进行开放式信息抽取。因此,研究领域知识的表示、挖掘、集成和推理机制,探索构建高性能、大规模知识系统的方法,为克服传统方法在面向开放式信息抽取时的推导和泛化能力不足的问题提供解决方案,具有重要的学术意义。

致谢:感谢研究生们对本文的贡献,特别是韩先培和张涛(实体消歧),杨帆(多语言实体消歧),齐振宇(实体抽取),刘芳(属性抽取),徐立恒、刘洋和来斯惟(网络知识工程)等。

参考文献

[1] Ralph Grishman. 1997. Information Extraction: Techniques and Challenges[R]. NewYork: New York

University, 1997.

[2] Ralph Grishman,Beth Sundheim. Message Understanding Conference-6: A Brief History[C]//Proceedings of

COLING, 1996.

[3] ACE: https://www.doczj.com/doc/4c3088114.html,/iad/mig/tests/ace/[OL].

[4] NIST: https://www.doczj.com/doc/4c3088114.html,/tac/[OL].

[5] Martina Naughton, N. Kushmerichand J. Carthy. Event Extraction from Hetergeneous News Sources[C]//

Proceedings of AAAI, 2006.

[6] D. McClosky, M. Surdeanu, and C. D. Manning. Event Extraction as Dependency Parsing[C]// Proceedings of

ACL-HLT, 2011.

[7] Yu Hong, Jianfeng Zhang, Bin Ma, Jianmin Yao, Guodong Zhou and Qiaoming Zhu. Using Cross-Entity

Inference to Improve Event Extraction[C] //Proceedings of ACL-HLT, 2011.

[8] 刘康. 文本倾向性分析技术研究[D]. 中国科学院自动化研究所博士学位论文, 2010.

[9] 赵军. 命名实体识别、排歧和多语言关联[J]. 中文信息学报, 2009, 23(2): 3-17.

[10] Jun Zhao, Feifan Liu. Product Named Entity Recognition in Chinese Texts[J]. International Journal of

Language Resource and Evaluation. 2008, 42(2): 132-152.

[11] Richard C. Wang, William Cohen. Automatic Set Instance Extraction using the Web[C]// Proceedings of

ACL-IJCNLP, 2009.

[12] Richard C. Wang, William Cohen. Iterative Set Expansion of Named Entities using the Web[C]//Proceedings

of ICDM, 2008.

[13] Richard C. Wang, Nico Schlaefer, William Cohen and Eric Nyberg. Automatic Set Expansion for List

Question Answering[C] //Proceedings of EMNLP, 2008.

[14] Casey Whitelaw, Alex Kehlenbeck and Nemanja Petrovic. Web-Scale Named Entity Recognition[C]

//Proceedings of CIKM, 2008.

[15] Marius Pasca: Organizing and searching the world wide web of facts -- step two: harnessing the wisdom of

the crowds[C]//Proceedings of WWW, 2007.

[16] Yeye He, Dong Xin. SEISA: Set Expansion by Iterative Similarity Aggregation[C]// Proceedings of WWW,

2011.

[17] Marco Pennacchiotti and Patrick Pantel. Entity Extraction via Ensemble Semantics[C] // Proceedings of

EMNLP, 2009.

[18] Vishnu Vyas, Patrick Pantel and Eric Crestan. Helping Editors Choose Better Seed Sets for Entity Set

Expansion[C]//Proceedings of CIKM, 2009.

[19] Vishnu Vyas and Patrick Pantel. Semi-Automatic Entity Set Refinement[C]//Proceedings of NAACL, 2009.

[20] Richard C. Wang and William Cohen. Language-Independent Set Expansion of Named Entities using the

Web[C]//Proceedings of ICDM, 2007.

[21] 齐振宇, 赵军, 杨帆. 一种开放式中文命名实体识别的新方法[C]//(CCIR2009), 上海, 2009.

[22] Philip Edmonds. SENSEV AL: The Evaluation of Word Sense Disambiguation Systems[R]// ELRA Newsletter,

October, 2002.

[23] Fan Yang, Jun Zhao, Bo Zou and Kang Liu. Chinese-English Backward Translation Assisted with Mining

Monolingual Web Pages[C]//Proceedings of ACL, 2008.

[24] Fan Yang, Jun Zhao, Kang Liu. A Chinese-English Organization Name Translation System Using Heuristic

Web Mining and Asymmetric Alignment[C]//Proceedings of ACL, 2009.

[25] Bagga and Baldwin. Entity-Based Cross-Document Coreferencing Using the Vector Space Model[C]

//Proceedings of HLT/ACL, 2008.

[26] Gideon S. Mann and David Yarowsky. Unsupervised Personal Name Disambiguation[C]// Proceedings of

CONIL, 2003.

[27] Cheng Niu, Wei Li and Rohini K. Srihari. Weakly Supervised Learning for Cross-document Person Name

Disambiguation Supported by Information Extraction[C]//Proceedings of ACL, 2004.

[28] Ted Pedersen, Amruta Purandare and Anagha Kulkarni. Name Discrimination by Clustering Similar

Contexts[C]//Proceedings of CICLing, 2005.

[29] Ying Chen and James Martin. Towards Robust Unsupervised Personal Name Disambiguation[C]//Proceedings

of EMNLP, 2007.

[30] Bradley Malin. Unsupervised Name Disambiguation via Social Network Similarity[C]// Proceedings of SIAM,

2005.

[31] Bradley Malin and Edoardo Airoldi. A Network Analysis Model for Disambiguation of Names in Lists[J].

Computational & Mathematical Organization Theory, 11, 119-139, 2005..

[32] Kai-Hsiang Yang, Kun-Yan Chiou, Hahn-Ming Lee and Jan-Ming Ho. Web Appearance Disambiguation of

Personal Names Based on Network Motif[C]//Proceedings of WI, 2006.

[33] Xianpei Han, Jun Zhao. Named Entity Disambiguation by Leveraging Wikipedia semantic

knowledge[C]//Proceedings of CIKM, 2009.

[34] Xianpei Han and Jun Zhao. Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity

Disambiguation[C]//Proceedings of ACL, 2011.

[35] Joseph Hassell, Boanerges Aleman-Meza and I. BudakArpinar. Ontology-Driven Automatic Entity

Disambiguation in Unstructured Text[C]//Proceedings of ISWC, 2006.

[36] Ron Bekkerman and Andrew McCallum. Disambiguating Web Appearances of People in a Social

Network[C]//Proceedings of WWW, 2005.

[37] Dmitri V. Kalashnikov, Rabia Nuray-Turan and Sharad Mehrotra. Towards Breaking the Quality Curse. A

Web-Querying Approach to Web People Search[C]//Proceedings of SIGIR, 2008.

[38] Yiming Lu, Zaiqing Nie, Taoyuan Cheng, Ying Gao and Ji-Rong Wen. Name Disambiguation Using Web

Connection[C]//Proceedings of AAAI, 2007.

[39] Razvan Bunescu and Marius Pasca. Using Encyclopedic Knowledge for Named Entity Disambiguation[C]//

Proceedings of EACL, 2006.

[40] Silviu Cucerzan. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]// Proceedings of

EMNLP, 2007.

[41] Wei Zhang, Yan–Chuan Sim, Jian Su and Chew Lim Tan. Entity Linking with Effective Acronym Expansion,

Instance Selection and Topic Modeling[C]//Proceedings of IJCAI, 2011.

[42] Matthew Honnibal and Robert Dale. DAMSEL: The DSTO/Macquarie System for

Entity-Linking[C]//Proceeding of TAC, 2009.

[43] Dan Bikel, Vittorio Castelli, Radu Florian and Ding-Jung Han. Entity Linking and Slot Filling through

Statistical Processing and Inference Rules[C]//Proceedings of TAC, 2009.

[44] Xianpei Han and Le Sun. A Generative Entity-Mention Model for Linking Entities with Knowledge

Base[C]//Proceedings of ACL, 2011.

[45] Sayali Kulkarni, Amit Singh, Ganesh Ramakrishnan and Soumen Chakrabarti. Collective annotation of

Wikipedia entities in web text[C]//Proceedings of KDD, 2009.

[46] Xianpei Han, Le Sun and Jun Zhao. Collective Entity Linking in Web Text: A Graph-Based

Method[C]//Proceedings of SIGIR, 2011.

[47] Javier Artiles, Julio Gonzalo and Satoshi Sekine. The SemEval-2007 WePS Evaluation: Establishing a

benchmark for the Web People Search Task[C]//Proceedings SemEval, 2007.

[48] Javier Artiles, Julio Gonzalo and Satoshi Sekine. WePS2 Evaluation Campaign: Overview of the Web People

Search Clustering Task[C]//Proceedings of WWW Workshop of WePS2, 2009.

[49] Paul McNamee and Hoa Dang. Overview of the TAC 2009 Knowledge Base Population

Track[C]//Proceedings of Text Analysis Conference (TAC-2009), 2009.

[50] MUC-7: https://www.doczj.com/doc/4c3088114.html,/related_projects/muc/proceedings/muc_7_proceedings/overview.html/[OL]

[51] Michele Banko, Michael J Cafarella. Stephen Soderland, Matt Broadhead and Oren Etzioni. Open Information

Extraction from the Web[C]//Proceedings of IJCAI, 2007.

[52] Fei Wu and Daniel S. Weld. Autonomously Semantifying Wikipedia[C]//Proceedings of CIKM, 2007.

[53] Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland and Mausam. Open Information

Extraction: the Second Generation[C]//Proceedings of IJCAI, 2011.

[54] Mohit Bansal and Dan Klein. Web-Scale Features for Full-Scale Parsing[C]//Proceedings of ACL-HLT, 2011.

[55] Guangyou Zhou, Jun Zhao, Kang Liu and Li Cai. Exploiting Web-Derived Selectional Preference to Improve

Statistical Dependency Parsing[C]//Proceedings of ACL-HLT, 2011.

[56] Xiaobin Xue, Jiwoon Jeon and W. Bruce Croft. Retrieval Models for Question and Answer

Archives[C]//Proceedings of SIGIR, 2008.

[57] Guangyou Zhou, Li Cai, Jun Zhao and Kang Liu. Phrase-Based Translation Model for Question Retrieval in

Community Question Answer Archives[C]//Proceedings of ACL-HLT, 2011.

[58] Li Cai, Guangyou Zhou, Kang Liu and Jun Zhao. Learning the Latent Topics for Community

QA[C]//Proceedings of IJCNLP, 2011.

[59] Li Cai, Guangyou Zhou, Kang Liu and Jun Zhao. Learning to Classify Large-Scale Questions in Community

QA by Leveraging Wikipedia Semantic Knowledge[C]//Proceedings of CIKM, 2011.

[60] George A. Miller, WordNet: A Lexical Database for English[J]. Communication of the ACM, 38(11):39-41.

[61] HowNet: https://www.doczj.com/doc/4c3088114.html,/[DB/OL].

[62] Douglas B. Lenat. CYC: A Large-Scale Investment in Knowledge Infrastructure[J]. Communications of the

ACM 38(11): 33–38, Nov. 1995.

[63] Alexander Madche and Steffen Staab. Ontology Learning for the Semantic Web[j]. IEEE Intelligent Systems,

16(2):72–79, March/April 2001.

[64] L. Brainbridge. Ironies of automation[j]. Automatica, 19:775–779, 1983.

[65] Fabian M. Suchanek, Gjergji Kasneci and Gerhard Weikum. YAGO: A Core of Semantic Knowledge Unifying

WordNet and Wikipedia[C]//Proceedings of WWW, 2007.

[66] 徐立恒,刘洋,来斯惟,刘康,田野,王渝丽,赵军. 基于多特征表示的本体概念挂载研究

[C]//(CNCCL2011), 洛阳, 2011.

开放式文本信息抽取--非常好的综述

开放式文本信息抽取 赵军,刘康,周光有,蔡黎 (中国科学院自动化研究所模式识别国家重点实验室,北京100190) 摘要:信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。本文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。 关键词:开放式信息抽取;知识工程;文本理解 Open Information Extraction ZHAO Jun, LIU Kang, ZHOU Guangyou, CAI Li (National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, 100190, China) Abstract:The research on information extraction is being developed into open information extraction, i.e. extracting open categories of entities, relations and events from open domain text resources. The methods used are also transferred from pure statistical machine learning model based on human annotated corpora into statistical learning model incorporated with knowledge bases mined from large-scaled and heterogeneous Web resources. This paper firstly reviews the history of the researches on information extraction, then detailedly introduces the task definitions, difficulties, typical methods, evaluations, performances and the challenges of three main open domain information extraction tasks, i.e. entity extraction, entity disambiguation and relation extraction. Finally, based on our researches on this field, we analyze and discuss the development directions of open information extraction research and its applications in large-scaled knowledge engineering, question answering, etc. Keywords:Open information extraction; Knowledge engineering; text understanding 1 引言 文本信息抽取(Text Information Extraction)指的是从自然语言文本中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输出的文本处理技术[1]。例如从有线新闻和广播电视的文本中抽取相关恐怖事件情况:时间、地点、作案者、受害者、袭击目标等信息。从二十世纪八十年代开始,在Message Understanding Conference (MUC)[2]、Automatic Content Extraction (ACE)[3]以及Text Analysis Conference (TAC)[4]等评测会议的大力推动下,文本信息抽取技术的研究得到蓬勃发展。MUC从1987年到1997年总共进行了七届,其五大评测任务是命名实体识别、同指关系(Co-reference)消解、模板元素(Template element)填充(类似于实体属性抽取)、模板关系(Template relation)确定(类似于实体关系抽取)和场景模板(Scenario Template)填充(类似于事件抽取)。数据来源是限定领域语料,例如海军军事情报、恐怖袭击、人事职位变动等;ACE从1999年到2008年总共进行了九届,涉及实体检测与跟踪(Entity Detection and Tracking, EDT)、数值检测与识别(Value Detection and Recognition, VDR)、时间识别和规范化(Time Expression Recognition and Normalization, TERN)、关系检测与描述(Relation Detection and Characterization, RDC)、事件 基金项目:国家自然科学基金项目(60875041,61070106) 作者简介:赵军(1966-),男,研究员,博士生导师;刘康(1981-),男,博士,助理研究员;周光有(1983-),男,博士生;蔡黎(1981-),男,博士生;研究方向皆为自然语言处理、信息抽取和问答系统。

文本信息抽取优化关键技术研究与系统实现

文本信息抽取优化关键技术研究与系统实现随着大数据时代的快速发展,企业在日常经营和信息化建设过程 中产生大量富有价值的数据信息。如何从海量分散的数据中快速且准确地分析出真正有用的信息是当前数据挖掘领域的重要研究内容。文本信息抽取技术正是数据挖掘领域的核心问题之一。在一些语义明确的场景下,基于规则的信息抽取方法在抽取的准确率和召回率方面都 有优异的表现。对于较大规模待抽取数据,提升信息抽取系统效率的 关键技术是提高正则表达式的匹配速度。在此背景下,本文对基于正 则表达式匹配的信息抽取技术进行了深入研究,通过对当前正则表达 式匹配加速相关的几种经典算法的比较和分析,针对原始DFA算法状 态跳转查找表中存在的问题,提出了基于字符分组的查找表压缩算法 的设计方案,并依托实验室FPGA硬件平台实现了对正则表达式匹配 速度的优化,并对基于该优化方案的信息抽取系统进行了设计和实现。本文首先介绍了信息抽取系统的主要任务、常用方法和评价标准,又 介绍了正则表达式匹配技术的常用方法和匹配过程的研究现状。然后通过分析现有正则表达式匹配技术的技术瓶颈,提出一种基于字符分 组的正则表达式匹配优化算法,并对算法的性能进行测试和分析。实 验结果表明,经过字符分组优化后的查找表算法,相较于原始查找表 结构,可以实现30%左右的空间压缩率以及超过50%的单个字符平均 匹配周期的缩短幅度。本文基于上述优化算法,对信息抽取系统进行 了设计与实现。该系统主要以裁判文书领域内抽取司法文书、环保部处罚文书及证监会处罚文书关键信息为例,将文本中的主要信息抽取

后结构化存储至数据库中。本文对此系统进行了功能验证和性能测试。实验结果表明,对于符合规范的数据样本,本文提出的方法具有较高 的准确率和召回率,在一定程度上提高了此类系统的抽取性能。

复杂网络构建中信息抽取技术综述

复杂网络构建中信息抽取技术综述 周峰吴斌石川 (北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876) 摘要复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮。同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位。将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用。本文首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析。 关键字复杂网络信息抽取实体抽取属性抽取实体解析实体关系抽取 Information extraction technology on construction of complex network (Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunications, Beijing) Abstract: Complex network provide us a new view to resolve the complex problem, so more and more scholars focus on it recently. Information Extraction is the foundation of automated information processing as a maturing technology. Integrating with IE and complex Network, we can extract the information of vertexes and edges through the technology of IE that can provide basic data for the construction of complex network, and greatly expand the complex network applications. In this paper, we introduce the basic concept and type of IE, and then describe and analysis the technology on construction of complex network. Keywords: Complex Network 、Information Extraction 、Entity Extraction、Attribute Extraction、Entity Resolution、Relation Extraction 1.引言 近年来,真实网络中小世界效应和无标度特性的发现激起了各界对复杂网络的研究热潮。复杂网络的研究,为我们提供了一个复杂性研究的新视角、新方法,并且提供了一个比较的视野,可以在复杂网络研究的旗帜下,对各种复杂网络进行比较、研究与综合概括。随着复杂网络分析算法的不断成熟和完善,针对复杂网络的应用,其构建已成为关键。通过网络分析所得到信息的丰富和完整程度,往往取决于其构建过程中每个节点和边所包含的信息量。而现实的大多数应用中,待构建网络的节点和边往往隐藏在非结构化或半结构化的文本信息中,如何从中准确而全面的抽取节点和边信息,成为构建复杂网络的关键问题。 信息抽取是一门正走向成熟的技术,在信息处理自动化中具有基础性的地位,将信息抽取融合到复杂网络中,能够有效的抽取网络的节点和边信息,为复杂网络的构建和表示提供数据准备,这将大大扩展复杂网络的应用范围。XinLi等[1]通过信息抽取技术,将复杂网络的应用范围扩展到web页面,先抽取命名实体构建网络,再通过社区发现等方法在web上挖掘出知识来。Dennis M. Wilkinson等[2]通过信息抽取技术,提取出与某一疾病相关的共现基因,而后构建成网络,划分一些相关基因的社区,从而能够帮助专家们发现出基因间的相互作用和它们之间的一些潜在联系。这些网络构建与分析方法都为复杂网络的应用提供了新的思路。

1.SAP BW开放式数据抽取

SAP BW开放式数据抽取、转换与加载 1概述 除了获取SAP系统的数据外,SAP BW还需要获取其他系统的数据,SAP BW提供了更多类型的数据源,支持从外部系统导入数据。 2 SAP BW的外部数据获取功能 2.1通过Web服务获取数据 在SAP BW系统中,我们可以使用Web服务获取数据,基于该方式,通过一个SAP BW系统向源系统发出请求,(通过“拉” 的方式),数据被传输到SAP的数据仓库中。数据的发送是通过 Web服务的方式进行的。由于基于“拉”的方式,用户通过Web 服务可以实现实时数据的获取,并且数据的获取可以通过后台进 行,基于一点的时间间隔周期性的执行“拉“数据的动作。具体 细节,可以参考SAP BW应用与SAP交换架构的集成。 通过SAP的组件-通用数据连接器(Universal Data Connect ,UDC)实现SAP系统与非SAP系统的连接,该组件使用 SAP Web 应用服务器的J2EE引擎。通过该组件,用户可以连接 所有的关系型或多维的源系统。基于关系型的数据,通用数据连 接器传输扁平结构的数据,对于多维的数据,该通用数据连接器 会把多维数据转换成扁平结构。 通用数据连接器使用J2EE集成架构的BI Java 连接器组件,该组件包括: BI JDBC连接器 BI ODBO 连接器 BI SAP Query连接器 BI XMLA连接器

如下图: 2.2通过数据库连接器(DB Connect)获取数据 通过该方式,SAP BW应用服务器首先会打开与其他数据库的连接,随后,用该连接从数据库中的表或视图中传输数据。在 使用数据库连接器前用户必须在SAP BW应用服务器上安装源系统数据库相关的数据库客户端,并且还有必须安装SAP提供的与源系统数据库相关的数据库接口-DBSL。 具体架构图如下:

文本信息分析

文本信息分析 1.中文文本信息过滤技术研究 1.1文本过滤技术 文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。 1.1.1文本信息过滤技术发展 1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982年,Dernzing 首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。 20世纪90年代以来,著名的文本检索会议TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文本过滤的项目;从1997年TREC-6开始,文本过滤主要任务确定下来;TREC-7又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。 随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。 1.1.2中文本过滤技术 中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了TREC 评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。 然而,基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大,对于文本信息的预处理方法不同,因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验[2]。 1.2中文文本过滤的关键技术 文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时,利用反馈改进需求模型。文本过滤系统的一般模型如图1所示:

提取信息有效整合——“非连续文本”阅读策略

提取信息、有效整合 ——“非连续文本”阅读策略 骆奕雯2009年上海学生首次参加国际PISA阅读测试,结果显示中国学生比较善于阅读小说、散文等“连续性文本”,但阅读表格、清单等整合的“非连续性”文本能力较弱。其实“非连续性文本”是国际PISA测试中的重要文本类型,要求学生通过阅读数据、表格、清单和凭证单、使用说明书、地图等进行说明、解释和讨论。我们的日常生活中处处存在着“非连续性文本”,药品说明书就是其中最常见的一类。但是,我发现很少有学生在生活中会真正地关注药品说明书,在读说明书的时候不知道特别要认真阅读其中有关本品适应证、禁忌证、用法用量、不良反应、注意事项等重要信息的介绍。 对于四年级学生,在以往的学习中已经掌握了一些阅读的基本技巧,会从教师提供的阅读材料中找到有用信息。但是如何利用这些掌握的阅读技巧从生活中的阅读材料中提取有效内容是学生所缺乏的。因此组织学生阅读此类文本时,应着重指向启发、激励学生进行讨论,学会并善于做出陈述或解释等。 一、阅读填写,效果欠佳 在四年级《药物和毒品》一课中,重点是让学生了解药物的适应症、不良反应等重要信息。以往的教学中是让学生看看说说,没有突出重点,学生没有经历思考分析的阶段。因此,在这次教学中我让学生从药物说明书中找到药物的适应症、不良反应进行填写。 1、师:这些不同种类的药物作用是不一样的。想要了解他们的作用,需要查看什么?(说明书) 2、填写活动部分:请你写出你的药物说明书上,它的药物名称以及主要医治的疾病是什么? 生1:百服宁。 生2:治疗普通感冒和流行性感冒引起的发热、头痛、四肢酸痛,喷嚏、流涕、鼻塞、咳嗽、咽痛等症状。 3、师:那你觉得你手上的这种药对人体有不良副作用吗? 4、填写活动部分:这张说明书上描述的不良反应有哪些? 生:有时有轻度头晕、乏力、恶心、上腹不适、口干、食欲缺乏和皮疹等,可自行恢复。

数据抽取系统需求说明书

数据抽取系统需求说明书 数据抽取系统需求说明书 系统
编写成员:Java 动力(第四组) 发布版次:1.1
秦文翠、周园、黄书福、李亮 日期:2011-6-15
Java 动力
第 1 页 共 21 页

数据抽取系统需求说明书 数据抽取系统需求说明书 系统
变更记录 日期 2011-6-14 2011-6-15 1.0 1.1 版本 初始版本 修正版本 变更说明 作者 Java 动力 Java 动力
1
概述........................................................................................................................................................ 3 概述 1.1 目的 ..................................................................................................................................................... 3 1.2 系统简介 ............................................................................................................................................. 3 1.3 范围 ..................................................................................................................................................... 3 1.4 术语定义 ............................................................................................................................................. 3 1.5 运行环境 ............................................................................................................................................. 4 1.6 预期的读者和阅读建议 ...................................................................................................................... 5
2 需求说明 ..................................................................................................................................................... 5 2.1 系统功能层次图 .................................................................................................................................. 5 2.1.1 数据库系统 ................................................................................................................................... 6
2.1.1.1 新建数据库 ..................................................................................................................................................... 6 2.1.1.2 删除数据库 ..................................................................................................................................................... 7 2.1.1.3 操作数据库 ..................................................................................................................................................... 8
Java 动力
第 2 页 共 21 页

条形码信息提取与显示系统

课程实训设计课程名称:运动控制综合实训 题目:条形码信息提取与显示系统_____

目录 1、前言 (1) 2、实训目的 (1) 3、实验设备 (1) 3.1视觉相机(USB摄像机) (1) 3.4电机驱动器 (3) 4、软件介绍 (4) 5、程序流程图 (6) 6、程序代码 (7) 6.1Halcon程序代码 (7) 6.2 C#连接Halcon代码 (7) 6.3 PLC程序段 (9) 6.4 c#与PLC通讯 (14) 7.实验结果显示 (15) 7.1 Halcon处理程序结果显示 (15) 8.实训体会 (17)

1、前言 被誉为世界科技创新“七大奇迹”的条码及条码技术,是一种可靠性高、输入快速、准确性高、成本低、应用面广的资料自动收集技术。条码已成为商业自动化不可缺少的基本条件,越来越密切地渗透到人们的生活中,把人们从繁琐和重复的工作中全面解脱出来,使商业、物流、工业自动化成为可能。 条形码是由美国的N.J.W改月land在1949年首先提出的。近年来,由于计算机应用的不断普及,使条形码的应用有了很大发展。条形码可以标出商品的生产国、制造厂家、商品名称、生产日期、图书分类号、邮件起止地点、类别、日期等信息,因而在商品流通、图书管理、邮电管理、银行系统等许多领域都得到了广泛的应用。 常见的条形码是由黑色和白条组成的。条码是将线条与空白按照一定的编码规则组合起来的符号,通过扫描,得到一组反射光信号,经光电转换后变为一组与线条、空白相对应的电子讯号,经解码后还原,再传入电脑。条码辨识技术已相当成熟,其读取的错误率约为百万分之一,首读率大于98%,是一种可靠性高输入快速、准确性高、成本低、应用面广的资料自动收集技术,条码已成为自动化不可缺少的基本条件。条码可分为一维条码(One Dimensional Barcode,1D)和二维码(Two Dimensional Code,2D)两大类,目前在商品上的应用仍以一维条码为主,故一维条码又被称为商品条码,二维码则是另一种渐受重视的条码,其功能较一维条码强,应用范围更加广泛。世界上约有225种以上的一维条码,每种一维条码都有自己的一套编码规格,规定每个字母(可能是文字或数字或文数字)是由几个线条(Bar)及几个空白(Space)组成,以及字母的排列。一般较流行的一维条码有39码、EAN码、UPC码、128码,以及专门用于书刊管理的ISBN、ISSN等。 2、实训目的 通过本次实训,学生利用实验室视觉运动控制台,能够实现条码图片的获取,图像处理,及信息提取和显示的功能。在此基础上,创新拓展到二维码,完成二维码图像的获取,图片处理,信息提取和显示的功能。 3、实验设备 3.1视觉相机(USB摄像机):大恒5050um德国AVT stringray F125B Stingray F-125B/C是德国Allied Vision Technologies公司(德国AVT)生产的一款工业数字摄像机,采用一款极高灵敏度的Sony ExView HAD CCD传感器(ICX445),在全分辨率下,stin125B/C工业数字摄像机的帧率可达30fps。可通过减小AOI(感兴趣区域)、采用binning(b/w)模式或子采样模式等来获取更高的帧率。

信息提取方法

信息提取与概括 什么是信息提取?一般的来讲,就是概括,就是把一段文字的中心内容提取出来;把它说得广泛一点呢,还有很多其它形式,诸如要我们用语言、用图形等,把文章的内容或文段的内容简要地表达出来。 一、明确要求,分析类型。 常见的信息提取题有三种类型: 以写人记事为主的叙事类; 从事实和道理依据中概括观点的议论类。 以下定义,说特征为主的说明类; 这三类语段包含的要素不同,解答的方法也不一样。因此,要准确提取信息就要分析它们的类型,明确它们的要求。 二、筛选信息,突出主体。 (一)叙事类的信息提取题以新闻为主,考查的形式是拟写新闻标题、概括一句话新闻、写新闻导语。这类语段往往具备人物(事物)、时间、地点、事情等信息,一般是多段的,而这类信息往往又集中在第一段,因而我们在通读材料的基础上,要细读第一段,提取要保留下来的主要信息。新闻类考查的形式不同,要求不同,筛选信息的方法也不同。 新闻类筛选信息的方法 1、拟定新闻标题。标题是文章的眼睛,根据新闻标题简洁、新颖、醒目的要求,我们要筛选出主要信息,采用“人物(或事物)+干什么(或怎样)”的形式。 2、概括一句话新闻。一句话新闻常常具备时间、地点、人物、事情等要素。我们要筛选出这些要素,采用“人物(或事物)+何时何地做什么(或怎样)”的形式。 3、写作新闻导语。导语是新闻的头一句或第一段话。它是新闻最有价值、最核心事实的提要。写作导语,可用摘要或综合的方法。摘要是指对新闻中主要的事实作一个扼要的叙述;综合是对新闻通过分层,概括层意,然后合并归纳。采用“人物(或事物)+干什么(或怎样)”的形式。 例.用一句话概括下面文字的主要内容(不超过16个字) 3月31日,江苏省金坛市城南小学组织学生观看革命传统教育影片。中午12点40分左右,该校一、二年级的数百名学生在老师的带领下,集中排队向金坛城区金沙影剧院进发。队伍刚走出校门,一辆小轿车由西向东飞驰而来,危急中,52岁的殷雪梅老师张开双臂,奋力将走在马路中央的六七个学生推到了路旁,她自己却被小轿车撞飞到25米外落下……学生得救了,可是以身躯挡车勇救学生的英雄教师殷雪梅老师,却因伤势过重,抢救无效,于4月5日凌晨1时在金坛市人民医院去世。殷雪梅老师的事迹感天动地,谱写了一曲人民教师的英雄赞歌。 [解析]这是以记人写事为主的叙事类语段,要按照新闻具备的要素,理出信息要素。时间:3月31日中午12点40分左右;地点:马路上;人物:殷雪梅、学生;事情:殷雪梅以身躯挡车勇救学生;事由:一辆小轿车由西向东飞驰而来,就要撞到学生。然后可以按照“人物(或事物)+何时何地做什么(或怎样)”的顺序(或适当调整顺序)组成一句

相关主题
文本预览
相关文档 最新文档