当前位置:文档之家› 基于问句表征的web智能问答系统

基于问句表征的web智能问答系统

基于问句表征的web智能问答系统
基于问句表征的web智能问答系统

第26卷 第1期2011年2月 北京信息科技大学学报

Journa l o f Be iji ng Infor m ati on Sc ience and T echno l ogy U niversity

V o.l26N o.1

F eb.2011

文章编号:1674-6864(2011)01-0036-06

基于问句表征的web智能问答系统

康海燕1,李飞娟2,苏文杰2

(1.北京信息科技大学 信息管理学院,北京100192;2.北京信息科技大学 计算机学院,北京100192)

摘 要:问答系统现已成为自然语言处理领域和信息检索领域的一个重要分支,问句表征是问答系统的重要组成部分。针对问句分析的不足,采用改进的贝叶斯和疑问词相结合的方法,对问句进行分类,提取问句的类型;在初次查询的基础上,根据问句的类别进行关键词扩展,同时,加入新词识别的功能,即提出一种问句的表征方法,对问句进行充分、全面地理解;基于以上算法,在J2EE环境下开发出一个问句表征的w eb智能问答系统。实验结果表明,文中的问句表征方法能有效改善系统的性能。

关 键 词:问句表征;问答系统;自然语言处理

中图分类号:TP312 文献标志码:A

Question ans w eri ng syste m based on question token

KANG H a i yan1,LI Fe i juan2,SU W en jie2

(1.School of Infor m ati on M anage m en t,B eiji ng Infor m ati on Science and T echnology U n i vers it y,B eiji ng100192,Ch i n a;

2.S c h ool of Compu t er Science,B eiji ng Infor m ati on Science and T echnology U n i vers it y,B eiji ng100081,Ch i na)

Abstract:Question ans w ering syste m is an i m po rtant o ffset in natura l language processing and i n for m ati o n retrieva l fields.Question token i s a key part o f this syste m.F irs,t t h e united m ethod of Bayes and question w ords is adopted to c lassify the questi o n words according to questi o n types.Second,on t h e basis o f i n itial search,the question w ords are ex tended by t h e questi o n types.A t the sa m e ti m e,the func ti o n of d iscr i m i n ati n g ne w word is e m ployed..i e.an i m pr oved m ethod o f question expressi o n is pro posed,wh ic h can generally understand t h e question.F i n ally,a questi o n ans w eri n g syste m is put i n to e ffect on J2EE based on t h e above theory and algorithm.Experi m ent proves that it consi d erably enhances t h e intelligence deg ree o f question ans w er i n g.

Key w ords:questi o n token;question ans w ering;na t u ra l language pr ocessing

0引言

近年来,随着互联网及其相关技术的飞速发展,搜索引擎成为人们从网上获取信息的有效方式之一。但是这些传统的搜索引擎存在许多不足,如相关性信息冗繁,检索精确不够,结果依赖于用户的检索意图表达等。因此,探索更加高效的搜索引擎或者对新型的信息检索系统进行研究,成为一个具有深远意义的研究课题。智能问答系统是自然语言处理领域的一个研究热点,它能够让用户用自然语言句子提问,又能为用户返回一个简洁、准确的答案,而不是一堆网页。因此,问答系统和传统的搜索引擎相比,能更好地满足用户的检索需求。

智能自动问答(QA,questi o n answ ering)[1]是指根据用户以自然语言提出的问题找到一个确定的答案,该领域是信息检索与自然语言处理相结合的研究领域。自动问答系统作为 后搜索引擎的杀手级应用,也将是人机交互的主要方式之一,是为生活提供便捷服务的重要组成部分[2]。本文利用自然语言处理技术对问答系统的相关技术进行了研究。

收稿日期:2010 11 29

基金项目:国家自然科学基金面上项目(60873013);北京市高校学术创新团队建设计划项目(PHR201106133)

作者简介:康海燕(1971!),男,河北石家庄人,博士,副教授,主要从事信息智能处理和个人数据隐私保护方面的研究。

第1期 康海燕等:基于问句表征的w eb智能问答系统

1国内外研究现状

自动问答系统的研究已有50多年的历史,直到今天受到人们的关注,并成为自然语言处理和信息检索领域的一个重要分支和研究热点[1-2]。20世纪60年代,随着计算机人工智能研究的起步,学者们开始思考如何让计算机智能地回答人们用自然语言提出的问题,因而诞生了最初的自动问答系统。当时最著名的QA系统有B ase-ball和Lunar,它们利用特定领域专家亲手撰写的知识数据集来检索答案,足以回答由未经训练的用户提出的90%的问题[4]。

20世纪70~80年代间,随着计算机语言学的发展,文本理解和问题回答的研究也得到了发展,不断地有新的QA系统问世,例如能够回答unix操作中问题的UN I X Consultant(UC)系统。由于可用的检索数据量很少,并且难以获得,早期QA系统都从人工处理的知识数据集中寻找答案,所有的实验都属于非常受限的领域。

20世纪90年代以来,随着自然语言处理技术的发展以及语义信息的应用,自动问答系统的性能有了大幅提升,从30%左右提升到50%以上[4]。现阶段的研究不再受限于数量不足的文档库,相反,网上资源如个人博客等W eb文档为QA研究提供了大量的数据资源。新阶段面临的一个问题是如何从大量非结构化数据集中检索出有用的数据。自1999年文本检索会议(TREC,text RE tr i e val confer ence)引入问答系统评测专项(QA Track,questi o n ans w eri n g track)后,面向大规模文本的英语书面通用QA已取得很大进展。特别在TREC8设立了QA 组竞赛后,出现了包含通用问句分析器的问答系统[5],如M I T的Start和Concordia大学的Quantum 系统,还有比较成熟的Ans w er Bus问答系统。An s w er Bus是一个多语种的自动问答系统,不仅可以问答英语问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题,但通用QA距离实际应用还很远。在受限领域QA方面,英语、日语已经取得了相当的应用,如日语问句分析器的旅游问答系统TCS(travel consu ltati o n syste m)等。近年来,国内从事问答系统研究的机构也在不断地增加。国内许多科研机构和大学都投入了相当大的精力开展汉语自动问答系统的研究,如复旦大学和中科院都参加了QA track的竞赛,哈尔滨工业大学也在这方面做了深入研究[6-7]。中科院计算所正在进行的大规模知识处理科研项目N ational Know ledge Infrastructure (简称NK I)中的一个具体应用就是NK I知识问答系统!!!HK I。HKI以NK I知识库为基础,向用户提供各个领域的知识服务,其特点是向用户提供准确的信息,支持自由的提问方式。还有中科院计算所的?红楼梦#人物关系问答系统,北京理工大学的?银行领域自动问答系统#等。文献[8]采用多层次结构描述问句,通过基于事例的规则和决策树研究问句分析器。提出将句模匹配与关键词词库匹配相结合的方法,在一定程度上提高了问句理解的范围和准确性,缺点是句模匹配和词库匹配都需要通过手工建立模板库和词库,耗费人力和时间。随着模板库和词库的增大,匹配速度也会越来越慢。文献[9]提出一种基于疑问意向的问题分类体系,深入研究了事件框架中心成分的确定方法。缺点是规则构建较少,对于事件类问题和属性类问题区分算法过于简单。文献[10]提出了基于启发的疑问词和疑问词焦点相结合的问题分类方法和问句统一型的句型分析方法和基于语义角色标注的语义分析方法。针对以上不足,本研究将结合其优点展开问句表征的综合研究。

2问答系统的体系结构

基于问句表征的W eb智能问答系统的体系结构如图1所示。问答系统包括问句分析、信息检索和答案提取3个模块。

1)问句分析

问答系统首先要对用户输入的问句进行问句分析,充分理解用户的意图。只有准确地抓住用户的检索意图,才能进行有效地检索,这一步对后面的信息检索和答案抽取的性能影响很大。问句分析部分主要包括分词、词性标注、问句分类、提取问句的关键词和关键词扩展等,对于中文问答系统还涉及问句分词。

2)信息检索

信息检索就是用问句分析的结果,到文档库中去查找相关的文档。在问答系统检索阶段也可以直接调用已有的搜索引擎,如Goog le或百度,以获得相关的信息,然后做进一步处理来抽取问题的答案。信息检索一般包括基于大规模文档集的信息检索和基于知识库的信息检索以及基于网络的信息检索。

37

北京信息科技大学学报 第26卷图1 基于问句表征的W eb智能问答系统的体系结构

3)答案抽取

答案抽取是问答系统的另一个重要组成部分,要获得用户需要的准确、简洁的答案,主要有基于模式匹配的方法和基于句子检索的方法。

3基于问句表征的设计与实现

问句表征是指问句信息的形式化表示,通过对自然语言表达的问句进行深层理解,分析问句类型及提取能表达问句信息的问句表达形式。问句表征是对问句进行分析的一个重要步骤,问句表征的好坏直接影响信息检索和答案抽取的准确性。因此,结合自然语言处理的词法、语义和句法分析进行问句表征十分必要。

问句表征主要包括疑问词提取、关键词提取和扩展、问句类型提取和新词识别。问句表征分析过程包括5个步骤。1)词法分析。对用户输入的问句进行分词,去除停用词来提取问句的原始关键词;

2)问句分类。根据疑问词表提取问句的疑问词,并根据疑问词和改进的贝叶斯模型进行分类;3)问句的关键词提取和扩展。即利用网络和常见问题集对问句进行关键词扩展;4)新词识别,即利用网络搜索的初次结果作为语料结合n-gra m模型进行新词识别;5)将深层理解的问句提交给多级信息检索模块进行处理。

3.1词法分析

词法分析的主要任务是对自然语言进行切分,并为每个切分的词加上词性标记。具体地说,词法分析主要完成2方面的工作:1)自动分词。即将连续的字序列按照一定的规范重新组合成词序列的过程;2)词性标注。为每个词语标注词性。中文分词的基本原理是针对输入文字串进行分词,并进行过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。目前词法分析技术已经比较成熟,很多分词程序的正确率可以达到95%以上。本系统利用哈工大的分词系统进行分词和标注,去除停用词(停用词是指文本中出现频率很高,但实际意义又不大的词,主要指副词、虚词、连词和语气词等)。

3.2问句分类

目前,对于问题分类的研究一般是借鉴文本分类的思想。问题分类一般包括基于人工规则的方法和基于机器学习的方法。从数学角度看,问句分类实质上是一个映射的过程,将未标明类别的问句,根据其答案类型把它映射到已定义的语义类别中。该映射可以是一一映射,也可以是一对多的映射。用数学公式[11]表达为

f:A-->B(1)其中,A为待分类的问句集合;B为分类体系中的类别集合。

因为用疑问词判断类别速度较快,本研究首先根据系统提取的疑问词判断问句的类型。当判断不出类别时,再根据本系统中存储的问答对以统计的方式判断问句类型。表1列出了本文中的部分问题类型。将问句中的关键词与数据库表中的疑问词相匹配,若存在与问句疑问词相对应的问题类别,则将问句归为此类别。

但是,很多情况下仅通过分析疑问词得到的问题类型有限,并且类别分析的正确率不够高,同时也因为对问题的分析层次太浅,对于要给出的答案所提供的依据太少,从而影响答案抽取的正确率。对于使用疑问词并不能判断类型的问句,本研究利用改进贝叶斯的分类方法进行分类。

38

第1期 康海燕等:基于问句表征的w eb智能问答系统

表1 本文中的部分问题类型

问题类型疑问词例子

询问人谁谁发现了南美洲?

询问时间什么时候/何时/哪年?人类什么时候登陆月球?

询问数量多少/几/多大/多高?牡丹每年能开几次花?

询问定义是什么/什么是什么是氨基酸?

询问地点

或位置

哪/哪里/什么地方泰山在哪个省

询问原因为什么天为什么是蓝的?

3.3问句的关键词提取和扩展

从问句中提取关键词,并赋以不同的权值用于信息检索。为提高效率,在信息检索模块利用加权的关键词对海量的数据进行筛选,排除不相关的文档,选取可能存在答案的文档。对于筛选后的文档,再进行句子比较、检索和抽取答案。本研究查询的扩展词来源主要有:%初次检索被认为相关的文档;&利用用户的相关反馈或者用户日志;?利用人工生成的资源w ordnet和ho wnet(知网)。

3.4基于N元语法模型的新词识别

随着现代社会的飞速发展,网络上出现了很多新词!!!未出现在词表中的词。新词的研究对中文信息处理有着很重要的意义。文献[9]认为应该从2个方面去把握新词的定义:第1,从时间参照的角度来说,新词语是指出现在某一时间段内或自某一时间点以来首次出现的具有新词形、新词义或者新用法的词汇;第2,从词典参照的角度来说,新词是指通过各种途径产生的,具有基本词汇所没有的新形式、新用法或新意义的词语。也就是说,鉴定新词语的参照系是现代汉语基本词汇的词形、词语的用法和词义。由于社会的不断发展和变化,网络上不断有词表中没有的词语出现,如网易、美眉等。这些新词在分词模块中会被切分开,从而影响信息检索和答案抽取的准确性。目前,新词识别主要有2种方法,分别为基于规则的方法和基于统计的方法。基于规则的方法是根据新词的构词特征或者外形特点建立规则库,通过规则匹配进行新词识别。该方法局限于某个领域,对于没有构成规律的词串无法识别,并且需要建立规则库等。基于统计的方法则利用统计策略提取出候选串,再利用语言知识排除不是新词的词语串。本文根据本系统的特点,利用未进行新词识别时检索返回的网页作为语料库,结合n-gra m语法模型进行新词的识别。

新词识别的算法包括5个步骤

步骤1 首先将问句分析模块提取的关键词去掉空格,然后把关键词以连续字符的方式输入到搜索引擎中;

步骤2 下载搜索引擎返回的前30个摘要,将摘要进行去除标签等操作,将剩余的纯文本作为语料存储。将存储的文本以句子为单位进行切分,如果某句子中不包含问句中任意一个关键词,则将此句从语料中删除;

步骤3 将分词后的问句关键词切分为一元组、二元组、三元组和四元组,并作为语料存储起来。处理后存储的问句一元组为网易创始人;二元组为网易易创创始使人;三元组为网易创易创使创始人;四元组为网易创始易创始人。

步骤4 统计一元组、二元组、三元组和四元组在语料中出现的次数。根据公式计算每个词语出现的概率,设定一定的阀值,将在阀值之内的词语存储,然后将存储的词语与原来分词后的关键词进行比较,由分词软件分开而程序判断为词语的作为新词输出,并将新词如网易加入句子关键词中,同时将组成新词的关键词( 网和 易)从句子中删除。否则,认为没有新词,原问句关键词不变。

步骤5 将进行新词判断后的句子关键词中间以空格作为间隔重新输入到搜索引擎中进行下一步的信息检索。

4基于W eb信息搜索和答案抽取

由于网络具有丰富的资源和现有搜索引擎具备的快速检索功能,网络可以作为问答系统知识库的理想资源。信息检索模块返回的是一些网页,而问答系统所要返回的应该是简短的答案,因此,需要答案抽取模块从信息检索出的文档提炼答案,答案的形式应该是词语、句子或者段落。

答案抽取的基本过程为[2]:首先从信息检索出的文档中搜索出可能包含候选答案的句组;对搜索出的句组进行评估打分,打分时要考虑文本的排序位置,选出最有可能包含答案的前若干组;根据问题类型分析确定答案的类别和对句组的评分情况,从这些句组里抽取出最佳的答案返回给用户。

为了处理的方便,很多的问答系统返回的是句子作为答案。以句子作为答案的抽取步骤如下:

1)把检索出来的文档分成句子;

2)按照一定的算法[3]给每个句子打分;

3)对句子按照分值进行排序;

4)根据问题的类型对候选答案重新排序。

39

北京信息科技大学学报 第26卷

经过重新排序后,排在最前面的那个句子就是问答系统返回的最终答案。

5实验与分析

基于以上算法,在J2EE环境下开发出一个问句表征的w eb智能问答系统。实验采用网上收集的500个不同类型的问题作为测试集,涉及地名、人名、时间、长度等类型。下面以具体例子(问句) 网易的创始人是谁?为例验证算法效果。

问句:网易的创始人是谁?

分词结果:网易的创始人是谁?

去除停用词后,问句的关键词:网易创始人谁

问句类型:人名

问句的扩展词为:名字

问句的新词为:网易

问句最终表征为:创始人,谁,名字,网易。问句的最终表征包括问句的原始关键词(如果问句有新词,例如本句新词为:网易。则将原始关键词的 网和 易从关键词中去掉)、疑问词、新词和类型。

问句表征中未加入新词识别前的搜索结果,如图2所示。第1个正确答案出现在第2位。

图2 未加入新词前的搜索结果

问句表征中加入新词识别后的搜索结果如图3所示。第1个正确答案出现在第1位。

图3 基于新词识别问句表征的搜索结果

很显然,问句表征中加入新词识别后的搜索结果优于未加入新词识别的搜索结果。

6结束语

对智能问答系统的总体构架、问句表征、信息检索、答案匹配模块进行了描述,提出了问句表征的方法,并在J2EE环境下开发出实现了基于问句表征的w eb智能问答系统,并对问答系统的新词识别、关键词扩展、信息检索和系统性能进行了测试。实验结果证明,新的问句表征方法使系统的性能有了一定的提高。

问句表征的好坏直接影响到问答系统对自然语言句子的理解,从而影响信息检索和答案抽取的准确性。下一步研究将对包含不确定概念的问句进行深层理解。

参考文献:

[1]The TREC N IST site[EB/OL].[2010-2-15].

http:(trec.nis.t gov

[2]邓实福,刘挺,秦兵,等.问答系统综述[J].中

文信息学报,2002,6(16):46-52

[3]康海燕,刘文华,庄祺彦.受限领域智能问答系

统的研究与实践[J].西华大学学报:自然科学

版,2008,27(2):37-41

[4]汤庸,林鹭贤,罗烨敏,等.基于自动问答系统的

信息检索技术研究进展[J].计算机应用,

2008,28(11):2745-2748

[5]H oa Trang Dang,Ji m m y Lin,D iane Ke ll y.Over

v ie w o f the TREC2006questi o n answering track

[C](Proceed i n gs of the Fifteenth Text RE trieva l

Conference(TREC2006).Gaithersbur g,M ary

l a nd,USA:[s.n],2006

[6]Yaqian Zhou,X iao feng Yuan,Junkuo Cao et a.l

FDUQA on TREC2006QA T rack[C](Pr oceed

ings of t h e F ifteenth Tex t RE trieval Conference

(TREC2006).Ga ithersburg,M ary land,USA:[s.

n],2006

[7]Zhao Yum i n g,Xu Zh i m i n g,Peng L,i et a.l I nsun

QA06on QA track of TREC2006[C](Pr oceed

ings o f the F ifteenth Tex t RE trieval Conference

(TREC2006).Ga ithersbur g,M aryland,USA:[s.

n],2006

[8]马莉,唐素琴,陈立娜,等.改进的基于句模匹配

算法的问句理解方法[J].计算机工程,2009,

40

第1期 康海燕等:基于问句表征的w eb智能问答系统

35(20):50-52

[9]张晓孪,王西锋,李乃乾.中文问答系统中问题

理解的研究与实现[J].计算机工程,2004,30

(18):64-66

[10]张晓孪,王西峰,李乃乾.问答系统中问题理解

的研究[J].西华大学学报:自然科学版,

2008,27(2):4-7

[11]文勖,张宇,刘挺,等.基于句法结构分析的中

文问题分类[J].中文信息学报,2006,20(2):

33-39

[12]张宇,刘挺,文勖.基于改进贝叶斯模型的问题

分类[J].中文信息学报,2005,19(2):100-

105

[13]Kang H aiyan,Zhang Yangsen,Liu W enhua.

Study on key techno l o g ies o f generator o f Q/A

syste m[C](I EEE Pac ific-A siaW orkshop on

Co mpu tational I nte lli g ence and I ndustrial A p

p lication(AC II A2008).W uhan,China:I EEE

Co mperture Soc ienty,2008:522-527

[14]Fab io C restan,i M oun ia La l m as.Log ic and uncer

ta i n ty i n i n for m ation retrieval[C](Lecture on

Infor m ati o n Retr i e va:l Third European Summ er-

Schoo.l V arenna,Italy:Spri n ger,2000

(上接第35页)

通常情况下,Q-learning算法采用 -g reedy行为策略实现行为代理对环境的探索,考虑到单步Q-learning算法在线学习时供应链各节点的利益,本文采用最优N位轮盘赌策略以尽力降低在线学习过程中各节点的利益损失,N的阈值可以根据实际损失控制需求确定。

3结束语

通过对牛鞭效应成因和对策的综合分析,针对复杂的多层次多节点的供应链结构,利用供应链上游层节点预测对应下游层需求的方式,运用强化学习方法,通过整体供应链各节点成员之间行为代理互相合作,实现库存和订单最优控制的订单决策。结合复杂的多层次多节点的供应链结构,研究分析了强化学习模型及其相关要素,提出了实现最低化供应链总体库存成本的订单策略的强化学习算法。通过强化学习算法,行为代理能够获得考虑整体供应链最大效益的订单行为策略,以有效解决供应链管理中的牛鞭效应问题,实现供应链整体效益最优。参考文献:

[1]Cao Q,S i a u K.A rtific i a l intelligence approach to

ana l y zi n g the bu ll w h i p e ffect i n supp l y cha i n s[C]

(Proceedings o f5t h Am ericas Con ference on I n

for m ation Syste m s.W isconsi n,USA:Un i v ersity o f W isconsin-M il w aukee Press,1999:101-106 [2]Lu J,H um phreys P.Em ploy i n g genetic algorithm s

to m i n i m ize the bull w h i p effect in a supp l y cha i n

[C](Proceed i n gs o f the2007I E EE I EE M.S i n g

pore:I EEE Eng i n eeri n g M anage m ent Soc iety,

2007:1527-1531

[3]W atki n s C J C H,Dayan P.Techn ica l no te:Q-

lear n i n g[J].M ach i n e Learning,1992,8(3):279

-292

[4]Sutton R S.Learn i n g to pred ict by the m ethods o f

te m pora l differences[J].M achine Lear n i n g,

1988,3(1):9-44

[5]K i m brough S O,W u D J.Co m puters play the beer

ga m e:can artificial agents m anage supply cha i n s

[J].Dec i s ion Support Syste m s,2002,33(3):

323-333

41

知识图谱概述与应用

导读:知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年纷纷推出了自己的知识图谱产品以作为回应。比如在国,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融,知识图谱可以有哪方面的应用呢? 目录: 1. 什么是知识图谱? 2. 知识图谱的表示 3. 知识图谱的存储 4. 应用 5. 挑战 6. 结语 1.什么是知识图谱? 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里

输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。 上面提到的知识图谱都是属于比较宽泛的畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。 2.知识图谱的表示 假设我们用知识图谱来描述一个事实(Fact) - “三是四的父亲”。这里的实体是三和四,关系是“父亲”(is_father_of)。当然,三和四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把也作为节点加入到

依托知识管理实现智能服务-知识管理论坛

知识管理论坛 ISSN 2095-5472 CN11-6036/C Knowledge Management Forum E-mail: kmf@https://www.doczj.com/doc/dc9165359.html, https://www.doczj.com/doc/dc9165359.html, 519 【专家访谈】 依托知识管理实现智能服务 ——专访华夏基金知识管理专家葛朝晖、李响 ◎ 采编:刘远颖 易飞 王铮 专家简介 葛朝晖:具有证券/基金、互联网、软件等多个行业的丰富从业经历,自2007年加入华夏基金,现任客户服务总监。在此期间,积极推动部门建立三级KPI 指标体系,不断提升服务效率,实现对4 700多万基金客户的优质服务,连续7次获得中国客服委最佳客服评奖;组织实施客服知识库改造,2次获得“中国最受尊敬的知识型组织大奖”(MAKE 大奖),并在业内首家上线智能客服系统。 李响:2007年加入华夏基金,现任客户服务部质检中心主管,负责管理质检、知识库、 培训、投诉等工作,从业经验丰富。从2010年起开始进行知识管理,不断探索基金行业知识体系架构,建立起符合行业需要的知识四库,以创新的知识应用方式获得权威机构认可。 采访者:《知识管理论坛》(以下简称KMF )编辑部刘远颖、易飞 文字整理:王铮 受访者:华夏基金客服服务部总监葛朝晖、质检中心主管李响(以下简称“华夏基金”)采访时间:2017年7月13日采访地点:华夏基金客户服务部 引用格式:依托知识管理实现智能服务——专访华夏基金知识管理专家葛朝晖、李响[J/OL]. 知识管理论坛, 2017, 2(6): 519-525[引用日期]. https://www.doczj.com/doc/dc9165359.html,/p/119/. 发表日期:2017-12-28 本文责任编辑:刘远颖 葛朝晖 李响 1 关于基金行业的知识管理特点 KMF :两位专家你们好!感谢你们接受《知识 管理论坛》的采访,本刊从2016年开始采访知识管理界的专家学者,涵盖了软件界、咨询界、培训界、学术界等各个方面的人士,而你们是来

智能问答系统中命名实体识别问题研究

龙源期刊网 https://www.doczj.com/doc/dc9165359.html, 智能问答系统中命名实体识别问题研究 作者:费建军 来源:《数字技术与应用》2017年第07期 摘要:信息化时代的到来,人们从互联网中快速获得大量的信息。如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起,促进了问答系统的发展。问答系统是构架于信息抽取之上,其影响着知识库的结构和解析问句的方式。命名实体是信息抽取领域的一个子集。所以本文主要是针对实体识别模型进行研究,本文介绍了三中主流实体识别模型的,并将股票实体作为研究对象,最终采用了CRF(Conditional Random Field)条件随机场模型。在该模型基础上根据上下文和词性特征,提出了CC-CRF识别算法。利用CRF++训练得到能够识别代码和名称的CC-CRF实体识别模型。 关键词:股票;命名实体识别;CRF模型 中图分类号:TP391.6 文献标识码:A 文章编号:1007-9416(2017)07-0093-04 命名实体通常指的是现实中独立存在的具体的或者抽象的事物[2]。如何使计算机能够理 解自然语言是智能问答系统需要解决的一个关键问题。自然语言处理的研究范围包括词法分析、信息抽取、自动文摘等[1]。信息抽取领域中,命名实体识别作为重要分支[3],其任务是标注语句中的实体,所以命名实体的识别有着非常关键的意义。作为文本的基本单位,它包含大量的语义信息,因此对命名实体进行识别可以保证最简单快捷的获得文本信息。他存在的价值就是标注语句中的实体,实体的识别对正确解析自然语言有着极其重要的作用。识别的实体领域一般为人名、机构名、地名以及专有名词等。在实际研究中,还需要根据具体要求来确定。本文中,要识别的实体为股票名称与股票代码[4]。命名实体识别在问句处理和知识库的 构建方面发挥着关键性的作用。 命名实体识别的方法主要有:基于规则和词典的方法、基于统计的方法和二者混合的方法[5]。 本文介绍了四种命名实体识别模型(基于规则和词典的方法、隐马尔科模型、最大熵模型、条件随机场模型)以及每种模型的优缺点。在经过对比并且结合股票命名实体的特点,选择条件随机场作为投资领域命名实体的模型。并在此基础上提出了引入了上下文特征和词性特征的CC-CRF识别算法。使用该模型对语料训练得到CC-CRF模型,并对模型的识别效果进行测试。 1 相关工作与常规实体识别模型 1.1 基于规则和词典的方法

知识图谱概述及应用

导读:知识图谱(Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业- 互联网金融,知识图谱可以有哪方面的应用呢? 目录: 1. 什么是知识图谱? 2. 知识图谱的表示 3. 知识图谱的存储 4. 应用 5. 挑战 6. 结语 1.什么是知识图谱? 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

基于知识库的智能客服机器人问答系统设计

Computer Science and Application 计算机科学与应用, 2019, 9(11), 2098-2104 Published Online November 2019 in Hans. https://www.doczj.com/doc/dc9165359.html,/journal/csa https://https://www.doczj.com/doc/dc9165359.html,/10.12677/csa.2019.911235 Design of Question Answering System of Intelligent Customer Service Robot Based on Knowledge Base Jie Lu, Shaobo Li The Mechanical Engineering College, Guizhou University, Guiyang Guizhou Received: Nov. 1st, 2019; accepted: Nov. 14th, 2019; published: Nov. 21st, 2019 Abstract Firstly, this paper analyzes the current situation of intelligent customer service robot, summarizes the characteristics of information retrieval, database query and Q&A system. It also compares the question answering system based on Web information retrieval, the question answering system based on knowledge base and the community question answering system. Secondly,it decomposes the knowledge base management and relationship architecture of Q&A system, and puts forward the specific learning process and implementation framework. Finally, the weather query applica-tion scenario is simulated. The results show that the question answering system of intelligent customer service robot based on knowledge has good practical application effect. Keywords Question Answering, Knowledge Base, Natural Language Processing, Resource Description Framework 基于知识库的智能客服机器人问答系统设计 陆婕,李少波 贵州大学机械工程学院,贵州贵阳 收稿日期:2019年11月1日;录用日期:2019年11月14日;发布日期:2019年11月21日 摘要 本文首先对智能客服机器人现状进行分析,总结了基于任务处理模式的信息检索、数据库查询、问答系

三大类知识管理系统——III 智能技术

第九章 知识管理与大数据 9.7 三大类知识管理系统 ——III 智能技术

2 智能技术 人工智能(AI)技术: 智能技术:用于捕捉个人和集体知识,并扩展知识库 自动化任务 生成复杂问题的解决方案 知识发现 捕捉隐性知识模拟人类行为的计算机系统

3 1. 专家系统 在特定的、有限的人类专业知识域中捕捉隐性知识 捕捉熟练员工的知识,并在软件系统中作为规则(IF… Then…),以供组织内其他人员使用 一般执行有限的任务,可能需要几分钟或数小时,例如:?诊断故障的机器?决定是否发放信贷 用于离散、高度结构化的决策

?一个专家系统包含了一系列的规则。这些规则是相互关联的,结果的数量是已知的且有限的,有多个路径可以得到相同的结果。在一个单一的时间,该系统可以考 虑多个规则。 ?本图显示的是一个适用于简单的信用证授予专家系统所需要的规则。D->E如果是D, 询问雇佣年限 G->H如果 年限<4,询 问其他债务 F 限额10,000 I 限额3,000 A->B如果收 入>50,000, 询问汽车付款, 否则退出 D 给予信贷额度 B->C如果汽车付款<收 入的10%,询问按揭还 款,否则退出 C->D如果抵押贷款付款 <20%的收入,批准信贷, 否则退出 E->F如果年限>=4,给予 10,000限额,否则执行G H->F如果其他债务<5%的 收入,执行F,否则执行I F 限额10,000 I 限额3,000 D->E如果是 D,询问雇佣 年限 G->H如果年 限<4,询问 其他债务 1. 专家系统 专家系统规则 4

5 1. 专家系统 专家系统如何工作 前向推理链:推理引擎从用户输入的信息开始搜索知识库,并得出结论反向推理链:从假设开始,问用户问题直到假设被证实或否定 知识库 推理引擎 包含上百或上千的规则 搜索知识库的策略

从问答系统看知识智能

问答系统发展历程 问答系统的研究经历了几个阶段。 从20世纪50~60年代开始,人工智能科学家就致力于研究基于知识推理的问答系统,其特点是:专家建立知识库,答案或者从知识库中检索得到,或者在知识库上经过推理得到。推理主要是基于专家制定的启发式规则进行。代表性系统是美国麻省理工学院开发的数学符号运算系统MACSYMA[1]。基于知识推理的问答系统具有性能良好、回答准确、具有推理能力等优点。但是这种方法也有明显的缺点:人工构建知识库非常困难,知识库规模和领域有限,如果问题超出了知识库的范围,则系统性能会很差。 20世纪90年代,随着互联网技术的发展,网络信息日益丰富,搜索引擎为信息获取提供了极大的便利,但却无法清楚地表达人们的意图,而且其返回的是网页,并不是确切的答案,因此不能很好地满足人们的信息需求。为了弥补搜索引擎的不足,研究人员提出了问答式检索系统,如麻省理工学院开发的Start1、Umass开发的QuASM2和微软公司开发的Encarta3。这类系统的主要特点是:利用信息检索以及浅层自然语言处理技术从大规模文本库或者网页库中抽取出答案。与基于知识推理的问答系统相比,问答式检索系统不受知识库规模和领域的限制,更加接近真实的应用需求;与传统的搜索引擎相比,问答式检索系统接受的是自然语言形式的提问,对用户意图的把握更加准确,呈现给用户的答案也更加准确。但是目前,问答式检索系统仅能处理有限类型的简单问题,如事实性的问题、定义性的问题等。而且,由于只用到检索技术和一些浅层的自然语言处理技术,问答 图灵测试 让计算机具有人的智能,一直是科学家追求的目标。1950年,阿兰·图灵(A. M. Turing)提出“图灵测试”:让一个人在不接触对方的情况下,通过一种特殊的方式和对方进行一系列问答;如果在相当长的时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以认为这台计算机具有相当于人的智力,即这台计算机是能思维的。自此,问答系统成为判断计算机是否具有智能(特别是语言智能)的理想模型。美国认知心理学家奥尔森(G. M. Olson)认为,判别计算机是否理解自然语言的四个标准是:问答系统(question answer-ing)、文摘(summari z ation)、复述(paraphrase)和机器翻译(machine translation)。计算机只要达到四个标准之一,就认为它理解了自然语言。赵 军 中国科学院自动化研究所 从问答系统看知识智能关键词:问答系统 知识智能 1 https://www.doczj.com/doc/dc9165359.html,/。 2 https://www.doczj.com/doc/dc9165359.html,/IRLab/11-743s04/。 3 https://www.doczj.com/doc/dc9165359.html,/。

智能问答系统调研

中文问答系统调研报告 目录 问答系统调研报告 (1) 1 问答系统的价值体现 (3) 1.1市场应用价值 (3) 1.2 弥补了搜索引擎的不足 (3) 1.3 总结 (3) 2 问答系统的市场应用情况 (3) 3 问答系统整体框架 (5) 3.1 问答实现流程 (5) 3.2问句分析模块 (6) 3.2.1中文分词 (6) 3.2.2关键词提取 (9) 3.2.3关键词扩展 (10) 3.2.4实体识别 (11) 3.2.5问句分类 (12) 3.3 信息检索模块 (13) 3.3.1模式匹配 (13) 3.3.2答案检索 (13) 3.3.3知识图谱 (16) 3.4答案抽取模块 (21)

3.4.1基于规则的方法 (21) 3.4.2基于统计的方法 (22) 4 问答系统的应用场景 (23) 4.1 任务型 (23) 4.2 问答型 (24) 4.3 语聊型 (24) 5 调研总结 (30)

1 问答系统的价值体现 1.1市场应用价值 问答系统是智能人机交互的技术基础,智能人机交互通过拟人化的交互体验逐步在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。因此,各大公司都将智能聊天机器人作为未来的入口级别的应用在对待。 包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了自己的智能私人助理和机器人平台。 1.2 产品技术价值 1、搜索引擎的缺陷: 一方面,用户所输入的搜索关键词或关键句,无法真实反映用户需求;另一方面,检索系统仅仅通过几个关键词的简单逻辑组合来返回答案。两方面的误差造成检索结果很差。 检索结果不够简洁。冗余信息使用户难以快速准确定位所需信息,造成时间和精力的浪费。 缺乏对用户问句的语义理解。只靠关键词的索引或简单的匹配算法,并不能真正触及到问题的真实意思,使检索结果一般。 2、问答系统能针对搜索引擎缺陷的改进 1)问答系统允许用户以自然语言的形式询问或者输入。 2)问答系统能直接返回答案,提供给用户简洁、有效的答案。 3)问答系统能分析用户意图,提供给用户真正有用、准确的信息。 1.3 总结 无论是在日常生活中查阅资料,还是在科学研究、商业金融等领域的应用,都有智能问答的参与,所以智能问答的发展与管理将是人们不可忽视的研究方向。 2 问答系统的市场应用情况 按照市场应用情况可分为五类:在线客服,娱乐机器人,教育聊天机器人,个人助理和智能问答. (1) 在线客服

知识图谱概述及应用

导读:知识图谱(Knowledge Graph) 就是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界与工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度与搜狗分别推出”知心“与”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业- 互联网金融, 知识图谱可以有哪方面的应用呢? 目录: 1、什么就是知识图谱? 2、知识图谱的表示 3、知识图谱的存储 4、应用 5、挑战 6、结语 1、什么就是知识图谱? 知识图谱本质上就是语义网络,就是一种基于图的数据结构,由节点(Point)与边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱就是关系的最有效的表示方式。通俗地讲,知识图谱就就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要就是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google 能准确返回她的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

知识图谱和问答系统

知识图谱和问答系统 一、引子 在讨论知识图谱和问答系统之前,先给出几篇以前的文章。第一篇文章是《立委科普:问答系统的前生今世》,以前也发过,再发一下。详见博文: https://www.doczj.com/doc/dc9165359.html,/blog-362400-436555.html 下一个姐妹篇《立委科普:自动回答How 与Why 的问题》。这篇文章详细谈谈问答系统中的How类型问题和Why类型问题。这篇已经太长,收住吧。希望读者您不觉得太枯燥,如果有所收获,则幸甚。谢谢您的阅览。 How 类型的问题搜寻的是解决方案,其实也不好回答,同一个问题往往有多种解决档案,譬如治疗一个疾病,可以用各类药品,也可以用其他疗法。因此,比较完美地回答这个How 类型的问题也就成为问答系统研究中公认的难题之一。Why 类型的问题是要寻找一个现象的缘由或动机。这些原因有些是显性表达,更多的则是隐性表达,而且几乎所有的原因都不是用几个简单的词或短语就可以表达清楚的,找到这些答案,并以合适的方式整合给用户,自然是一个很大的难题。

第三篇文章《立委科普:从产业角度说说NLP这个行当》,这是几年前吹的牛皮。详见李维的博文: https://www.doczj.com/doc/dc9165359.html,/blog-362400-434811.html。由于也很相关,所以也放在这里。NLP技术的工业可行性我认为已经完全被证明了,虽然很多人也许还没有意识到。证明的实例表现在我们解决了三个信息搜索的难题: 搜索How类型问题的难题; 搜索Why类型问题的难题; 对客户反馈情报及其动机的抽取(譬如客户对一个产品的好恶)。 前两个问题是问答搜索业界公认的最难类型的题目,第三个题目涉及的是语言现象中较难把握的主观性语言(subjective language),并非NLP中通常面对的客观性语言(objective language)。这类从文本中提取主观性语言的技术,即情感提取(sentiment extraction)成为语言处理最难的课题之一。从问答系统角度来看,回答Who、When、Where等实体事实型(entity factoid)问题比较简单,技术相对成熟,最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军。Jeopardy的大多数问题是属于实体事实类的问题,而这类问题的处理技术相对成熟。电脑打败了人脑,详见COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS。具体细节就不谈了,以后有机会再论。总之,这

【CN109947916A】基于气象领域知识图谱的问答系统装置及问答方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910153832.X (22)申请日 2019.03.01 (71)申请人 河北尚云信息科技有限公司 地址 050000 河北省石家庄市高新区天山 大街266号方大科技园10号楼1052 (72)发明人 江跃华 周二亮 刘伟 朱玉  (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/338(2019.01) G06F 17/27(2006.01) (54)发明名称基于气象领域知识图谱的问答系统装置及问答方法(57)摘要本发明属于自然语言处理的问答系统领域,尤其涉及气象问答领域的方法及装置。装置包括:气象领域的知识图谱构建模块,问题解析模块,数据聚合模块,答案生成模块。该系统接收用户提出的问题,并通过问题解析模块使用自然语言处理的方式解析用户所提出的关于天气的问题,并排除不合理的问题;根据知识图谱中所存储的天气知识来判断实时的天气数据是否符合该天气信息,根据用户所提的问题,生成相应的答案,反馈给用户。对于结构不固定,类型多样的天气、生活和其他类的规则,可以方便的进行存 储与查询。权利要求书3页 说明书10页 附图2页CN 109947916 A 2019.06.28 C N 109947916 A

权 利 要 求 书1/3页CN 109947916 A 1.基于气象领域知识图谱的问答系统装置,其特征在于,包括: 气象领域的知识图谱构建模块,用以将气象领域的专业知识转换为实体,实体和实体之间用与或关系进行链接,构建气象领域天气知识的知识图谱;用于所有天气知识转成三元组,人工构建天气的气象判断规则,存储到图数据库中并组成三元组; 问题解析模块,用于解析用户所提出的关于天气的问题,将用户提出的问题进行分词和预处理,根据分得的词汇的词性和该词汇对应自定义词库的类别作为依据,填充在该模块设置的问题槽位,并排除不合理的问题; 数据聚合模块,用于对问题槽位中的词,通过词的相似度计算方式,选取与知识图谱中最匹配的规则,进而判断实时的天气数据是否符合该规则,并将天气数据和多种判断结果存入该模块设置的答案槽位中; 答案生成模块,用于将数据聚合模块中答案槽位的数据取出,并根据答案的类型生成相应的回答;对于各个类型的答案进行组合时,需要对每个类型的答案进行排序;最后将答案反馈给用户。 2.如权利要求1所述的基于气象领域知识图谱的问答系统装置,其特征在于,实时的天气数据来源于在线的第三方接口平台; 用户提出的问题可划分为五种类别:天气详情、被查询天气详情、天气属性、出行、穿衣; 问题槽位所设置的形式包括(时间类型,地点类型,天气类型,生活类型,其他类型,问题类型); 答案槽位形式为(时间及其属性;地点及其属性;天气数据和判断结果;生活和判断结果;其他;问题类型); 气象判断规则划分为时间类型、地点类型、天气类型、生活类型、其他类型; 答案生成模块中预先定义有答案模板,用于产生答案时使用该模板,仅需将采集的天气数据替换到该模板中对应位置即可产生相应的答案。 3.如权利要求2中任一项所述的基于气象领域知识图谱的问答系统装置,其特征在于,在问题解析模块中使用分词软件进行分词之前,预加载本地的自定义词库;该本地的自定义词库按行读取文本内容并添加到分词软件的自定义词库中;本地自定义词库包括时间类型、天气类型、地点类型、生活类型的词汇。 4.如权利要求3所述的基于气象领域知识图谱的问答系统装置,其特征在于,问题槽位只包含时间类型或地点类型或天气类型或生活类型或其他类型词汇,以及将这五种类型词组合后缺少时间类型或地点类型的词汇的问题槽位对应的问题为不合理的问题。 5.如权利要求3所述的基于气象领域知识图谱的问答系统装置,其特征在于,数据聚合模块还用于训练词向量模型;用于在知识图谱中查询相似度最高的节点;用于将查询后的所有路径信息转换成树形结构的路径;用于遍历整个规则树,使用判断函数计算实时的天气数据是否符合其规则;还用于提前计算重要天气信息,若存在,则填充到答案槽位中。 6.如权利要求5所述的基于气象领域知识图谱的问答系统装置,其特征在于,使用判断函数计算实时的天气数据是否符合其规则天气知识图谱中所存储的天气知识时,没有在原始数据中直接给出的天气数据通过自定义函数计算。 7.基于气象领域知识图谱的问答系统的问答方法,其特征在于:使用权利要求1-6任一 2

基于知识的智能问答技术

题目:基于知识的智能问答技术(PDF) 作者:许坤,冯岩松(北京大学) ———————————————————— 作者简介: 许坤,北京大学计算机科学技术研究所博士生,研究方向为基于知识库的智能问答技术,已连续三年在面向结构化知识库的知识问答评测QALD-4, 5, 6中获得第一名。 冯岩松,北京大学计算机科学与技术研究所讲师。2011年毕业于英国爱丁堡大学,获得信息科学博士学位。主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上。作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目。分别在2014 和2015 年获得IBM Faculty Award。 引言 近年来,信息抽取技术的快速发展使得快速构建大规模结构化、半结构化知识库成为可能。一大批结构化知识库如雨后春笋般涌现出来,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微软ProBase、搜狗知立方及百度等企业内部的知识图谱等。 同时,这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中。相比于传统基于文本检索的问答系统,利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案,因此一直受到学术界和工业界的广泛关注。

目前基于知识库的问答技术可以大致分为两类。第一类基于语义解析的方法。这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言,如逻辑表达式等。构建这样的语义解析器需要大量的标注数据,例如,自然语言问题及其对应的语义描述形式。然而,针对Freebase这样大规模的结构化知识库,在实际中很难收集到足够多的高质量训练数据。另外,语义描述形式与知识库的结构之间的不匹配也是这类方法普遍遇到的一个问题,例如,在Freebase中并没有―爸爸‖或―妈妈‖这样的谓词关系,只有―父母‖,因此,如果想表示―A 是B的母亲‖这样的关系,则需明确表示为―‖ 并且―‖。 另一类知识问答技术是传统的基于信息检索的方法。这类方法不会将自然语言问题完全转换成形式化的语义描述,而是首先利用实体链接技术从知识库中收集候选答案集合,然后构建排序模型对候选答案进行排序。因为不需要完整地解析自然语言问题的语义结构,因此,这类方法构造训练数据的过程相对简单,只需收集问题答案对即可。实验表明,基于检索的方法对语义简单的自然语言问题比较有效,但是难以处理语义结构复杂的问题,尤其是包含多个实体和关系的自然语言问题。例如,对于自然语言问题―What mountain is the highest in North America?”,检索类的方法由于缺乏对highest的正确解析,通常会将所有坐落在北美的山脉返回给用户。事实上,为了得到正确的答案,问答系统还需要根据山脉高度对候选答案进行排序,并选择海拔最高的山脉返回给用户。该过程通常需要人工编写解析规则对答案进行筛选,费时费力。此外,由于自然语言描述的多样性,人们也无法事先穷举所有这样的规则。 然而事实上,Freebase这样的结构化知识库希望存储关于真实世界的知识条目,而像维基百科页面这样的文本百科资源则存储支持这些事实的文本描述。例如,在维基百科页面中,我们可以找到一段与候选答案有关的文本 Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。

智能科普问答系统

随着科普信息的不断普及,为了解决科普内容艰涩难懂的特性,并结合互联网、新媒体等新型传播媒介,不仅仅传输给人们具有权威性、全面性的科普知识,结合自然语言的科普知识更加通俗易懂,这就实现了智能科普问答系统。 目前,网络上的科普数据资源浩如烟海、错综复杂,而用户的信息需求又千变万化、千姿百态,基于关键词组合的信息需求表示方式和基于浅层分析的语义分析这类传统的信息检索技术俨然不能满足当下用户的需求,智能科普问答技术通过对数据的深度加工和组织管理、以更自然的交互方式满足用户更精确的信息需求。 科普问答系统借助互联网,突破时间和空间的限制,让公众可以随时随地获取自己想要的科学信息。这也是对公众的一种赋权,让他们更直观、更全面的了解科学知识。问答系统采用人工智能技术,可以有效防止科普信息存在的漏洞,让群众可以正确了解科学知识。 智能科普问答系统以一问一答形式,精确的定位网站用户所需要的提问知识,并给网站用户提供交互服务。 (一)相关问答推送 当网站用户提出问题时,系统不仅将问题答案推送出来,而且会将与这个问题相关的知识也都推送出来供用户查询,这样就做到了一次提问全面掌握所有信息。 (二)提问智能提示 用户在提问的过程中, 系统将已经输入的内容自动分析给予优化的补全或相关提示。 (三)焦点问题自动排行 对在一定的时间内,用户对知识提问的热度,系统自动聚焦,并按照访问频度将热点知识集中在系统页面上热点词聚焦 系统对用户提交的业务关键词进行统计,并按照访问的频度进行聚焦,将与关键词相关的业务列表自动链接,形成业务热点关键词。

(四)显在线客服问答 模拟在线客服人员,以网站智能客服形式完成客服作用。 (五)引导式交互客服服务 将常见问题整理成若干流程诊断型的知识,通过引导交互式地服务,尽量从Web端解决客户常见问题。 (六)客服座席协助 完成专家坐席功能,在普通坐席人员无法回答问题时提供标准化的知识协助,帮助普通客服人员快速,准确回答。 智能科普问答系统的上线应用,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

个方面分析知识图谱的价值和应用

6个方面分析知识图谱的价值和应用知识对于人工智能的价值就在于,让机器具备认知能力和理解能力。构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。一、知识图谱无处不在说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,各行各业都在研发底层技术和寻求AI场景,却忽视了当下最时髦也很重要的AI技术:知识图谱。当我们进行搜索时,搜索结果右侧的联想,来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱。二、知识图谱与人工智能的关系知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱。正是因为有获取和形成知识的能力,人类才可以不断进步。知识图谱对于人工智能的重要价值在于,知识是人工智能的基石。机器可

以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如:狗的嗅觉。而“认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。”知识对于人工智能的价值就在于,让机器具备认知能力。而构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。 三、图数据库知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,图论中图的基本元素是节点和边,在图数据库中对应的就是节点和关系。用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。目前市面上较为流行的图数据库有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。图数据库将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。四、知识图谱的价值知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种关系,并且非常直观、自然、直接和高效,不需要中间过程

智能控制问答题终极版

智能控制问答题终极版 1、执行器是系统的输出,对外界对象发生作用。 2、传感器产生智能系统的输入,传感器用来监测外部环境和系统本身的状态。传感器向感知信息处理单元提供输入。 3、感知信息处理,将传感器得到的原始信息加以处理,并与内部环境模型产生的期望信息进行比较。 4、认知主要用来接收和存储信息、知识、经验和数据,并对他们进行分析、推理作出行动的决策,送至规划和控制部分。 5、通信接口除建立人机之间的联系外,还建立系统各模块之间的联系。 6、规划和控制是整个系统的核心,它根据给定的任务要求,反馈的信息,以及经验知识,进行自动搜索,推理决策,动作规划,最终产生具体的控制作用。1-2 智能控制系统的特点是什么?答: 1、智能控制系统一般具有以知识表示的非数学广义模型和以数学模型表示的混合控制过程。 2、智能控制器具有分层信息处理和决策机构。 3、智能控制器具有非线性和变结构特点。 4、智能控制器具有多目标优化能力。 5、智能控制器能够在复杂环境下学习。从功能和行为上分析,智能控制系统应具备以下一条或几条功能特点:

1、自适应功能 2、自学习功能 3、自组织功能 4、自诊断功能 5、自修复功能1-3 智能控制与传统控制相比较有什么不同?在什么场合下应该选用智能控制策略?答:(1)不同点: 1、涉及的范围:智能控制的范围包括了传统控制的范围。有微分/差分方程描述的系统;有混合系统(离散和连续系统混合、符号和数值系统混合、数字和模拟系统混合)。 2、控制的目标:智能的目标寻求在巨大的不确定环境中,获得整体的优化。因此,智能控制要考虑:故障诊断、系统重构、自组织、自学习能力、多重目标。 3、系统的结构:控制对象和控制系统的结合。(2)在什么场合下应该选用智能控制策略。说法一:主要针对控制对象及其环境、目标和任务的不确定性和复杂性的系统。 说法二:主要针对无法获得精确的数学模型、无法解决建模问题、假设条件与实际不相吻合的系统。2-11 模糊逻辑控制器由哪几部分组成?各完成什么功能?答:(1)组成:输入量模糊化接口、知识库(数据库和规则库)、推理机、输出解模糊接口四部分。(2)功能:

相关主题
文本预览
相关文档 最新文档