开放域问答系统研究综述
- 格式:doc
- 大小:346.00 KB
- 文档页数:24
人工智能中的智能问答和对话系统研究一、智能问答系统简介智能问答系统是人工智能技术的一种应用,目的在于帮助用户解决信息查询方面的问题,其特色在于提供自然语言的交互方式,可以让用户以类似于人与人之间对话的方式快速获取想要的信息响应。
智能问答系统采用自然语言处理技术(NLP)和机器学习技术(ML)等基础技术支持,通过学习人们的提问方式和交互过程来提高问答的效率和准确率。
智能问答技术已经广泛应用于搜索引擎、客户服务、虚拟助手等领域,在经济、医疗和教育等行业中得到大量的应用和推广。
智能问答系统的成功关键在于其对自然语言处理技术的应用,其通过了解自然语言的词汇、语法、语义和上下文等多方面因素来推导出类似于人之间的对话式交互,从而达到人工智能的效果。
二、智能问答系统的分类智能问答系统在运用领域多种多样,并存在多种分类方法。
根据系统实现的功能不同,智能问答系统可以分为以下几类:1.开放域问答系统开放域问答系统是指可以在任意领域内进行提问和回答的系统,目标是在没有限定领域和限定答案的情况下,尽可能地回答用户的问题。
这种系统不需要先验知识,强调对话式的交互方式,以及分析和理解用户提出的问题。
典型的例子有Google智能搜索、IBM Watson等。
2.领域专家问答系统领域专家问答系统是指特定领域内的问题和答案,系统需要结合该领域专家知识库中的信息进行答案的搜索和匹配。
这种系统需要有特定领域的专业知识,要求问答之间必须要有关键字匹配。
典型的例子有百度知道、Zhihu等。
3.任务驱动问答系统任务驱动问答系统是具有明确的目标和任务的问答系统,它通常包含前置和后续任务,需要符合用户特定的意图和目的,而且这个目的是固定的。
任务驱动问答系统通常优先考虑回答问题的准确性和实用性,而不仅仅是回答问题本身。
典型的例子有生活助手类系统和购物服务助手类系统等。
三、智能对话系统简介智能对话系统是一种将机器学习、自然语言处理、人工智能和语音识别等技术结合起来,通过计算机和人之间的智能对话来完成某种复杂的任务。
中文问答系统调研报告目录问答系统调研报告 (1)1 问答系统的价值体现 (3)1.1市场应用价值 (3)1.2 弥补了搜索引擎的不足 (3)1.3 总结 (3)2 问答系统的市场应用情况 (3)3 问答系统整体框架 (5)3.1 问答实现流程 (5)3.2问句分析模块 (6)3.2.1中文分词 (6)3.2.2关键词提取 (9)3.2.3关键词扩展 (10)3.2.4实体识别 (11)3.2.5问句分类 (12)3.3 信息检索模块 (13)3.3.1模式匹配 (13)3.3.2答案检索 (13)3.3.3知识图谱 (16)3.4答案抽取模块 (21)3.4.1基于规则的方法 (21)3.4.2基于统计的方法 (22)4 问答系统的应用场景 (23)4.1 任务型 (23)4.2 问答型 (24)4.3 语聊型 (24)5 调研总结 (30)1 问答系统的价值体现1.1市场应用价值问答系统是智能人机交互的技术基础,智能人机交互通过拟人化的交互体验逐步在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。
因此,各大公司都将智能聊天机器人作为未来的入口级别的应用在对待。
包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了自己的智能私人助理和机器人平台。
1.2 产品技术价值1、搜索引擎的缺陷:一方面,用户所输入的搜索关键词或关键句,无法真实反映用户需求;另一方面,检索系统仅仅通过几个关键词的简单逻辑组合来返回答案。
两方面的误差造成检索结果很差。
检索结果不够简洁。
冗余信息使用户难以快速准确定位所需信息,造成时间和精力的浪费。
缺乏对用户问句的语义理解。
只靠关键词的索引或简单的匹配算法,并不能真正触及到问题的真实意思,使检索结果一般。
2、问答系统能针对搜索引擎缺陷的改进1)问答系统允许用户以自然语言的形式询问或者输入。
2)问答系统能直接返回答案,提供给用户简洁、有效的答案。
基于自然语言处理的问答系统的研究与应用概述随着人工智能技术的发展和普及,自然语言处理(Natural Language Processing,NLP)成为了实现计算机自然交互和语义理解的重要手段。
问答系统则是NLP的一个重要应用领域,它可以以自然语言形式提问,从大规模语料库中通过各种技术手段检索和提取相关信息,最终返回符合用户需求的答案。
本文将介绍基于自然语言处理的问答系统在近年来的发展和应用研究中涉及的技术问题和解决方法,以及未来的研究方向和发展趋势。
一、问答系统的分类根据其应用场景和灵活性,问答系统可以分为开放域问答系统(Open-domain Question Answering,ODQA)和封闭域问答系统(Closed-domain Question Answering,CDQA)。
前者没有明确限制答案的类型和来源,可以回答各种类型的问题;后者主要用于特定领域的专业问题,回答的答案通常由事先建立的知识库或专业人员提供。
1.1 开放域问答系统开放域问答系统是NLP领域中最具有挑战性的任务之一,也是研究人员关注和研究的重点。
ODQA系统需要在海量数据中准确地找到问题的答案,为此需要解决以下几个主要问题:(1)语义理解首先需要对自然语言提问进行切分、词性标注和依存句法分析,提取问题中的关键词,了解问题所涉及的实体和关系,并将它们转换为语义表示。
(2)指代消解指代消解是指确定代词或指称所指的具体实体,避免歧义和误读。
(3)信息检索信息检索是ODQA系统最关键的环节,它需要从海量的文本数据中准确地找到问题的答案。
常用的方法包括基于关键词的检索、基于句法和语义的检索、话题检测和答案排序等技术。
(4)答案抽取和生成在检索到相关信息后,需要对原始文本进行分析和抽取,并将得到的答案通过自然语言生成模型转换为符合用户要求的自然语言表述。
1.2 封闭域问答系统封闭域问答系统相对于开放域问答系统而言,需要回答的问题涉及的领域和数据范围相对较小,通常是由专业人员或领域知识库提供的数据。
Ƒ స " İ Ҕந¾.Ҕ Dž # ˭bert,tliu,zsf,car,qinb,ls@q ٫ ඪ1500011"- Ƒ స " ܾ " - Ҕந స " ƣ ٫ %Ď) ܾ ǎ ȏ 2 İ) " ǟ / µ ͪ Ȓ( స " ƣֻ ( స 8- " - - ǎ స " Ƒ /၏ļ˫ ) స "˫ ) ѤResearch and Implement on Open-domain ChineseQuestion-Answering SystemZhang Gang LiuTing Zheng Shifu Che Wanxiang Qin Bing Li ShengInformation Retrieval Group Harbin Institute of Technology(bert,tliu,zsf,car,qinb,ls@)Abstract:An open-domain Chinese question-answering system is presented in this paper. Open-domain question-answering is a very difficult research topic,which is related to knowledge representation,information retrieval and natural language rge-scale raw texts are used as the knowledge base for the QA system,and a weighting algorithm suitable for retrieval in QA system is also developed.Keyword:open-domain question-answering sentence retrieval1ǒฬළ 2- Ӎ ළ ٫Ƴ Ƴ " - 8 Ȗ <DKRR ᇗˣ ˫ ) ܼ̤ Ε ළ JƑ . <Ȗ ࢨ ˫ 3 ළ . Ȗؿ - )-.ළ ܝ$ܼ̤ ࡙ స . " <Ȗ ࢨ ˫ #ළ - . ˫ ළ ࣣ ȖƱ ሓ ǒฬළ ٫ -ķǎ) ȑ ´. ê/ ٫ ࡚ ̵ ٫ - ˫ Φ ٫ # )$ - O #)һ Ǝ % ࡙ ̤ ٫ ࡚ 2 0 J Γ / ) ǒฬළ ) ǞÝ v. ̓ ) ٫ Ƒ ළ" ´ Hͪ< V H Ý) $ (ǒฬළ జnj ) ࡚Ƒ J ּ ̵" ( ˫ ) njᇕඪ ᇰ ࢨ (0 ࢨؒؒ #Ĝ× ˫ ) Ρඪ ᇰ - ´.ࣣ % ᇰ %ĎƱҵࣣ ͨ ܼ ´ స - nj ˫ )( Zቱļ һ౧Ρ ɶ ) Ӏ #ࣣ c)) ࡚ - ࡛ 2 " ܖ) ˫ළ Ʊҵ )-.ළ Ƒ $ < ´ ࢨ ˫ ˷v 3 ࡙ స ´% ̤ළ Ƒb ܼస " ƣ ٫ %Ď) ǎ ȏ 3 ᄣ ´ ࢨ ̵࡙ ( İ Č ֨ ၖ 7H[W 5HWULHY D O &R QIHUHQFH స " ˫ ) ˤ < Ʊ- - ) İ Ȓ2 " -"( . ඪ Ѥ స ݣ " " 8 ܖ3ၠ၏ Ҕந3.1స " G- Ȓ - Nj Nj / ؉ . ҈ . Ȓ - ) t ń ˫ ) Ȼޖ ń ķ ˫ )- - ·Ӎ3.1.1 ń-Nj / "၏ ந ´ (&֦ ń - ńń )7Ѥ) 0)) ந- ෪ं) Ǯ) ȑ ቅ֨…0ń ֨) / 2…&Ƌ༭ ֨$ ༭) t) Ǯ) Ǯ) Ǯ) ǚ Ǯ)) Č ȉූ / Ǯ) ᕺӝ) ύ (Ǯ) (Ǯ) ?J҅ŃŃǎ ń Pt ּ స ݣ ɑ స ݣ ࢍּ -. ݣ స 78 ǎd) t)eń Pt- d Answer= behind(Var+ ( t)()ľfront( ( > t)( Var)e-/ Var ) t) ) ࡚) ҵ ǟ(d స ) )ͪþ ÿ þ (ÿ þt)(ÿķܖ Ɩ . # þ ÿ þ (ÿ þ >ÿ þt)(ÿķͪ ) )ܖ Ɩ ̵ . e -ύ ඩ ǎCp< 3 ǎ / Ĝt Ʊ Pt ᇍ - / -. ) "˷Ҕந- - ) ǟ W ǟ· Ҕ Nj Ƒ -p . t҅ ń - (d J҅eń ǎ- $Pt Jȏ ǟ " ̵ Ȓ( -స3.1.2˫ )˫ ) ؉ ̤ ໘) ˫ )( ) W) v) t ͋)ķඪ 3 Ҕ ּ Ƒ ¹ Ƒ - ) . ).Ȓ(˫ )2 ˫ ) ( ໘ ˫ ) dؿ e ˫ ) ܖ)dؿe ˫ ) -.˫ )ؿ స ѤƑ # ໘ ˫ ) సѤ ˫ ) Ư- / Ѥ -. / ၏ļ Ѥ / - ) J t Ȓ ͋) ᇍ2 / d ؿ e ˫ ) ) t ͋) 8 2 ķ 8 1997֨ ඪ )ܖ Ptd ؿ e ˫ )ύ ( t Ȓ 8 ҅ Ѥ Ʀ $ ࡙ స 78 d 1900֨ Ӎ Ɯ e # " δ நd 1964֨ Ӎ ඣśƜ e - Ď ´ ̤ " )ܖ ந- ڣ̕ ύ ҵ ǎ / ˫ )d 1900֨e ࣣ స Ѥܖ 8 ͪ d ؿ e ˫ )- P ቅ)- స ҵ ࡚-Nj-.˫ ) Ȓ 2 O3.1.3˫ )·Ӎస ѤƑ .) ύ ˫ ) # -.˫ ) )·Ӎ 78 d 3 ֨ e స Ѥ d śპ/ ś 3 e Ƒȩ d e # స Ƒδǟ -d e - )Ý -ҵ- ˫ ) ) * ࡚ ˫ )>- ·Ӎ ˫ )·Ӎ Ď 2- " ħ 38 ·Ӎ - ލң ࡙ ħ ࡚ؿ ˫ )·Ӎ P "ǟ - ˫ )- ·Ӎ ))·Ӎޖ ń ·Ӎ ))·Ӎ ໘ )- ·Ӎ 78dඔ e ·Ӎ(de < ) ҈I )Ý- ·Ӎ - நÕ) $ ǎ ޖ ń·Ӎҵ ޖ ń Pt ·Ӎ 8) /ń ¹ . /Ρȉͪˣ 78 da ' 2 eቅ) ·Ӎ .Ρȉ8 ಯ Εಯ &xķ Ρȉ ǎ- ˫ ) ·Ӎ dz$ 2స ħ # - 2࡙ ħ3.2 Ѥ" ̓ ቅ. -Nj ) సǎቅ.p ˫ # Ŀ ࢍ - ܝ$ݣ స ǎᇍ ந - ̓ - ڣ̕ "ǟ - Ѥ -Nj Ѥ ቅ. స) Ѥ ǎ ¹ Ѥ Ȓ Ŀ ቅ) ѤƱȒ Ŀ 3 Ѥ ໘ Ŀ ) ǎ Ѥ /-- ǎĿ / - " - ᇍ "ǟ -2 ļ/ ĵ ç)Ƒ " 5G ) ś 50,000,000 Ѥ ĵ ޮś 6 Ѥ / t ޮַ Ѥ ˫ - Nj҈జ ࢍ ˤ ၏ļ Ѥ /ini i IDF KW W ∑=×=1JƑ i KW ࢍ" జi ˫ ) /i IDF )˫ ) ѤƑ idf ɢ໘ ၏ļ / ļ -/ࣣ # ˫ )tf ɢ -( ǎ Ѥ- ѤƑ ))/ ᇍ ࡚ -˫ ) tf ɢ #ၒ(˫ ) tf ɢ(1 tf ɢ၏ļ / ؉ ˫ ) idf ɢ -)˫ ) / - ƳȊ ) J idf ɢƳ ))ܖ ٫/ҵƳ - )ƱҵƳ/ "- / 500 Ȓ(- ࡛ t / - 8 / Ѥ ޮַ Ѥ ޮ ̵ t - 8 ˫ ) Ƒ d ؿ e ˫ ) ቅ)- - Ƒ ܖ Ѥ.ؿ -.˫ ) 8 ࣣ -.˫ ) సd ࣣస eǎ . Ѥ҅ ˫ ) - ၏ļ J / జnj ࢍ "ҵ / Ѥǟ /၏ļ / ၏ļ / జnj ࢍ /၏ļ( # ˫ )w ڣ̕ ໘ ˫ ) Ƴ Ƒ Ѥ /ҵƳ 78 d Ƒ ༭ Ǯ) e ǎ- " ˫ )(d Ƒ e d ༭e " - ѤѤd /ଓ( ଓ(༭ Ƒ ༭ eѤnjd Ꮀ .ȉǎƑ \. ᒖ༭/ ) ᇰ ¸ ༭ Ꮀ . ༭ - Ѥ. d Ƒe d ༭e - ˫ ) Ďజ ѤƑ స #జnj స ) - - ) ύ ( ǎ ˫ )d Ƒ e d ༭e Ƒ Ʀǔ ந # ǔ ܝ$ ᇰ ࡙ # ѤnjƑ - ˫ ) + - 7Ѥ Å֭( ໘ ڣ̕ =ၠ Ƒ ˫ ) },...,,{21n Key Key Key K = "Njజ ࢍ၏ļ / ̤ / ඪ Ѥ. JƑ m ˫ ) -m ˫ ) ѤƑ 8 ܖ8∑=−−=m i i i KPos KPosW 21)(1JƑ i KPos (జi ˫ ) ѤƑ ȉූ)ˤ )-˫ ) + Ѥ / ؉ -ȏந- ǔ ˫ ) ᇍ ǒȒ $V # ˫ )+ Ƴ-- ؉ ҵƳס ˫ )) - J ҅˫ ) -ၒ(- ˫ )) ࣣ ǒȒ ˫ ǎ ˫ ) Ѥ ǟ ) ၏ļ-Nj ࢍ / ) ȩ ˫ . Ѥ$ ௯ ɑǎ స ݣ3.3స ݣస ݣ ( ࢍ/ Ȼޖ ѤƑݣ స 8 ࣣ- ȩ ѤƑᇍ/ . Ȓ( స 8ȑ t ѤƑ . $ స ̓ Č İƑ ந స . ந ˫ ) Ƒ ȉූ - ޖ- ĜČ ˫ ) Ƒ ȉූҵ ( ѤƑ/ . ). - - ·Ӎ 8·Ӎ ś125 p IJ స JƑ4ҔᏄ5"Ƣ8 ܖ- 1"- స " ./ ܾ " - Ҕந " ǟ "ͪ Ȓ( స " ƣঠ ǎ ƣ 0 ͪ ƣঠ ) ̵- -. ƣ -ҵ( స 8-ˏᄣ ƣO - ᇍ ˣ < -Ʊ 2- " $ Ϥ# ୖ[1]Ittycheriah,M.Franz,W-J Zhu,A.Ratnaparkhi.“IBM's Statistical Question Answering System”.Proceedings of the night Text Retrieval Conference(TREC-9)[2]D.Elworthy.“Question Answering Using a Large NLP System”.Proceedings of the night Text Retrieval Conference(TREC-9)[3]L.Wu,X-j Huang,Y.Guo,B.Liu,Y.Zhang.“FDU at TREC-9:CLIR,Filtering and QA Tasks”.Proceedings of the night Text Retrieval Conference(TREC-9)[4]R.J.Cooper,S.M.Rüger.“A Simple Question Answering System”.Proceedings of the night Text Retrieval Conference(TREC-9)[5]C.L.A.Clarke,G.V.Cormack,D.I.E.Kisman,T.R.Lynam.“Question Answering by Passage Selection”.Proceedings of the night Text Retrieval Conference(TREC-9)[6]S-M Kim,D-H Baek,S-B Kim,H-C Rim.“Question Answering Considering Semantic Categories and Co-Occurrence Density”.Proceedings of the night Text Retrieval Conference (TREC-9)。
人工智能及识别技术本栏目责任编辑:唐一东基于知识库的开放域问答研究李东奇,李明鑫,张潇(中国矿业大学(北京),北京100083)摘要:知识库问答是当今自然语言处理的热门研究方向,它允许用户输入自然语言问句,问答系统分析问句、查询知识库并智能返回给用户答案,无须用户进一步查询搜索。
开放域问答更加拓宽了用户查询的知识领域范围。
如何准确处理用户输入的自然语言问句并在知识库中进行推理是知识库问答的难题之一。
文章主要研究并讨论了知识库问答的命名实体识别和关系抽取,这些任务主要应用了深度学习技术。
关键词:知识库问答;命名实体识别;关系抽取;深度学习;自然语言处理中图分类号:TP311文献标识码:A文章编号:1009-3044(2020)36-0179-03开放科学(资源服务)标识码(OSID):Open domain Question Answer research Based on Knowledge Base LI Dong-qi ,LI Ming-xin ,ZHANG Xiao(China University of Mining &Technology,Beijing 100083,China)Abstract:Knowledge base question-answer is a popular research direction in natural language processing.It allows users to input natural language questions.Question answering system can analyze questions,query knowledge base and return answers to users in⁃telligently without further query and search.Open domain question-answer widens the scope of user query knowledge.How to deal with the natural language questions input by users accurately and reasoning in the knowledge base is one of the difficult problems in the knowledge base question answering.The paper mainly studies and discusses named entity recognition and relation extraction of knowledge base question-answer.These tasks mainly apply deep learning technology.Key words :knowledge base question answer;named entity recognition;relation extraction;deep learning;natural language process⁃ing1研究背景随着信息社会的不断发展,产生的信息量日益指数型增长,人们需要从这繁杂的信息中获取有用的信息,从早先的分类目录网站到现在的基于文本和超文本链接的搜索引擎,人们在不断地寻找更有效的信息检索方式。
中文开放域问答系统的问题分类研究作者:夏艳辉来源:《价值工程》2019年第16期摘要:中文问答系统通常由问题分析、信息检索、答案抽取组成。
其中,问题分析中的问题的分类是否准确会直接关系到提取答案的准确度,所以在问答系统中起到关键性作用。
本文主要介绍了中文问答系统的结构、问题分类体系以及方法,并提出结合基于规则的模式匹配与基于统计的机器学习的方法对问题进行分类,从而提高分类的准确度。
Abstract: Chinese question answering system usually consists of question analysis,information retrieval and answer extraction. Among them, whether the classification of the question in the question analysis is accurate is directly related to the accuracy of extracting the answer, so it plays a key role in the question and answer system. This paper mainly introduces the structure,question classification system and method of Chinese question answering system, and proposes a classification based on rule-based pattern matching and statistical-based machine learning to improve the accuracy of classification.關键词:开放域;中文问答系统;问题分类Key words: open-domain;Chinese question answering system;question classification中图分类号:TP391.1; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; 文献标识码:A; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; 文章编号:1006-4311(2019)16-0147-030; 引言在问答系统中,用户输入自然语言查询语句后,系统便会给出精准的答案。
基于自然语言处理的智能问答系统设计与实现随着科技的不断发展,智能问答系统已经成为了热门的研究领域。
基于自然语言处理技术的智能问答系统能够帮助人们解决各种问题,因此,它们在很多应用场景中得到了广泛的应用。
本文将探讨基于自然语言处理的智能问答系统设计与实现的相关技术。
一、背景概述随着人工智能的广泛应用,越来越多的智能问答系统被开发出来,这些系统良好地实现了人机对话的过程。
在这个过程中,机器通过分析用户的自然语言输入来理解用户的需求,然后根据它所收集的数据来回答用户的问题。
二、技术研究基于自然语言处理技术的智能问答系统可以分为两大类:开放领域的智能问答系统和封闭领域的智能问答系统。
开放领域的智能问答系统主要用于回答用户杂乱无章的问题,而封闭领域的智能问答系统则专注于某一领域,如银行、法律或医疗。
为了构建一个有效的智能问答系统,需要包含以下关键技术:1.自然语言理解:这是智能问答系统的关键技术之一,主要用于将用户的自然语言转换成结构化的语言,以便机器可以理解和执行。
2.知识库:知识库是储存问题和答案的一种结构化形式,是智能问答系统的核心。
机器可以从知识库中检索并获取答案。
3.问答匹配:这是将用户的问题与存储在数据库中的文本数据进行匹配的过程。
在这个过程中,机器将问题与数据源进行匹配,并对其进行排名,以获得最佳答案。
4.自然语言生成:这是将机器的答案转化成自然语言的过程。
机器的答案可能来自语料库或API,但是它们需要经过自然语言生成步骤才能以自然语言的形式回答用户。
三、基于机器学习的智能问答系统机器学习是一种广泛应用于智能问答系统中的方法。
它可以通过学习上下文信息,来提取出问题的最佳答案。
机器学习的方法可以分为以下两类:1.监督学习:监督学习的目标是根据来自训练数据的标签来预测问题的答案。
这种方法需要人工标记训练数据集中的答案,交给机器学习算法以学习。
2.无监督学习:无监督学习需要从未标记的数据中学习问题的答案。
开放域问答系统研究综述*何靖1,陈翀2,闫宏飞1(1.北京大学,信息科学技术学院,北京,100871;2.北京师范大学,管理学院信息管理系,北京,100875)E-mail: hj@, chenchong@, yhf@摘要:尽管搜索引擎能够满足网络用户的很多信息需求,但是还有很多它无法满足。
原因之一是它严格的用户界面:它的输入是关键词,它的输出是相关文档集。
对于很多信息需求,更加合适的提问和回答方式是自然语言。
开放域问答系统就是用于解决这一问题的。
本文主要介绍开放域问答系统的系统框架,主要技术和评测方法。
关键词:开放域问答系统;问题分析;信息检索;答案抽取A Survey: Open-domain Question Answering SystemHE Jing1, CHEN Chong2, YAN Hongfei11(Department of Computer Science and Technology, Peking University, Beijing 100871, China)2(Department of Information Management, Beijing Normal University, Beijing, 100875, China)E-mail: hj@, chenchong@, yhf@Abstract: Though Web users can find relative information with search engine, it cannot satify all information needs. One reason is that its interface to users is rigid: keywords as query and documents as output. However, for some information need, it’s more suitable to be queried and answered by natural language. Open-domain question answering system is designed to solve this problem. In this survey paper, we will introduce the framework and critical techniques for an open-domain question answering system and present how to evaluate it.Keywords:Open-domain question answering, question analysis, information retrieval, answer extraction1概述1.1研究背景随着网络数据的快速增长,从海量网络数据中获得相关信息成为一个巨大挑战,搜索引擎在一定程度上解决了这个问题。
在分析搜索引擎日志时发现,它包含一些自然语言表述的查询如“如何安装RedHat9”。
这表明互联网用户更加习惯于用自然语言来表达他们的某些信息需求。
搜索引擎的输入是一组关键词,但是有时用户的信息需求很难用关键词确切地表达。
同时,有时用户所需信息的粒度并不是一篇文档,而是一个描述性的段落、句子、结论、人名或数字等,但是搜索引擎对于一个查询返回的是一个文档集合,用户还需从中找出相关的内容。
这表明现有的搜索引擎服务和用户的实际信息需求之间存在着两个方面的“鸿沟”:系统要求的关键词表达方式与用户自然表达方式之间的鸿沟和系统返回信*本文受到国家自然科学基金(70903008,60933004),CNGI搜索引擎项目(CNGI2008-122),863 课题(2009AA01Z143),软件开发环境国家重点实验室开放课题(SKLSDE-2010KF-03)及973计划海量项目(2005CB321901)的共同支持。
息的方式和用户需要返回的方式之间的鸿沟。
如果能使用户以一种更加自然的方式和系统交互,用户可以自然而精确地表达他们的信息需求,系统能直接返回用户想要知道的内容,就能填平这条鸿沟。
基于这样的需求,开放域问答系统成为信息系统领域中继搜索引擎之后的又一个热点。
从技术层面来看,计算机处理能力的提升,信息检索、自然语言处理、人工智能等相关领域研究的发展也为问答系统的构建创造了条件。
1.2问答系统的历史问答系统并不是一个年轻的研究方向。
五十年代,Alan Turing提出了著名的图灵测试。
该测试的目的是测试计算机是否具有智能。
为了鼓励进行图灵测试的研究,1991年Hugh Loebner设立了Loebner Prize,用于奖励第一个通过图灵测试的系统。
十多年来,出现了PC Therapist, Albert等优秀的聊天机器人系统,它们的一些技术如问句答案的模式匹配,对开放域问答系统很有借鉴价值。
除此之外,还有一些基于知识库的问答系统研究[32,33],包括基于本体的问答系统,受限语言的数据库查询系统,问答式专家系统等。
这些系统受限于一定的知识领域和语言表达方式,不具有可扩展性。
本文讨论的开放域问答系统和它们不同,具有两个特性:1、它能够回答的问题不局限于一个或几个特殊的领域,而是不限定领域的;2、它是基于一套文档数据库(可以是新闻集合,也可以是整个Web),而且它只能回答那些答案存在于这个文档数据库中的问题。
因此它是可扩展的,随着文档数据库的增加,它具有了更多的“知识”,就能回答更多的问题。
最早的在线问答系统是由美国麻省理工大学Boris Katz等人开发START系统(/),它自1993年12月正式提供服务至今,已经回答了数以百万计的问题,问题的类型包括位置,电影,人物,文化,历史,艺术,环境,词典定义等。
AskJeeves 也是一个优秀的开放域问答系统(),和START不同,它返回的结果并不是一个精确的答案,而是包含答案的一系列段落。
其他比较著名的在线系统还包括Brainboost()和AnswerBus(),它们返回的是包含结果的句子。
为了推动开放域问答系统的发展,信息检索评测组织TREC(Text REtrieval Conference)自1999年开始,设立了开放域问答的评测任务,已开展了10次评测,成为TREC中历时最长的评测任务。
另外的一些著名评测组织如NTCIR和CLEF也已经设置问答系统评测的任务。
可见,问答系统的研究已在领域内受到非常强烈的关注。
1.3开放域问答系统的通用体系结构由于自然语言处理、信息检索、人工智能等相关领域技术的局限性,问答系统的回答能力也是有限的。
Moldovan [25]根据问答系统的能力,把它由弱到强分成了5类: 能回答事实问题的系统:回答的内容是一个事实,可以直接在文档里找到,一般是一个词或者一次词组。
●能回答具有简单推理问题的系统:回答的问题可能是文档里面的一个片断,需要系统简单的推理能力。
●能够多文档信息综合回答的系统:需要从多个文档中分别找出答案并且以一定的方式进行组合展示给用户。
●交互式问答系统:答案是上下文相关的,即和用户已经提问的问题和系统已经返回的结果有关系。
●具有类推能力的系统:答案需要系统进行推理获得,可能无法在文档集合中直接找到。
现有的开放域问答系统的能力,一般是介于前四类之间,主要处理那些能够通过直接从文档集中抽取答案就能回答的问题。
这些问题主要包括事实类问题,列表类问题,定义类问题,关系类问题等。
当前,不同的问答式系统会具有不同的体系结构。
如[8]的系统包括主题提取,主题定义,段落检索,答案抽取四个模块,[28]的系统包括问句分类,文档检索,句子抽取,答案抽取,排序,消除重复答案等模块。
虽然模块划分不同,但一般来说,所有的系统的模块都可以纳入三个大的部分,即问句分析,文档和段落的检索和答案的提取和验证。
问句分析部分所需要完成的功能包括问句类型分析,问句主题识别,问句指代消解和问句语法分析等。
问句分类是问答系统中一个很重要的环节,它需要把问句根据它的答案类型分到某一类别中,之后的检索和提取会根据问句类别采用不同的措施。
在现有问答系统的解决方案中,很多都根据精细问句类型和精细实体答案的识别的对应关系来提取答案,所以他们尤其重视问句分类的性能。
找出问句的主题,可以帮助检索部分首先找出和主题相关的文档和段落,便于进一步后续的处理。
在某些系统交互式地回答用户的提问,因此用户的问题中会出现一些指代词,因此需要根据上下文明确指代词在问题中具体所指。
有的系统通过对问句进行语法分析,匹配问句的语法结构和包含答案句子的语法结构。
文档和段落检索部分的功能是根据问句构造查询,利用一定的检索模型找到可能包含答案的文档或者段落。
这里会涉及到的问题包括:采用什么样的信息检索模型,如何构造查询,如何对这些段落进行排序,如何追求查全率和查准率之间的折衷,检索阶段的性能和最终的系统总性能有什么样的关系等。
答案的提取和验证是问答系统的最后一个部分,它的输出就是问句的最终答案。
它分析检索获得的文档或者段落,从中提出能够回答问题的答案。
在提取答案时,问句类型直接决定如何生成候选答案集合。
另外,某些问题的答案可能存在于知识库中或者Web上,这一步中可以通过察看知识库或者Web对答案进行验证。
三大模块之间的流程和关系如图1所示:图1 问答系统的通用体系结构从上图可见,问题分析模块可以获得问句的主题、类型和语法结构。
文档和段落检索模块从文档集合中获得相应的可能包括正确答案的段落集合。
答案提取和验证模块根据前两个模块的输出以及通过知识库和Web上的知识获得最终的答案。
下面就这三个模块进行详细的介绍。
2问句分析问句分析模块用于分析理解问题,从而协助后续的检索和答案提取。
它的输入是由自然语言表述的问题,输出是问句对应的答案类型和问句主题等。
2.1问句分类问句分类是根据问句所问的目标(答案)的类型对问句进行分类,它是问句分析最重要的功能之一,因为答案类型直接影响后续步骤尤其是答案抽取的策略,比如对于问人物的问题,答案抽取模块首先就会把相关文档中出现的人物作为答案候选集合。
最简单的问句分类通过疑问词直接决定问句的类型。
在英语中,典型的有5W1H(What, Who, When, Where, Why, How)的问题,在中文中,也有类似的“谁”,“哪儿”这样的疑问词。
但这种方法粒度太粗,特别对What,How这样的疑问词,可以对应非常多的答案类型。
另外,有一些问句从句型上看是祈使句,不包含疑问词,如“列出长江流经的省份”,或者有一些问句包含了多个疑问词,如英语中含有定语从句,宾语从句的情况,这种方法无法处理这些情况。