面向限定领域问答系统的自然语言理解方法综述
- 格式:pdf
- 大小:830.13 KB
- 文档页数:9
自然语言处理在问答系统中的应用自然语言处理(NLP)是一门研究如何使计算机能够理解、处理和生成人类语言的学科。
随着技术的不断进步,NLP在问答系统中的应用也变得愈发广泛。
本文将从语义理解、信息检索、问题生成和答案抽取等方面探讨NLP在问答系统中的应用。
语义理解是问答系统中至关重要的一环。
NLP技术能够帮助计算机理解并解释用户提出的问题。
通过自然语言处理技术,计算机能够识别问题中的关键词,并将其转化为可理解的语义表示。
例如,当用户提出“今天天气怎么样?”这样的问题时,NLP能够帮助计算机理解用户想要获取的信息是关于当天的天气情况。
通过语义理解,问答系统可以更准确地把握用户需求,提供精准的答案。
信息检索是问答系统中的另一个重要环节。
NLP技术可以帮助问答系统从海量的信息中快速准确地检索到相关的答案。
通过自然语言处理技术,计算机能够识别用户问题中的关键词,并将其与数据库中的信息进行匹配。
例如,当用户提出“世界上最高的山是哪座?”这样的问题时,问答系统通过NLP技术可以从数据库中检索到相关的信息,找到正确的答案并呈现给用户。
问题生成是问答系统中的又一关键环节。
NLP技术可以帮助问答系统生成符合语言习惯的问题,以帮助用户更准确地表达需求。
通过自然语言处理技术,计算机能够根据用户提出的问题生成符合语法规则和表达习惯的问题。
例如,当用户提出“英国首相是谁?”这样的问题时,问答系统可以通过NLP技术生成“谁是英国的首相?”这样更符合表达习惯的问题,以帮助用户更清晰地表达需求。
答案抽取是问答系统中至关重要的一环。
NLP技术可以帮助问答系统从文本中抽取出符合用户需求的答案。
通过自然语言处理技术,计算机能够识别文本中的实体、时间、地点等信息,并将其转化为可理解的答案。
例如,当用户提出“李白是哪个朝代的诗人?”这样的问题时,问答系统可以通过NLP技术从文本中抽取出“唐朝”这样的答案,并呈现给用户。
总的来说,自然语言处理在问答系统中的应用已经变得愈发广泛。
AI技术如何处理自然语言理解与问答系统一、简介AI技术在自然语言理解与问答系统中的应用已经取得了显著的进展。
自然语言理解是指让计算机能够理解人类自然语言的意义和结构,而问答系统则是基于机器学习和自然语言处理技术开发的能够回答用户提出问题的智能系统。
本文将探讨AI技术在自然语言理解和问答系统中的应用过程以及相关挑战。
二、自然语言理解1. 词法分析与句法分析为了使机器能够理解人类自然语言文本,首先需要对文本进行词法分析和句法分析。
词法分析是指将文本划分为一个个独立有意义的词汇单元,例如名词、动词等;句法分析则是对这些词汇单元之间的关系进行解析,以确定句子结构。
通过这两个处理步骤,机器可以逐渐建立起对文本意义和结构的认知。
2. 语义理解与实体抽取在进行自然语言理解时,除了要考虑句子级别上的词汇和结构信息外,还需要关注其真正表达的含义。
因此,在语义理解阶段,机器需要通过分析句子中的上下文信息推断其含义。
另外,实体抽取是指从文本中识别出特定的命名实体(如人名、地名等),这将有助于问题的精确理解和回答。
三、问答系统1. 信息检索与推断问答系统一般分为开放领域和封闭领域两种。
开放领域的问答系统通常涉及大量的语料库,而封闭领域的问答系统则限制在特定知识范围内。
无论是哪种类型的问答系统,信息检索都是其中一个重要环节。
在信息检索过程中,AI技术会根据用户提出的问题从海量数据中查找相关信息,并提供更具准确性和可信度的答案。
此外,在推断阶段,AI技术还可以基于已有知识来做出进一步推断和归纳。
通过利用逻辑推理或统计学方法,机器可以生成符合问题背景和条件的合理回答。
2. 对话管理与多轮对话在设计问答系统时,对话管理是至关重要的因素之一。
它涉及到机器如何根据用户输入来选择合适的回应,并保持对话流畅性和连贯性。
多轮对话则要求机器能够“记住”前几个对话回合的上下文,以便更好地理解用户的问题并给出相应的回复。
四、AI技术在自然语言理解与问答系统中面临的挑战1. 语义歧义人类自然语言中常常存在一词多义或一句多义的情况,这会给机器在理解和回答问题时带来困扰。
自然语言处理中的问答系统设计随着人工智能的快速发展,自然语言处理(Natural Language Processing, NLP)成为了一个备受关注的领域。
在NLP的众多应用中,问答系统(Question Answering System)是其中一项重要的研究方向。
本文将探讨自然语言处理中的问答系统设计,从问题理解、信息检索到答案生成等方面进行讨论。
首先,问答系统的设计需要从问题理解入手。
问题理解是指对用户提出的问题进行语义解析和意图识别,以便准确理解问题的含义。
在这一步骤中,常用的技术包括分词、词性标注、句法分析和语义角色标注等。
通过这些技术,问答系统可以将问题转化为机器可以理解的形式,为后续的信息检索和答案生成打下基础。
接下来,信息检索是问答系统中的关键环节。
在用户提出问题后,问答系统需要从大量的数据源中检索相关信息,以找到与问题相关的答案。
信息检索可以基于关键词匹配、语义相似度或者知识图谱等方法进行。
关键词匹配是最常见的方法,通过将问题和文本中的关键词进行匹配来寻找答案。
而语义相似度则是通过计算问题与文本之间的语义相似度来进行匹配。
知识图谱则是将问题和文本映射到一个知识图谱中,通过图谱中的关系进行答案匹配。
综合利用这些方法,可以提高问答系统的准确率和召回率。
最后,答案生成是问答系统的最终目标。
在找到与问题相关的信息后,问答系统需要将这些信息转化为用户可以理解的答案。
答案生成可以通过抽取式方法或生成式方法来实现。
抽取式方法是从找到的信息中直接抽取出答案,而生成式方法则是根据找到的信息进行推理和生成答案。
抽取式方法相对简单,但生成式方法可以更加灵活地生成答案。
除了上述的问题理解、信息检索和答案生成,问答系统的设计还需要考虑用户交互和系统评估等方面。
用户交互是指问答系统与用户之间的交互方式,可以通过文本输入、语音输入或图形界面等方式进行。
系统评估则是对问答系统进行性能评估的过程,可以通过人工评估、自动评估或者用户反馈等方式进行。
自然语言处理技术在机器智能问答中的应用与效果研究综述在人工智能的快速发展和应用推广的过程中,机器智能问答系统成为了一个备受关注的研究领域。
自然语言处理技术作为机器智能问答系统的核心技术之一,已经在该领域取得了显著的应用与效果。
本文将综述自然语言处理技术在机器智能问答中的应用,并对其效果进行研究和评价。
一、机器智能问答系统的概述机器智能问答系统是指通过自然语言处理技术,使计算机能够理解用户的问题并给出准确的答案。
该系统主要由问题理解、信息提取和答案生成三个主要组成部分构成。
其中,自然语言处理技术主要负责问题理解和答案生成。
二、自然语言处理技术在问题理解中的应用1. 分词与词性标注在问题理解过程中,首先需要将输入的自然语言文本进行分词和词性标注处理。
分词技术能够将连续的文本字符串切分为单词序列,词性标注技术则可以为每个单词标注其在句子中的词性,这为后续的问题分析提供了基础。
2. 实体识别和命名实体识别在问题中,用户可能会涉及到某些特定的实体,如人名、地名等。
实体识别技术旨在从问题中识别出这些实体,并对其进行分类标注。
命名实体识别则更加专注于识别某些具有特定命名的实体,如公司名称、人名等。
3. 语法分析和句法树构建语法分析技术可以对输入的问题进行句法结构的分析,构建出句法树。
这能够帮助系统更好地理解问题的结构和层次关系,有助于问题的进一步处理与答案的生成。
三、自然语言处理技术在答案生成中的应用1. 句子建模和语义理解句子建模技术旨在对输入的问题进行语义建模,将其转化为计算机可以理解的形式。
语义理解技术则可以帮助系统更好地理解问题的意图和需求,准确抽取问题中的关键信息。
2. 文本表示与语义匹配在找到问题的关键信息后,系统需要在大量知识库中搜索和匹配相关的答案信息。
文本表示技术能够将问题和知识库中的文本进行向量表示,从而实现问题与答案之间的语义匹配。
3. 答案生成与排名通过对问题的理解和答案信息的检索,系统需要根据问题和候选答案的匹配程度生成最佳答案并进行排名。
自然语言处理技术研究综述在当今信息爆炸的时代,人们日常生活中产生的大量文本数据需要被处理和理解。
自然语言处理(Natural Language Processing, NLP)技术的兴起,为人们处理和分析海量文本数据提供了有力的工具。
本文将综述自然语言处理技术的研究进展,包括其基本概念与应用领域、研究方法与实践案例、现有挑战与未来发展方向等内容。
自然语言处理是计算机科学与人工智能领域中的一个重要研究方向,旨在让计算机能够理解、处理和生成人类语言。
NLP技术涵盖了词法分析、句法分析、语义分析、文本分类、机器翻译、问答系统等多个子领域。
通过NLP技术,人们可以实现机器翻译、智能客服、信息抽取、情感分析等应用。
在自然语言处理技术的研究中,常用的方法包括统计学方法和基于规则的方法。
统计学方法依赖于大规模语料库的训练和统计分析,通过机器学习算法来构建模型和进行预测。
而基于规则的方法则是通过定义和应用语法规则和语义规则来处理文本。
近年来,随着深度学习的发展,基于神经网络的方法在自然语言处理中取得了很大的突破,特别是在机器翻译和文本生成等任务中。
在实践中,自然语言处理技术已经被广泛应用于各个领域。
在信息检索领域,NLP技术可以通过分析用户查询和文档内容,提供准确的搜索结果。
在情感分析领域,NLP技术可以自动识别文本中的情感倾向,帮助企业了解消费者的反馈和意见。
在机器翻译领域,NLP技术可以将一种语言的文本自动翻译成另一种语言,方便人们跨越语言障碍进行交流。
然而,自然语言处理技术仍面临一些挑战。
首先是语言的多样性和复杂性。
不同的语言拥有不同的语法规则和语义表达方式,因此需要建立多语种的模型来处理不同语言的文本。
其次是语境的理解和推理问题。
同样的词语在不同的语境下可能具有不同的含义,因此NLP技术需要具备上下文理解和推理的能力。
此外,大规模数据的处理和模型的效率也是当前研究的难题。
未来,自然语言处理技术有望在多个方面取得进一步的突破。
论智能问答系统的自然语言处理与语义学习智能问答系统的自然语言处理与语义学习随着人工智能技术的发展,智能问答系统越来越广泛地应用于社交平台、搜索引擎、智能客服等领域。
智能问答系统作为人与机器之间交流的桥梁,其核心之一就是自然语言处理和语义学习。
本文将从自然语言处理的概念、技术和应用以及语义学习的概念、模型和算法等方面,来探讨智能问答系统的发展和应用。
自然语言处理自然语言处理(NLP)是人工智能领域的一个分支,是指使计算机能够理解、解释、操纵人类语言的技术与方法。
NLP主要包括文本预处理、语言识别、词法分析、语法分析、语义分析、文本生成、作文评估等技术。
其中,语言识别是自然语言处理的基础,是将一些数字信号转换成字符串格式,用于计算机进一步处理。
而词法分析、语法分析和语义分析是将自然语言转化为计算机能够处理的形式,从而实现自然语言的理解和表达。
在智能问答系统中,NLP技术主要应用于文本预处理、问句分析和答案生成等方面。
其中,文本预处理主要包括去除噪声、分词、词性标注、命名实体识别、关键字提取等任务,目的是为后续处理提供干净、有效的数据。
问句分析是将用户提出的问题进行分析,包括问题类型识别、意图理解、实体抽取、问题分类、问题转换等,最后将问题转化为计算机可处理的形式。
答案生成主要是根据用户提出的问题和相关知识库,生成对应的答案,包括基于规则大陆和基于机器学习两种方式。
语义学习语义学习(Semantic Learning)是一种机器学习技术,是通过对语义信息进行分析,从而实现对语言内容的理解和表达的方法。
语义学习包括语言交互、语言模型建立、语义理解、知识表示和推理等方面。
其中,语言交互主要考虑如何在语言的基础上进行交互,达到转化用户语言思维成为机器语言的目的。
语言模型建立则是将自然语言转换成一个统计模型,使得计算机能够对它进行定量计算和统计分析。
语义理解是指将自然语言语义信息转化为逻辑关系,以便于计算机处理。
利用自然语言处理技术实现智能问答系统一、简介随着计算机技术的发展,智能问答系统越来越受到人们的关注。
在这类系统中,用户可以用自己的语言或文字提问,系统则根据自然语言处理技术对问题进行分析、理解,并给出相应的答案。
这种交互方式使得用户的使用体验更加友好和自然,也使得智能问答系统成为人工智能领域的重要研究方向之一。
本文将介绍利用自然语言处理技术实现智能问答系统的相关技术和方法,包括语言理解、信息检索、知识表示和推理等方面。
我们将着重介绍这些技术是如何共同作用,形成一个完整的智能问答系统。
二、语言理解语言理解是智能问答系统的基础。
在该过程中,系统需要对用户提出的自然语言问题进行分析和理解,以便决定如何回答问题。
对于自然语言,计算机首先需要将其转换为一种计算机可以处理的形式。
这一过程一般可以分为以下几个步骤:1.分词——将文本分成词语2.句法分析——确定词语之间的语法关系3.语义分析——理解句子的意思并转化为计算机可以处理的形式4.命名实体识别——确定有意义的词汇,如人名、地名、组织机构等其中,语义分析是最关键的一步。
在该过程中,系统需要理解用户提出的问题,并将其转换为一些可以与数据库中的数据进行比较和匹配的形式。
为了实现这一目标,自然语言处理技术借鉴了人工智能领域的一些技术,如机器学习、深度学习、知识图谱等。
三、信息检索在实际应用中,智能问答系统还需要借助信息检索技术进行数据的查找和匹配。
经过语义分析后,系统可以得到用户提出的问题的意思。
然后,系统需要去搜索其数据库中的信息,以回答用户的问题。
此处涉及到的信息检索技术主要包括以下两个方面:1.索引技术——将信息以一定方式进行编码,以便计算机可以快速搜索和匹配2.相关性分数计算——根据信息的相关性,来决定信息匹配的优先程度,以提高搜索结果的准确性在实现这些技术时,还需要考虑语言的多义性、歧义性和语法上的规范性,以增强系统的鲁棒性和准确性。
四、知识表示知识表示是智能问答系统中用于存储和组织数据的机制。
自然语言处理技术在知识问答系统中的应用研究自然语言处理是人工智能领域中的一个重要分支,它致力于让计算机能够像人类一样理解和使用自然语言。
自然语言处理技术的应用非常广泛,其中之一就是知识问答系统。
知识问答系统是一种能够直接回答用户的问题的人工智能系统,它的核心在于理解用户提出的问题,并从海量的知识库中找到最佳答案。
本文将探讨自然语言处理技术在知识问答系统中的应用研究。
一、自然语言理解自然语言理解是知识问答系统中最核心的技术之一。
它涉及到自然语言的语法、语义等多个层面。
自然语言理解的基本任务之一是识别用户问题所包含的意图。
比如,当用户提出一个问题“北京的天气怎么样?”时,系统应当能够理解用户的意图是询问北京当前的天气情况。
在实现这个任务的过程中,自然语言处理技术需要应用到自然语言分词、词性标注、实体识别、依存句法分析等多个技术领域。
二、知识表示知识表示是知识问答系统实现问题回答的关键所在。
在知识问答系统中,大量的知识库被构建和维护,每一个知识点都需要被准确地表示出来。
自然语言处理技术可以将自然语言转换为机器可读的知识表示形式,从而帮助知识问答系统理解问题和找到最佳答案。
在实现知识转换的过程中,自然语言处理技术需要应用到语义角色标注、文本情感分析、文本聚类、文本摘要等多个技术领域。
三、答案选择答案选择是知识问答系统实现提取最佳答案的关键所在。
在知识库中,同一个问题可能存在多种不同的答案,系统需要选择最佳答案并进行呈现。
自然语言处理技术可以应用到答案推断、答案评估、答案排序等多个环节,从而帮助系统选择最佳答案。
在实现答案选择的过程中,自然语言处理技术需要应用到实体链接、同义词识别、谓词逻辑分析等多个技术领域。
四、技术挑战在实现知识问答系统的过程中,自然语言处理技术面临着众多的技术挑战。
其中一个主要的挑战是语义理解。
自然语言是一种十分复杂的语言形式,其中经常存在歧义、省略、错别字等问题。
如何解决这些问题,是自然语言处理技术需要解决的问题。
自然语言理解综述
自然语言理解(Natural Language Understanding)是人工智能
领域中,研究如何使计算机能够理解和处理自然语言的一项重要任务。
它涉及以人类语言为输入,并将其转换为机器可理解的形式,以便进
行进一步的处理和分析。
自然语言理解的目标是使计算机能够理解和解释人类语言的含义,包括语法、词义、语义和上下文等方面。
这种理解能力使计算机能够
根据用户的指令或问题,准确理解其意图并做出相关响应。
自然语言理解涉及各种技术和方法,包括文本分析、句法分析、
语义分析、语义角色标注、语义关系抽取等。
这些技术通过模型训练
和算法优化,使计算机能够根据上下文和语义规则对文本进行解析和
理解。
自然语言理解在许多应用领域中起着重要的作用,例如智能助理、机器翻译、智能客服、信息检索等。
通过自然语言理解,计算机能够
处理人类语言,并从中获取信息,为用户提供更好的服务和支持。
尽管自然语言理解在过去几十年中取得了显著的进展,但其挑战
仍然存在。
由于自然语言的复杂性和多义性,理解自然语言仍然是一
个非常困难的问题。
因此,研究人员一直在努力改进自然语言理解的
精度和效率,并开展更深入的研究,以应对更复杂的语言环境。
总而言之,自然语言理解是一项富有挑战性又具有广泛应用前景
的研究领域。
随着人工智能的发展,我们可以期待自然语言理解在各
个领域中发挥越来越重要的作用。
自然语言理解综述摘要:一、自然语言理解的定义与重要性二、自然语言理解的发展历程三、自然语言理解的应用领域四、自然语言理解的挑战与未来发展正文:一、自然语言理解的定义与重要性自然语言理解(Natural Language Understanding,NLU)是人工智能领域的一个重要分支,主要研究如何让计算机理解和处理人类自然语言。
自然语言理解是自然语言处理(Natural Language Processing,NLP)的关键技术之一,对于实现人机交互、智能客服、情感分析、知识图谱等应用具有重要意义。
二、自然语言理解的发展历程自然语言理解的发展历程可以分为以下几个阶段:1.规则制定时期(1950s-1970s):这一阶段主要通过人工制定规则,让计算机识别和处理有限的语言表达。
2.统计学习时期(1980s-2000s):随着计算机性能的提升和大数据时代的到来,统计学习方法逐渐成为主流,如隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)等。
3.深度学习时期(2000s-至今):随着深度学习技术的发展,特别是神经网络模型的应用,自然语言理解取得了重大突破,如循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short-Term Memory,LSTM)和Transformer 等模型。
三、自然语言理解的应用领域自然语言理解技术在多个领域发挥着重要作用,如:1.智能语音助手:如苹果的Siri、谷歌的Google Assistant 和亚马逊的Alexa 等,它们可以理解用户的语音指令,提供相应的服务。
2.情感分析:通过分析用户评论、社交媒体内容等,企业可以了解用户对产品或服务的满意度,以便及时改进。
3.智能客服:自然语言理解技术可以帮助计算机理解用户的问题,提供精准的答案,提高客服效率。
第44卷第8期 2017年8月 计算机科学
COMPUTER SCIENCE Vo1.44 No.8
Aug.2017
面向限定领域问答系统的自然语言理解方法综述 王东升 王卫民 王石。 符建辉。 诸峰 (江苏科技大学计算机科学与工程学院 镇江212003) (Agz ̄大学WIC研究院 北京100022)2 (中国科学院计算技术研究所智能信息处理重点实验室 北京100190)s
摘要领域无关的自然语言理解(NLU)技术在最近的十年中取得了长足的进步,然而由于基础研究与现实应用之 间存在着强烈的实际需求与当前处理能力不足的矛盾,因此很多通用技术还不能在现实的问答系统中得到有效使用。 针对现有的需求,开发面向领域的自然语言理解技术显得非常必要。首先对开放领域与限定领域问答系统进行了比 较,并对一些典型的面向限定领域问答系统的自然语言理解技术进行了分析,然后介绍了面向限定领域问答系统的自 然语言理解技术的评测标准,最后总结了目前限定领域问答系统研究存在的主要问题及未来发展方向。 关键词 限定领域,问答系统,自然语言理解,评测 中图法分类号TP391 文献标识码A DOI 10.11896/j.issn.1002—137X.2017.08.001
Research on Domain-specific Question Answering System Oriented Natural Language Understanding:A Survey WANG Dong-sheng ’ WANG Wei-min WANG Shi。FU Jian-hui。ZHU Feng (School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang 212003,China) (International WIC Institute,Beijing University of Technology,Beijing 100022。China)。 (Key Laboratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China)3
Abstract Natural language understanding(NLU)in the last decade has made considerable progress in the line of do— main-independent research.Such research is very important,but the gap between research results and real—world appli— cations is large,and the strong realistic demand is in contradiction with the current processing capacity of the NLU corn— munity,which makes the development of domain-specific NLU technologies very necessary.We firstly compared open domain and domain specific question answering(QA)system.Then some typical natural language understanding tech— nologies used in restricted domain question answering system were detailedly analyzed.The evaluation standard of the natural language understanding technology for domain-specific question answering system was introduced.At last,main problems and the future development of domain specific QA system were summarized. Keywords Domain-specific,Question answering system,NLU,Evaluation
1 引言 自动问答通常被定义为这样一种任务:用户将以自然语 言表述的问题提交到一个系统中,系统自动理解用户问题并 产生答案。问答系统的典型应用场景为:用户想知道某事或 某物的信息,但由于没有时间或者不愿意从大量的电子文档 中查找相关的信息,则可以通过自然语言表述的信息诉求,直 接从自动问答系统中精确、快速地得到问题的答案。 自问答系统提出以来,研究人员分别从人工智能(AI)和 信息检索(IR)两个角度开展了大量的研究工作。在人工智能 的早期发展阶段,问答系统主要是以各类机器可读的知识库 作为信息源,来回答用户提出的自然语言问题。这类系统通 常只能够回答答案已知的提问(即问题的答案作为一条知识 存储于知识库中)。这类方法的优点是,对于所应用的领域, 通常事先构造了领域模型,如领域本体或数据库模式等,从而 可以使用各种复杂的定理证明、推理等技术来满足用户复杂 的信息诉求。而自从1999年TREC举办了首届自动问答竞 赛(QA TRACK)以来,越来越多的研究人员开始从信息检索 (IR)角度开展问答系统的研究工作。参加TREC竞赛的各 类系统的性能每年都有较大幅度的提升(这类评测竞赛还包 括CLEF以及NTCIR等)。这类系统主要关注于怎样从海量 的电子文档中找到包含问题答案的文本片断,并从文本片断
到稿日期:2016—11—22返修日期:2017-02—06 本文受国家自然科学基金重点国际(地区)合作研究项目:海量语义数据处理关键技术研究 (6142O1O6005),国家自然科学基金面上项目:面向Web文本的因果知识获取方法研究(61173063),北京市博士后基金:面向语义大数据的交通 路牌智能管理关键方法研究研究(2O15ZZ-25),北京市朝阳区博士后基金:面向领域自然语言理解的带约束语义文法研究(2015ZZ-l1),江苏 科技大学博士启动基金:面向领域的自然语言理解研究资助。 王东升(1982一),男,博士,讲师,主要研究方向为问答系统、自然语言处理,E-mail:wds—ict@163.com;王卫民(1977一),男,博士,讲师,主要 研究方向为自然语言处理,E-mail:wangweimin@gmail.corn;王石(1980一),男,博士,助理研究员,主要研究方向为知识工程、文本处理。 2 计算机科学 2017正 中抽取答案。参加各种评测竞赛的开放域问答系统一般比较 容易评测,其使用的方法也与领域无关,通常只对问句做浅层 次的分析。 这两类系统一直并行发展,但各有优缺点。其中,基于结 构化知识的问答系统适合于知识易于被形式化并且用户的提 问通常需要经过各种复杂处理后方能得到答案的领域,一般 只能处理与限定领域相关的问题,而对于非领域相关的问题 通常不能作答。这类系统包括基于自然语言接口的数据库查 询系统、自然语言界面的专家系统或知识库查询系统、基于 FAQ的问答系统等。而兴起于TREC,CLEF以及NTCIR 的基于信息检索的问答技术的应用领域较广,适合于用户提 问为简单的事实型问句的领域,这类系统包括各种基于Web 的问答系统,如AskJeeves,START等。其中,IBM Watson 系统l60]是近年来开放领域问答系统发展水平的典型代表,该 系统综合利用了自然语言处理、信息检索、知识表示、自动推 理、机器学习等开放式问答技术,其知识源包括非结构化的 Web网页以及结构化的知识库,如DBpedia,YAGO等[3]。 面向限定领域的问答系统是问答系统的一个重要分支。 其与开放域问答系统的主要不同点在于:限定领域的问答系 统可以借助很多领域相关资源,极大地提高了系统的可用性 及实用性。在目前开放域问答系统取得长足进步的同时,发 展面向限定领域的问答系统是十分必要的,其原因有:1)限定 领域的问答系统能为深层次的自然语言处理、人工智能等技 术提供试验场。由于目前的开放域问答系统主要处理一些较 简单的问题类型,主要使用信息检索、信息抽取等技术,而在 限定领域中,研究人员可以关注处理复杂问题的一般理论和 方法,如规划、推理等,随着这些理论的不断成熟,可逐步扩展 到开放领域中。2)限定领域的问答系统可以为专业人员提供 更好的人机接口。开放域的问答系统通常针对普通用户,其 接受的查询语句多使用日常用语进行表达,系统反馈的答案 也相对较简单,如关于某人或某物的介绍性信息等;而限定领 域的问答系统则更多地面向熟悉此领域的用户,如领域专家, 他们多使用领域专业术语来构造查询语句,且问题一般较复 杂,其对系统反馈的答案的要求也较高,而这通常需要建立在 深层次理解用户查询语句的基础上才能做到。但是,目前面 向限定领域的问答技术还不是很成熟(虽然在某些很小的限 定领域中问答系统已接近实用),还没有形成普适的理论和 方法。 本文主要回顾面向限定领域的问答系统的研究历史,总 结其中所使用到的自然语言理解方法的研究现状,而面向开 放域的基于信息检索技术的问答系统及其相关技术的最新进 展可参考TREC的相关论文集。 2早期工作 LUNAR和BASEBAI L是两个较早的领域相关问答系 统,其中,LUNAR可回答关于阿波罗发射过程中岩石样本分 析的一些问题_1~,BASEBAI L可回答某一个赛季中棒球比赛 的一些相关问题 j。这两个系统都是基于自然语言接口的数 据库查询系统,即关于特定主题的答案都存放在一个数据库 中。系统首先将用户的问题转化成数据库的查询语句,再将 查询结果作为答案返回给用户。 面向特定领域的人机口语对话系统是基于自然语言接口 的数据库查询系统的另一个重要分支,这类系统面临的主要 挑战是口语的不规范性。白20世纪8O年代中后期以来,随 着语音识别技术和自然语言处理技术的快速发展,世界各国 的学术界和企业界都对人机对话系统给予了极大的关注。这 些系统及项目包括美国的DARPA项目、欧洲的SUNDIAI 项目以及SUNSTAR计划 ]。还有一大批在很多领域中的 实际应用也推动了面向领域的人机对话系统的发展,包括飞 机旅行查询、火车信息查询、餐馆导航、渡船时间查询、天气查 询、电子汽车分类广告等 ]。 在2O世纪7O和80年代,很多研究人员热衷于计算语言 学的研究,这也推动了问答系统在一些更为复杂领域的应用, 问答系统作为一个应用框架来验证计算语言学的研究成果。 Berkeley大学的Unix Consultant(UC)系统可以回答一些关 于Unix操作系统的问题,其通过将自动规划、推理、自然语言 处理以及知识表示等理论相结合,对用户问题进行分析,并生 成问句的形式化的意义表示,然后通过查询用户模型,并用目 标分析技术猜测用户的信息查询需求[6]。国内也研制出了很 多相关系统,如RcHIQI ,NCHIQI ,NI CQI等l7],它们所使 用的是类似于语法和模板的技术,由于查询的对象是数据库, 因此大部分系统都充分利用了ER模型。 面向领域的基于自然语言界面的专家系统或知识厍系统 则多从传统的人工智能角度来构建问答系统。早期的专家系 统包括Feigenbaum等人于1968年在斯坦福大学建成的 DENDRAI 、MIT大学开发的数学符号运算专家系统MAC— SYMA以及肺功能测试专家系统PUFF等。由于专家系统 的知识库通常是形式化的,这类系统通常会先将用户的查询 语句转化为某种逻辑表示,再利用“合一”等逻辑推理技术从 知识库中推理得到答案。国内相关系统包括陆汝钤院士主持 开发的“Pangu”人机对话系统以及由曹存根研究员建立于 NKI(国家知识基础设施)海量知识库基础上的NKI问答系 统等。