基于知识的智能问答技术
- 格式:doc
- 大小:98.43 KB
- 文档页数:11
134 •电子技术与软件工程 Electronic Technology & Software Engineering计算机技术应用• the Application of Computer Technology【关键词】知识图谱 智能问答 中医药1 引言在现有的自然语言处理技术、知识图谱构建相关研究的基础上,结合各种方式的优势,同时利用尽可能丰富的数据源,专门针对中医基于中医药知识图谱的智能问答与用药推荐系统文/郑懿鸣 翟洁 胡晓龙 施轶劼 刘浩药的查询提出了较为适合的用于本系统的句式分析规则;同时,提供了知识图谱与知识卡片相结合的方式更清晰地展示一种中药实体的具体信息。
将知识图谱与知识卡片相结合,用户既可以阅读文字以获取详细解释,又可以通过视觉的图形来感知知识本体之间的相关性。
文字与图形相辅相成,丰富了系统内涵,使得系统为用户提供的资源不再单调,提高了系统的感知性。
2 总体设计2.1 设计重点2.1.1 中医药知识库的构建本系统采用自顶向下的策略,依次经过模式图定义、知识抽取、知识融合三个步骤完成基础知识库的构建。
模式图包含知识库拥有的概念、概念的属性,以及概念之间的层次关系。
知识抽取主要包括现有医学文献、医疗健康网站、中医药百科站点的知识抽取中医药相关的实体、实体类型、同义词关系和“属性-值”关系。
知识库的模式图常用中医药知识库主要包括中药材、中医证候、中医疾病等上层概念及概念的属性,构建模式图。
基于双向LSTM-CRF 模型的中医药实体识别方法。
常用中医药知识库构建中,需要从专业中医药文献文本中识别药品相关实体。
采用基于特征模板的方法,利用大规模语料学习出标注模型,进而对语句进行标注,特征模板通常是人工定义的一些二值特征函数,挖掘命名实体内部以及上下文的构成特点。
采用基于双向LSTM-CRF 模型的中文实体识别方法来识别专业医学典籍文档中的中医药等实体。
与传统LSTM 不同,双向LSTM 同时考虑了过去的特征和未来的特征,结果更具准确性。
人工智能智能问答技术的工作原理人工智能智能问答技术是一种基于自然语言处理和文本挖掘技术的智能应用,旨在帮助用户解决相关问题,并提供有效的搜索引擎。
其工作原理主要分为以下三个步骤:第一步,用户提问用户在问题框中输入问题,这样的问题通常是自然语言的形式。
在此过程中,人工智能应用需要对输入文字进行语义解析,将人类自然语言所描述的含义转换为机器可以理解的表示形式。
这就需要对自然语言进行分析、语法解析和词库匹配,提取出问题的实质信息和上下文关联信息,去除无用词汇和歧义语句等,预处理输入问题所包含的信息。
例如,用户输入的问题是“明天北京天气怎么样?”这个问题需要进行语义解析,去除无用词汇和歧义语句后,得到实质信息“明天天气”、“北京”,然后与词库中“天气”、“北京”相关的知识库进行匹配,得到相关的答案。
第二步,问题匹配在此过程中,人工智能应用会对匹配到的问题进行处理,找到与之相关的知识库、数据库或其他相关知识源。
这部分包括以下三个主要步骤:1. 数据挖掘人工智能应用通过挖掘各种知识源获取相关信息,包括网络上的文档、新闻、社交网络、维基百科、知识图谱、数据库、API接口等,从而获取目标问题相关的数据信息。
2. 信息提取在数据挖掘后,需要对相关信息进行提取,提取出与问题相关的文本信息。
例如,在上述问题中,可以从一个来自天气预报的数据源中提取出“北京昼夜温差大,预计明天日间气温15℃,夜间气温5℃,多云转晴”的信息,这就是可以被人工智能应用处理的相关信息。
3. 数据关联人工智能应用会按照预处理的规则将输入问题和知识库中的相关信息进行关联,根据各种规则、专业术语和业务逻辑,找出与问题相关的答案。
例如,在上述问题中,人工智能应用可以通过关联词“明天”、“天气”、“北京”与天气预报数据源中的相关数据进行关联,找到答案“明天北京的气温比较凉爽,多云转晴的天气。
”第三步,答案生成在第二步完成后,人工智能应用将回答直接返回给用户。
基于知识库的智能客服机器人问答系统设计知识库是用于相关领域知识的采集、整理及提取的特殊数据库。
知识库中的知识来源于相关领域的专家,是求解问题所需领域知识的集合,包括基本事实、规则和其他相关信息。
知识库最早被应用于专家系统,它是一种基于知识的系统,包含表示客观世界事实的一系列知识及一个推理机,并依赖一定的规则和逻辑形式推理出一些新的事实。
在汉斯出版社《计算机科学与应用》期刊中,有论文首先对智能客服机器人现状进行分析,总结了基于任务处理模式的信息检索、数据库查询、问答系统特点,并对基于Web信息检索的问答系统、基于知识库的问答系统和社区问答系统进行对比;而后,对知识库问答系统的知识库管理、关系架构进行分解,提出了具体的学习过程和实现框架;最后,结合天气查询应用场景进行仿真。
问答系统通过Web搜索或知识库链接等方式,对用户问题进行自然语言理解和检索、潜在答案对比推荐,并用准确、简洁的自然语言进行回复。
作为信息检索系统的高级方式,问答系统跟接近信息检索中的语义检索,并在信息检索推荐结果基础上进行二次分析,给出精准答案,并通过指代消解和内容补全处理后展现给用户。
问答系统针对特定领域的知识进行一问一答,侧重于知识结构构建、知识融合和知识推理。
具体实现过程中,由自然语言理解模块进行查询信息词的提取(时间、地点、查询意图词),并将提查询信息词输入天气知识图谱。
并通过本体映射将用户自然语言与天气知识图谱标准定义相配套。
天气知识图谱会根据用户的意图,发送一个查询天气请求(query_Request),并将查询响应(query_Response)返回给天气知识图谱;天气知识图谱将意图所需天气信息及意图对应的规则输出给自然语言生成模块,由自然语言生成模块生产候选答案并排序后,反馈给用户。
查询输入有4个,分别是问句信息词(info_Word)和用户意图(user_lntent)、外部天气数据(weather_lnterface)、天气知识图谱(weather_KG)。
基于人工智能的智能问答系统设计与实现1. 智能问答系统的背景和意义智能问答系统是一种基于人工智能技术的应用,旨在通过自动回答用户提出的问题,提供准确、及时、个性化的信息服务。
随着信息技术和互联网的快速发展,人们对于获取知识和解决问题的需求也越来越迫切。
传统搜索引擎虽然可以提供大量信息,但用户需要自行筛选和整理,效率较低。
而智能问答系统通过结合自然语言处理、知识图谱、机器学习等技术,可以更好地理解用户问题并给出准确的回答,大大提高了信息获取效率。
2. 智能问答系统的基本原理智能问答系统主要包括问题理解、知识表示与存储、知识推理与匹配以及回答生成等模块。
在问题理解模块中,系统通过自然语言处理技术对用户提出的问题进行分析,并进行意图识别和实体抽取等操作。
在知识表示与存储模块中,系统需要构建一个庞大而丰富的知识图谱,并将各类实体和关系进行结构化表示和存储。
在知识推理与匹配模块中,系统通过匹配用户问题与知识图谱中的信息,进行推理和匹配,找到与问题相关的知识。
最后,在回答生成模块中,系统将找到的知识进行整合和生成回答,并通过自然语言生成技术将回答转化为自然语言形式输出给用户。
3. 智能问答系统的关键技术为了实现高效准确的问答服务,智能问答系统需要依赖一系列关键技术。
首先是自然语言处理技术,在问题理解模块中起到了至关重要的作用。
自然语言处理技术可以将用户提出的问题转化为计算机可以理解和处理的形式,并进行意图识别、实体抽取、句法分析等操作。
其次是知识图谱技术,智能问答系统需要构建一个庞大丰富且准确可靠的知识图谱来支持问题回答。
知识图谱可以将各类实体和关系进行结构化表示,并提供高效查询和推理功能。
另外,机器学习技术也是智能问答系统中不可或缺的一部分。
通过机器学习算法可以对大量数据进行训练和学习,提高系统对于问题理解、知识匹配和回答生成等任务的准确性和效率。
4. 智能问答系统的应用场景智能问答系统在多个领域都有广泛的应用。
知识图谱在智能问答系统中的应用与推理能力提升摘要:智能问答系统(QA)作为人工智能领域的重要研究方向,旨在模拟人类的理解和推理能力,从文本中获取信息并回答用户的问题。
近年来,知识图谱(KG)作为一种结构化的知识表示方式,为智能问答系统提供了丰富的语义信息和推理能力,极大地推动了问答系统的性能提升。
本文将详细介绍知识图谱在智能问答系统中的应用,包括知识图谱的构建、知识图谱的查询、基于知识图谱的语义理解和推理,以及知识图谱在不同类型问答系统中的应用。
此外,本文还将探讨知识图谱如何提升智能问答系统的推理能力,并展望知识图谱在未来智能问答系统发展中的作用。
关键词:智能问答系统,知识图谱,语义理解,推理,应用1. 绪论1.1 智能问答系统的研究背景与意义智能问答系统 (QA) 是模拟人类理解和推理能力,从文本中获取信息并回答用户问题的系统。
近年来,随着人工智能技术的快速发展,智能问答系统在各个领域展现出巨大的应用潜力,例如:*信息检索与搜索:提升搜索引擎的效率和准确性,提供更加精准的答案。
*客户服务与客服:通过智能问答系统,自动化解决用户常见问题,提升服务效率。
*教育与教学:提供个性化的学习指导和辅助学习,提高学习效率。
*医疗与健康:协助医生诊断疾病,提供医疗建议,提高诊断效率和治疗效果。
1.2 知识图谱在智能问答系统中的应用价值传统问答系统主要依赖于统计语言模型和机器学习技术,难以理解复杂语义和进行深层推理。
而知识图谱作为一种结构化的知识表示方式,以实体和关系的形式存储世界知识,能够有效解决传统问答系统面临的挑战。
知识图谱在智能问答系统中的应用价值主要体现在以下几个方面:*提供丰富的语义信息:知识图谱包含大量的实体和关系,可以为问答系统提供丰富的语义信息,提高对问题的理解能力。
*增强推理能力:知识图谱可以进行逻辑推理,通过已知实体和关系推断出新的信息,解决复杂问题。
*提高答案的准确性和可解释性:知识图谱可以为答案提供可靠的来源和证据,提高答案的准确性和可解释性。
使用AI技术进行智能问答与知识图谱构建一、智能问答系统智能问答系统(Intelligent Question Answering, IQA)是一种基于人工智能技术的应用,旨在帮助用户快速准确地获取信息。
由于互联网上储存了大量的知识和数据,使用传统搜索引擎往往返回大量无关或重复的结果,给用户带来困扰。
而智能问答系统能够根据用户提供的问题进行语义理解和自动推理,并给出精确的回答或相关信息。
1.1 语义理解与自动回答实现智能问答系统首先需要进行语义理解,即将用户提出的问题转化为机器可以理解的形式。
常见的方法包括文本处理、词向量模型以及自然语言处理技术等。
通过对问题的分析和归纳,系统可以确定问题类型,并为后续步骤做好准备。
在获得了经过语义理解之后的问题后,接下来系统需要根据知识库或网络上的资源进行信息检索和推断,以获取与问题相关的答案和信息。
这就需要构建一个强大且可靠的知识图谱。
二、知识图谱构建知识图谱(Knowledge Graph)是一个结构化、链接和丰富的知识数据库,它抽象了现实世界中各种实体和关系之间的关联性。
通过将不同领域的知识与概念进行链接,构建了一个大规模的、多维度的知识网络。
因此,在智能问答系统中,构建一个精确而全面的知识图谱是非常重要的。
2.1 知识图谱构建过程知识图谱构建分为三个主要步骤:数据收集、知识抽取和关系建立。
* 数据收集:首先需要从可靠并且权威的数据源收集相关数据。
这些数据源可以是结构化、半结构化或者非结构化的信息,包括但不限于网页、语料库、数据库等。
* 知识抽取:在获取到原始数据后,需要使用信息抽取技术对其中的有用信息进行提取。
这可能涉及到实体提取、属性抽取及关系提取等任务。
* 关系建立:在得到抽取出来的实体、属性和关系之后,需要根据其内在联系,通过链接相应关联信息来构建一个完整而准确的知识图谱。
2.2 AI技术在知识图谱构建中的应用在传统的知识图谱构建中,大量的人工参与是不可避免的。
AI智能问答是什么原理AI智能问答系统是一种基于人工智能技术的应用,旨在通过模拟人类思维和推理的能力,为用户提供准确、及时的问题解答和信息查询。
其背后涉及到多种技术和原理,包括自然语言处理、机器学习以及知识图谱等。
本文将从不同角度介绍AI智能问答系统的原理。
一、自然语言处理自然语言处理(Natural Language Processing,简称NLP)是AI智能问答系统中最基础的技术之一。
它涉及到对人类语言的理解和处理,包括词法分析、句法分析、语义理解等。
通过NLP技术,AI智能问答系统能够将用户提出的问题转化为机器能够理解和处理的形式,使得系统能够准确地抽取出问题的关键信息,并进行下一步的处理。
二、机器学习机器学习在AI智能问答系统中起到了至关重要的作用。
通过机器学习算法,系统可以从大量的问题和答案数据中学习到问题与答案之间的联系和规律,进而能够准确地预测和生成相应的答案。
在训练过程中,系统会对问题和答案进行特征提取,并通过模型反复优化,从而提高问答系统的准确性和性能。
三、知识图谱知识图谱是AI智能问答系统中的重要组成部分,它描述了现实世界中的实体及其之间的关系。
知识图谱通常使用图的形式来表示,由节点和边构成,每个节点代表一个实体,每条边代表实体之间的关系。
通过构建和维护知识图谱,系统可以通过查找和推理等方式来获取问题的答案,并提供给用户。
四、意图识别与推理AI智能问答系统需要具备识别用户意图的能力,以便准确理解用户的问题并给予相应的回答。
意图识别技术基于内容分析和语义推理,通过对问题进行细致的解析和分类,确定用户的真实意图,并据此生成相应的回答。
意图推理算法利用问题中的上下文信息,结合知识图谱等数据源进行推理,提高系统对问题的回答准确度和适应性。
五、实时学习与反馈AI智能问答系统具备实时学习和反馈的能力,通过分析用户的回答和行为数据,对系统进行实时的反馈和调整,从而不断提高系统的问答能力。
AI智能问答是什么原理随着人工智能(Artificial Intelligence,简称AI)的迅速发展,智能问答系统也逐渐成为现实生活中的一部分。
无论是在语音助手中寻求帮助,还是在在线知识库中寻求解答,AI智能问答系统正逐渐展现其无限的潜力。
那么,AI智能问答是基于什么原理实现的呢?本文将就此进行深入探讨。
一、定义AI智能问答系统是指通过计算机技术和自然语言处理(Natural Language Processing,简称NLP)技术,使机器能够理解人类提出的问题,并给出准确、合理的答案。
其核心任务是对问题进行理解、知识检索与推理,并将最佳答案呈现给用户。
二、原理AI智能问答系统的实现主要基于以下几个关键原理。
1. 自然语言处理(NLP)自然语言处理是AI智能问答系统不可或缺的关键技术。
它通过对文本信息的分析与处理,实现对自然语言的理解与识别。
在AI智能问答系统中,NLP技术用于将用户的问题进行语义解析,以便机器能够理解问题的含义,从而能够更好地对问题进行回答。
2. 知识图谱AI智能问答系统依赖于庞大的知识库,而知识图谱则是其中重要的组成部分。
知识图谱是一种将知识以图形结构进行表示的方式,其中包含了各种实体、属性和关系。
通过将问题与知识图谱进行匹配,系统能够从中获取相关的知识,并生成答案。
3. 信息检索AI智能问答系统在回答问题时,通常需要从庞大的文本数据中检索答案。
信息检索技术则能帮助系统有效地从大规模文本中获取相关信息。
常用的信息检索方法包括倒排索引、向量空间模型等,通过这些技术,系统能够高效地检索与问题相关的文本信息。
4. 推理与逻辑AI智能问答系统在理解问题后,通常需要进行推理与逻辑判断,以便生成准确的答案。
推理与逻辑模型可以帮助系统在问题求解中进行逻辑分析、推导和演绎,进而生成严谨的答案。
这些模型可以包括规则推理、先验知识推理等。
三、实现过程AI智能问答系统的实现通常经过以下几个步骤。
智能问答系统一、介绍1.1 系统背景智能问答系统是一种基于技术的应用,旨在模拟人类智能,能够理解和回答用户提出的问题。
通过自然语言处理、机器学习和知识图谱等技术的支持,智能问答系统能够从海量的数据中提取有用的信息,为用户提供准确、快速的答案。
1.2 系统目标本智能问答系统的目标是实现以下功能: - 能够理解用户提出的自然语言问题;- 能够在海量的知识库中搜索相关信息,并准确的答案;- 能够与用户进行交互,提供友好的用户界面。
二、系统架构2.1 系统组成智能问答系统由以下组件构成:- 用户界面:提供给用户输入问题的界面,可以是文本输入框、语音输入等;- 自然语言处理模块:负责将用户输入的自然语言问题转化为计算机可理解的形式;- 知识库:存储了大量的结构化和半结构化数据,包括文本、图像、音频等形式的信息;- 问答匹配模块:根据用户提出的问题在知识库中搜索相关信息,并候选答案;- 答案模块:根据候选答案进行排序、过滤,并最终的答案;- 用户交互模块:将最终的答案返回给用户,并提供相关的推荐和补充信息。
2.2 系统流程智能问答系统的工作流程如下:1.用户通过用户界面输入问题;2.自然语言处理模块对问题进行分析和转化;3.问答匹配模块在知识库中搜索相关信息,候选答案;4.答案模块对候选答案进行排序和过滤,最终的答案;5.用户交互模块将答案返回给用户,并提供相关的推荐和补充信息。
三、技术实现3.1 自然语言处理技术自然语言处理技术是智能问答系统的核心技术之一,主要包括以下方面:- 分词:将输入的自然语言文本切分为一个个独立的词语;- 词性标注:对每个词语进行词性的标注,如名词、动词等;- 句法分析:分析句子的句法结构,包括主谓宾等关系;- 语义解析:将句子转化为逻辑形式,进行语义的理解;- 情感分析:分析句子的情感倾向,包括积极、消极等情感。
3.2 知识图谱技术知识图谱是智能问答系统的另一个重要支持技术,通过构建实体-关系-属性的网络结构,将知识进行表示和存储,便于系统对知识的理解和推理。
AI智能问答是什么原理AI智能问答(Artificial Intelligence Question Answering, AI-QA)是一种基于人工智能技术的问答系统,旨在模拟人类的问题解答过程。
其原理主要包括信息获取、自然语言处理、知识表示与推理等多个关键步骤。
信息获取是AI智能问答的首要任务。
它通过网络爬虫、数据抽取等技术手段,从海量文本信息中抓取相关的问答对。
这些问答对可能来源于各种网页、论坛、博客等文本资源,也可以是专门建立的知识图谱、数据库等结构化数据。
自然语言处理(Natural Language Processing, NLP)是AI智能问答中的核心环节。
其目标是将自然语言转换为计算机可以理解和处理的形式。
NLP技术包括词法分析、句法分析、语义理解等多个子任务。
在AI智能问答中,NLP技术主要应用于问题解析和答案生成两个方面。
问题解析是AI智能问答的关键步骤之一。
在这个过程中,系统需要将用户提出的问题进行分析和理解,并提取出问题中的关键信息。
问题解析可以采用基于规则的方法,通过事先定义规则来识别问题类型和关键词。
也可以采用机器学习的方法,通过训练模型来学习问题与答案之间的关系。
答案生成是AI智能问答的另一个核心环节。
在问题解析的基础上,系统需要根据问题的意图和语义,从预先收集到的知识库中检索相关信息,并生成与问题匹配的答案。
答案生成可以采用检索式方法,根据问题关键词在知识库中进行检索。
也可以采用生成式方法,通过模型生成与问题相关的语言表达。
知识表示与推理是AI智能问答中的重要环节。
不同于简单的问题-答案匹配,知识表示与推理能够更好地理解问题和答案之间的逻辑关系。
知识表示可以采用图谱、知识图、本体等形式,将实体和概念之间的关系表示出来。
推理技术可以基于规则、逻辑推理、概率推理等方法,根据问题和知识库中的信息进行推理和推断,提供更准确的答案。
总结来说,AI智能问答的原理包括信息获取、自然语言处理、知识表示与推理等多个环节。
精品 感谢下载载 题目:基于知识的智能问答技术(PDF) 作者:许坤,冯岩松(北京大学) ———————————————————— 作者简介: 许坤,北京大学计算机科学技术研究所博士生,研究方向为基于知识库的智能问答技术,已连续三年在面向结构化知识库的知识问答评测QALD-4, 5, 6中获得第一名。
冯岩松,北京大学计算机科学与技术研究所讲师。2011年毕业于英国爱丁堡大学,获得信息科学博士学位。主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上。作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目。分别在 2014 和 2015 年获得 IBM Faculty Award。
引言 近年来,信息抽取技术的快速发展使得快速构建大规模结构化、半结构化知识库成为可能。一大批结构化知识库如雨后春笋般涌现出来,如Google Knolwedge 精品 感谢下载载 Graph (Freebase)、Yago,DBpedia、微软ProBase、搜狗知立方及百度等企业内部的知识图谱等。
同时,这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中。相比于传统基于文本检索的问答系统,利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案,因此一直受到学术界和工业界的广泛关注。
目前基于知识库的问答技术可以大致分为两类。第一类基于语义解析的方法。这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言,如逻辑表达式等。构建这样的语义解析器需要大量的标注数据,例如,自然语言问题及其对应的语义描述形式。然而,针对Freebase这样大规模的结构化知识库,在实际中很难收集到足够多的高质量训练数据。另外,语义描述形式与知识库的结构之间的不匹配也是这类方法普遍遇到的一个问题,例如,在Freebase中并没有“爸爸”或“妈妈”这样的谓词关系,只有“父母”,因此,如果想表示 “A 是 B的母亲”这样的关系,则需明确表示为“” 并且 “性别, 女性>”。
另一类知识问答技术是传统的基于信息检索的方法。这类方法不会将自然语言问题完全转换成形式化的语义描述,而是首先利用实体链接技术从知识库中收集候选答案集合,然后构建排序模型对候选答案进行排序。因为不需要完整地解析自然语言问题的语义结构,因此,这类方法构造训练数据的过程相对简单,只需收集问题答案对即可。实验表明,基于检索的方法对语义简单的自然语言问题比较有效,但是难以处理语义结构复杂的问题,尤其是包含多个实体和关系的自然语言问题。例如,对于自然语言问题“What mountain is the highest in 精品 感谢下载载 North America?”,检索类的方法由于缺乏对highest的正确解析,通常会
将所有坐落在北美的山脉返回给用户。事实上,为了得到正确的答案,问答系统还需要根据山脉高度对候选答案进行排序,并选择海拔最高的山脉返回给用户。该过程通常需要人工编写解析规则对答案进行筛选,费时费力。此外,由于自然语言描述的多样性,人们也无法事先穷举所有这样的规则。
然而事实上,Freebase这样的结构化知识库希望存储关于真实世界的知识条目,而像维基百科页面这样的文本百科资源则存储支持这些事实的文本描述。例如,在维基百科页面中,我们可以找到一段与候选答案有关的文本
Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。
很明显可以看出,这段文本描述可以帮助我们提升 Denali 或者 Mount McKinley 作为正确答案的置信度,并过滤掉候选集中的错误答案。正是受到这个发现的启发,我们提出同时利用结构化知识库与可信的文本百科资源,如维基百科页面,来回答知识类自然语言问题。
基于多种知识资源的问答技术框架 精品
感谢下载载 图1:针对问题who did shaq first play for的流程图 精品
感谢下载载 以样例问题 who did shaq first play for的处理流程为例,图1展示了融合多种知识资源的问答框架。该问答系统框架主要包含基于结构化知识库Freebase的问题求解和基于非结构化知识资源Wikipedia文本的浅层推理。
基于结构化知识库的问题求解 基于结构化知识资源的问题求解部分只需给出候选答案集合即可,因此既可采用基于语义解析的方法,也可以直接采用基于检索的方法来实现。这里我们采用的是基于检索的方案,主要包括实体链接,关系抽取,以及这两部分的联合消解三大部分。
1) 实体链接 实体链接在知识类问题解析中扮演着十分重要的角色。我们采用词性POS序列来筛选问题中的所有实体候选,以前面的问题为例,我们可以利用POS序列NN识别出实体shaq。对于识别出来的实体候选,我们使用实体链接工具S-MART获取可以潜在链接到Freebase的5个候选实体。具体而言,对给定的实体候选,S-MART首先根据字符串相似度从Freebase中获取一些候选实体,然后利用统计模型根据知识库实体与实体候选之间的共现频率计算出一个得分并排序,最终给出实体链接结果。
2) 关系抽取 关系抽取用于识别问句中的实体与答案(疑问词)之间的语义关系。我们使用多通道卷积神经网络来确定自然语言问题中实体与答案之间存在的关系。具体地讲,精品 感谢下载载 我们使用两个通道,一个通道捕捉句法信息,另一个通道捕捉上下文信息。每个通道的卷积层接受一个长度不固定的输入,但是返回一个固定长度的向量(我们使用最大采样法)。这些固定长度的向量被拼接在一起形成最后softmax分类器的输入,该分类器的输出向量维度等于关系类别的总数,每一维的值等于映射到对应知识库谓词的置信度。
3) 实体和关系的联合消歧 通常情况下的实体链接与实体关系抽取都是独立预测的,因而不可避免的会存在流水线框架下常见的错误传递现象。因此,我们提出了一种联合优化模型从实体链接和关系抽取的候选结果中选择一个全局最优的“实体-关系”配置。这个挑选全局最优配置的过程本质上可以被视作一个排序问题,即,“合理”的实体-关系配置在知识库中应更常见,应该有更高的得分。我们主要依赖从知识库中抽取的三类特征,即实体特征、关系特征和答案的特别特征。
基于Wikipedia文本描述的浅层推理 基于结构化知识库求解的候选答案集,我们从维基百科文本资源中收集候选答案的支持文本,并训练答案过滤器对候选答案集进行筛选,以得到更准确的答案。
1) 数据预处理 具体地讲,我们首先从维基百科中找出描述自然语言问题中实体的页面。我们抽取维基百科页面的内容,并利用Wikifier识别句子中的维基百科实体,再利用精品 感谢下载载 Freebae API将这些实体映射到Freebase中的实体。最后在页面中寻找包含候
选答案的句子当做支持文本。
2) 答案过滤模型 我们将浅层推理的过程抽象为一个面向候选答案的二分类任务。在实验中,我们使用LibSVM来训练该二分类器。该分类器主要使用的特征是词级别配对特征,其中第一个部分来自给定的问题,而第二个部分来自维基百科中的支持文本。更形式化地,给定一个问题q = 和一个作为支持文本的句子s = ,其中记q和s中的单词分别为qi和sj。对每个问题与支持文本对(q,s),我们可以生成词级别配对特征集合{(qi,sj)},这些词对出现的次数作为特征
用来训练分类器。需要指出的是,这里仅尝试了最简单的二分类方式,主要目的是检验附加文本资源的作用;而使用线性优化、或神经网络等更精巧的融合方式可能会带来更明显的准确率提升。
实验 我们使用WebQuestions数据集进行相关实验。该数据集一共包含5810个自然语言问题以及答案。其中训练集包含3778个问题(65%),测试集包含2032个问题(35%)。我们使用答案的平均F1值来评测本框架。表1给出了不同方法在WebQuestions数据集上的结果。
方法 平均F1 (Bast et al. 2015) 49.4 精品 感谢下载载 (Berant et al. 2015) 49.7 (Reddy et al. 2016) 50.3 (Yih et al.2015) 52.5 本研究工作 Structured 44.1 Structured + Joint 47.1 Structured + Unstructured 47.0 Structured + Joint + Unstructured 53.3
表1基于关系抽取问答技术在WebQuestions数据集上的结果 为了确定所提出框架中不同模块的重要性,我们详细比较了以下几种模型变种的结果。
Structured 该方法只包含基于结构化知识库Freebase的问题求解。具体地讲,我们首先进行实体链接,将自然语言问题中包含的实体名词映射到Freebase中的实体,其中得分最高的实体被当做结果。然后我们进行关系抽取并从候选关系中选择与实体最匹配的关系当做最终的实体-关系配置。最后,我们使用这个实体-关系配置来预测问题的答案。
Structured + Joint 与上面的方法略有不同,这个方法使用联合消歧的方法去选择全局最优的实体-关系组合,并进行基于结构化知识库的问题解答。