中文视频问答系统研究
- 格式:pdf
- 大小:863.08 KB
- 文档页数:8
中文问答系统问句分析研究综述
随着信息技术不断发展,中文问答系统具有很大的发展潜力,它能够更好地服务于社会。
因此,本文旨在讨论中文问答系统的方法和机理,以及最新的研究成果。
首先,本文将介绍中文问答系统的背景和目标,概述其在今天新一代信息技术中的重要地位及其具有的重大社会意义。
其次,本文将介绍中文问答系统的基本原理,包括自然语言处理(NLP)、知识抽取和表达(KEE)等相关技术,以及其它相关技术,如语义计算、问答
系统性能评估等等。
此外,本文还将介绍中文问答系统实施的几种方法,包括模式匹配、语义网络、知识图谱、文本挖掘等等。
紧接着,本文将探讨中文问答系统的实现技术,包括词法分析、语法分析、语义分析等。
其中,词法分析指的是将一段文本分解成词汇的过程,而语法分析则是分析一段文本的句子结构。
此外,语义分析指的是分析文本中的上下文信息,以获得文本的意义,从而能够完成问答任务。
接下来,本文将介绍当前中文问答系统的研究现状,包括存在的问题和研究目标。
此外,本文还将对目前研究中用于评估中文问答系统性能的一些指标进行介绍,以及用于改善中文问答系统性能的一些新技术。
最后,本文将总结中文问答系统的研究进展,概述未来的研究方向和发展趋势。
未来,中文问答系统将更多地依赖于领域知识、机器学习和深度学习等技术来加强其能力,并将开发新型技术以改善性能,
助力未来的社会发展与繁荣。
总之,中文问答系统是一个复杂而又充满活力的领域,它将不断发展,打算在信息技术领域取得新的突破。
本文试图从技术角度揭示中文问答系统的发展,以期为今后的研究和发展把脉。
中文问答系统问句分析研究综述本文旨在系统地综述近年来有关中文语义问答系统(ChineseQuestionAnsweringSystem,CQA)问句分析方面相关研究,包括自然语言处理(Natural Language Processing,NLP)以及机器学习(Machine learning,ML)手段。
中文问答系统问句分析的研究内容可以概括为语义建模、语义解析、句法分析、语义分类和对话导航等,通常将它们集中为两大类:知识建模和问题提取。
本文将阐述中文问答系统问句分析的基本思路、分析方法、实现技术,进而介绍典型问答系统及应用,以期为解决相关问题提供参考。
关于中文问答系统问句分析的研究,由于其相对湿润的语言环境和许多隐含信息,使得进行研究有复杂性,但也为研究者提供了新的挑战。
为了更好地理解问句,首先需要将其分解成多个元素,这一过程叫做自然语言处理,它具有什么功能呢?自然语言处理主要是从文本中抽取有用的信息,例如实体、动词、副词、关系等,以及把这些信息组合成一个框架,搭建起一张有关系的语义框架图。
在此基础上,还需要进行句法分析,即对句子中的词语进行分类,分析其语法结构,以及根据其语法和句法信息为中文语义问答系统进行深入的理解。
从而实现系统的自动化分析和处理,最终达到问答的目的。
而在机器学习(Machine learning)领域,中文问答系统问句分析研究则倾向于使用深度神经网络(Deep Neural Network,DNN)进行模型构建,从而实现自动学习和识别句子的抽象特征,比如语义特征和句法特征等,以及这些特征之间的关系。
这样可以大大减少系统训练时间,大大提高效率,从而实现系统自动学习和运行。
此外,语义分类也是一种重要的研究方向,目前,主要是使用深度学习,特别是深度卷积神经网络(Convolutional Neural Network,CNN)来实现。
将提取的文本特征进行语义分类,以建立文本到概念的映射,最终形成系统认知模型。
受限领域中文问答系统问句分析研究
蒋昌金;彭宏;马千里;林正春;王成
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)011
【摘要】问句分析是问答系统中一个极其重要的部分,它对后续的搜索模块和答案抽取模块有着至关重要的影响.为了提高问句分析模块的性能,对中文问答系统问句分析模块进行研究和分析,在构建领域词典的基础上实现了对问句中命名实体的识别.对问句类型的识别则采用问题类别对照表的方式来实现.在对问句进行分词、词性标注之后,提取出其中的名词,动词、形容词等实词,形成初始查询向量,最后对初始查询向量进行同义词扩展和问句类型关联词扩展.实验结果表明,通过查询向量进行查询比用问句直接查询有着更高的准确率.
【总页数】4页(P2588-2591)
【作者】蒋昌金;彭宏;马千里;林正春;王成
【作者单位】华南理工大学计算机科学与工程学院,广东,广州510006;华南理工大学计算机科学与工程学院,广东,广州510006;华南理工大学计算机科学与工程学院,广东,广州510006;华南理工大学计算机科学与工程学院,广东,广州510006;华南理工大学计算机科学与工程学院,广东,广州510006
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.中文问答系统的现代汉语疑问句类型分析研究概述 [J], 耿志红
2.受限领域问答系统的中文问句分析研究 [J], 陈康;樊孝忠;刘杰;余正涛
3.中文问答系统问句分析研究综述 [J], 张宁;朱礼军;
4.中文问答系统问句分析研究综述 [J], 张宁;朱礼军;
5.中文问答系统问句分析研究综述 [J], 张宁;朱礼军
因版权原因,仅展示原文概要,查看原文内容请购买。
《融合FAQ、本体和推理技术的问答系统研究》一、引言随着互联网的迅猛发展,信息量的爆炸式增长使得用户对于快速、准确获取信息的需求日益增强。
问答系统作为一种能够直接回答用户问题的技术手段,受到了广泛关注。
本文将重点研究融合FAQ、本体和推理技术的问答系统,探讨其研究背景、意义、现状及发展趋势。
二、研究背景与意义在当今信息爆炸的时代,问答系统成为用户获取信息的重要途径。
FAQ(Frequently Asked Questions)作为常见的问题解答方式,具有简单、直接的特点。
本体作为一种知识表示方法,能够有效地描述领域知识。
推理技术则能够根据已知信息推导出未知信息。
将FAQ、本体和推理技术融合,可以构建一个高效、智能的问答系统,提高用户获取信息的效率。
三、国内外研究现状目前,国内外学者在问答系统领域进行了大量研究。
在FAQ 方面,许多网站通过整理常见问题及答案,为用户提供便捷的信息获取方式。
本体技术方面,研究者们利用本体描述语言构建领域本体,实现知识的语义化表示。
推理技术方面,各种推理算法被广泛应用于知识推理、问答系统等领域。
然而,将FAQ、本体和推理技术融合的问答系统研究尚处于初级阶段,仍需进一步探索。
四、融合FAQ、本体和推理技术的问答系统4.1 系统架构融合FAQ、本体和推理技术的问答系统架构主要包括数据层、知识层和逻辑层。
数据层负责存储FAQ数据和领域知识;知识层利用本体技术构建领域本体,实现知识的语义化表示;逻辑层则负责实现问答系统的推理功能。
4.2 关键技术(1)FAQ处理:对FAQ数据进行预处理,提取关键信息和问题类型。
(2)本体构建:利用本体描述语言构建领域本体,实现知识的语义化表示。
(3)推理技术:采用各种推理算法,根据用户问题推导出相关答案。
(4)问答匹配:将用户问题与知识库中的信息进行匹配,找出最佳答案。
4.3 系统实现在系统实现过程中,需要解决以下问题:如何将FAQ数据与领域知识融合?如何构建有效的领域本体?如何设计高效的推理算法?针对这些问题,可以采用以下方法:(1)将FAQ数据转化为结构化知识,与领域知识进行融合。
中文问答系统问句分析研究综述随着科学技术的不断发展,人工智能技术在各个领域得到广泛应用,极大地改善了人们的生活质量。
中文问答系统的出现,为人们解决科技大爆炸中所存在的诸多困惑提供了可行的解决方案。
本文综述了当前在中文问答系统问句分析领域开展的有关研究,对研究进行了归纳与总结。
一、中文问答系统问句分析的研究现状近年来,中文问答系统的研究日趋成熟,并受到广大研究者的热情关注。
例如,郝育明等人就研究了一种深度学习中文问答系统,提出了一种新的深度学习模型,用于从大规模中文文本中快速学习机器学习技术,具有更高的准确性和可靠性;詹林刚等人提出了一种新的中文问答系统,结合机器学习和调查方法,可以自动抽取文本中问句、答句,构建中文问答数据库,以解决自然语言处理中问答理解问题;李明华等人提出了一种基于共现信息的中文问答系统,通过对文本的多层分析,能够从共现信息中提取词语,形成词汇组合,用于构建问答知识网络,帮助理解语义,可提高回答的准确性。
二、中文问答系统问句分析的挑战实际上,中文问答系统问句分析领域仍然有着很多挑战和不足:首先,数据缺乏。
虽然有一些语料库可以用于训练,但是这些语料库不全面且数量有限,无法覆盖语料库中所有类型的问句;其次,语言表达多样化,句子结构复杂。
由于汉语是一种复杂而多变的语言,语句结构多样且常常具有变化性,而普通的机器学习技术无法很好地跟踪和理解这种变化;此外,文本数据繁多,问答数据量大。
中文文本数据量十分庞大,如何高效、准确地从大量文本中抽取有效信息一直是机器学习技术面临的一大挑战。
三、中文问答系统问句分析的发展鉴于当前技术的不足,未来中文问答系统问句分析的发展方向可以分为三个方面:(1)深化语言理解,加强句法分析。
借助语言理解技术,在句法分析上应该深入研究,开展更多更深入的研究,如自然语言处理、话语分析等,以提高系统的语言理解能力。
(2)实现自然语言生成。
应借鉴人类自然语言表达能力,完善机器对文本理解能力,开发基于自然语言生成模型的中文问答系统,让机器能够根据用户问句的语义更准确地进行回答。
中文问答系统问句分析研究综述
近年来,越来越多的人开始关注中文问答系统,因为它能够帮助人们解决生活中的问题。
中文问答系统的核心是问句分析,它的作用是分析输入的问句,识别其中的意思,并自动回答用户提出的问题。
鉴于此,本文通过对国内外关于中文问答系统问句分析领域的研究进行综述,以实现问句识别及自动回答的理想。
在中文问答系统问句分析方面,研究表明,中文问句分析既可以基于语法分析,也可以基于句法依存分析,这两者都能更好地理解问句语义,帮助回答用户的问题。
此外,文本表示方式也是问句分析的关键,目前大多数研究采用词袋模型和深度学习模型对问句进行文本表示,可以捕捉到更多的语义信息,从而更好地理解问句。
此外,有的研究者还提出了结合词向量和深度学习模型的混合模型,可以使用更准确的文本表示方式,进一步提高中文问答系统的效率。
除了上述技术之外,近年来,许多语言处理技术也都被用于中文问答系统的问句分析,比如语义角色标注,句法依存分析和情感分析等。
这些技术的使用有助于更好地理解问句的意思,从而更有效地回答问题。
例如,情感分析可以帮助分析用户的情绪,并为系统提供更合适的回答。
本文综述了目前关于中文问答系统问句分析的研究,包括文本表示技术和自然语言处理技术等。
这些技术是改善中文问答系统效率的重要工具。
未来,中文问答系统问句分析技术会得到更多的关注,有望取得更好的结果。
综上,中文问答系统的问句分析是实现中文问答系统自动回答的关键技术。
它主要包括文本表示技术、语言处理技术等,为取得自动回答的理想效果提供了重要支持。
尽管目前,中文问答系统还有一定的不足,但会随着技术的进步而得到不断完善。
重庆大学硕士学位论文中文摘要摘要问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。
目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。
本文正是对中文问答技术研究的一个探索。
基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。
信息检索模块是自动问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。
本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。
我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。
本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利用翻译模型把问题质量成功的集成到检索模型中。
最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。
关键词:问答系统,信息检索,文档质量,语言模型,最大熵我本沉默ELIZA扮演一个心理学专家的角色,采用启发式的心理疗法,通过反问应对精神病人的提问,诱导病人不停地说话,从而达到对病人进行心理治疗的目的。
1971年,Winograd利用MACLISP语言开发了SHRDLU问答系统。
SHRDLU包括解析器、英语语法识别器、语义分析器、一般问题解答器等。
该系统主要是用于儿童积木话题,并且取得了较好的效果。
中文视频问答系统研究刘艳芳1,封化民2,丁天昌11(燕山大学信息工程学院,秦皇岛,066004)2(北京电子科技学院重点实验室,北京,100070)摘要:文本文档的问答系统的研究已经取得了一定的成绩。
但除了文本,其他媒体如视频,图像,音频中也存在大量有用信息,这对问答系统提出了新的机遇和挑战。
视频问答系统是信息检索、自然语言处理、视频分割、语音识别等多领域的综合。
对中文视频来说,要求更高。
在本文中,我们提出基于中文视频问答系统的框架,对中文新闻视频的实验表明,我们提出的方法是可行的。
关键词:问答系统;信息检索;视频分割;自然语言处理;自动语音识别1. 引言问答系统是根据用户的问题从大量文本集中找相关答案,答案不是跟问题有关的整个的文献,而是更准确地满足用户需求的文献的一部分或一句话[1]。
问答系统不同于信息检索,信息检索对于用户提交的查询只能定位出文献或包含该查询词的网页,用户需自己去确定有用的信息,这样很浪费了用户的时间。
随着互联网的发展,各种信息呈爆炸式增长,除了传统的文本信息,图像、声音视频越来越成为重要的信息,由此出现了基于多媒体的信息检索[4],并取得了较好的研究成果。
虽然问答系统取得了一定的成绩,但大多数系统都是基于文本的,随着多媒体的迅速发展,有研究学者提出基于视频的问答系统[5]。
由于问答系统是集自然语言处理、知识表示、信息检索于一体,它的发展将大大取决于这些领域的进步,而中文问答系统相对于一般自然语言问答系统对一些领域的要求更高。
如中文词语之间没有空格,因此在操作之前需要词语切分,汉语的语法和辞藻比英语更复杂,一个句子往往可以有多种不同的表达方式,这些都造成了中文问答系统的发展缓慢。
对于多媒体问答系统,由于更需要其他领域的研究成果,如视频分割,语音识别等的研究成果,所以研究起来更需要多领域的相互配合。
视频是我们捕获外界信息的最有效的媒体之一,并且视频是一种动态的媒体,不仅包括图像信息还包括声音信息。
因此我们主要对于视频信息进行问答系统的研究。
在视频的各种特征中,脚本是最重要的且是最容易得到的视频特征。
况且,视频问答系统输入的是一个纯文本类型的问句,所以我们在系统框架中主要运用的是故事单元的音频通过自动语音识别(ASR)而得到的脚本特征。
我们研究并提出了中文视频问答系统框架,在中文问答系统上是一个新的尝试。
论文基金项目:国家自然科学基金[项目号:60472082]通信联系人:刘艳芳,研究生。
liuyanfang@以下部分是这样组织的:第二部分提出了中文视频问答系统的框架并对各模块进行了详细的叙述。
第三部分给出我们初步的实验结果。
在第四部分我们对实验结果进行了分析。
最后提出了我们将来的工作。
2. 系统框架一般的问答系统都包括三部分:问句理解、信息检索、答案抽取[1]。
问句理解是对用户提问的问句提取关键词并对关键词进行扩展,决定问句的答案类型。
信息检索模块是对第一部分产生的关键词进行一般的信息检索,得到N个相关文档。
答案抽取模块是根据一定的规则从相关文档中提取能回答用户问句的最相关的句子。
除此之外,视频问答系统还需要其他一些工作,包括视频镜头检测、故事单元分割、语音识别等。
图1是系统的整体框架。
图1 中文视频问答系统框架下面我们对各个部分进行详细的介绍。
2.1视频准备工作视频准备工作主要包括两个方面的内容。
第一就是把视频分割成故事单元。
在这方面,已经有许多的研究,主要是利用基于HMM或信息熵技术融合视频、音频和文本的多模态特征。
我们系统框架中采用的是[3]的方法。
在对视频进行故事单元分割后,下一步就是生成故事单元的脚本内容。
通过语音识别系统可以把故事单元对应的音频转化成脚本。
当然,脚本中包括了许多语音识别错误,我们人为地对脚本内容进行了纠正,使它的错误率降低了好多。
2.2 问句理解对于一个很简短的句子如“中国外交部长是谁”,首先需要对句子进行分析。
中文句子词之间由于没有空格,所以首先需要对句子进行分词。
2.2.1问句分类分词后我们就可以对问句进行分类。
问句分类是问答系统分析一个问句并为其标注好期望的答案类型。
现有的问句分类主要基于两个方法,一个是基于规则的,即对问句制定了许多规则,另一种方法是基于统计学习的方法[6]。
我们主要是把问句分成了8类,包括:人名、地名、组织、数字、时间、物体(object)、描述以及其他共8类。
中文不象英文一样有固定的疑问词如how,why,what 等,对于不同的句子表述方法可能有很多种,所以规则指定起来也很麻烦。
另外,由于我们的问答系统是基于视频的,所以我们对提问进行了扩展,问句不仅包括一般的疑问句,还包括一些基于事实答案的非疑问句,如“找到胡锦涛会见布什的视频片段”。
机器学习的方法一般是基于特征向量的,所以我们需要对问句提取特征向量。
考虑到中文的句子结构和中文自然语言处理方法,我们主要提取了以下特征:1. 基本特征对于一个问句来说,词是最基本的特征,例如“中国外交部长是谁”,我们可以提取的特征就是:{中国 外交 部长 是 谁}。
对于词我们采用的布尔表示方法。
2. Bigrams在分词后,好多可能连起来很有意义的词被分开,其实我们都知道有些词连起来可以明确告诉我们这个问句的许多信息,但是更多的字符串就不仅增大了计算的维数,也给特征向量带来了好多干扰,因此我们采用的是两个词相连的Bigrams 作为特征向量加入进行分类。
3. 语义特征对于一些“什么”问题,仅有上面的特征还是有好多被错误分类,这是由于单个问句的特征向量太稀疏的缘故,因此我们对问句进行了语义扩展。
我们主要利用的是知网(HowNet)[2],通过知网找到每个词在知网中的同义词并加入到特征空间中。
在后面的实验结果部分我们将给出问句分类实验结果。
2.2.2 问句提取关键词对问句分类后就可以对问句进行检索了,但并不是把所有的词都做为检索词,许多没有意义的词必须去掉,例如上面的例子,我们只提取{中国 外交 部长}作为关键词进行检索,因为已经在分类时候对问句进行了扩展,所以直接用扩展后的结果去停用词即可。
2.3 脚本检索脚本检索就是一般的文本检索,首先计算关键词和故事单元之间的相似性,得到一系列排好序的脚本。
我们采用的是TFIDF[7]方法来计算相似性并对检索出的故事单元进行排序。
对这些检索得到的脚本进行下面答案抽取的过程。
2.4 答案抽取视频QA 是为了得到问句的最准确的视频答案,而不仅仅是一个很长的故事单元,所以对上面检索得到的故事单元需要进行更详细地答案抽取。
通过静音可以把故事单元中的脚本分成句子。
我们的目的就是得到能准确回答问句的句子T i 。
我们设定这样的句子必须满足下面的条件:(1) 包含query 中的词 定义 :Score q =queryqstory (1) (2) 满足问句分类时的答案类型 如果有符合答案类型的词Score d =1 (2)(3) 得到的Ti 中query 的密度Score m =min max pos pos qstory − (3) (4) T i 中名词的个数Score n =qstoryqstory n (4) 其中:query 为句子去停用词并扩展后的词的个数qstory 为故事单元脚本中包含的关键词的个数,每个query 只计数一次max pos 为关键词在故事单元脚本中最大的位置min pos 为关键词在故事单元脚本中最小的位置n qstory 为检索到的名词个数Score q ,Score d ,Score m ,Score n 的取值范围均为[0,1]最后的分数Score=α*Score q +β* Score d +χ* Score m * Score q +δ* Score n其中: α,β,χ,δ为权重,且α+β+χ+ δ=1对于不同的答案类型,我们赋予不同的权重,例如对于人名的问句,Score d 的权重就比较大,而对于描述的句子,一般中文命名实体的作用就很小,而问句中的名词一般比较重要,Score n 的权重就大一点。
例如对于问句1:阿富汗总统是谁?是对人名的提问,我们设定:α=β=χ=1/3 ,δ=0 对于问句2:布什当选美国总统中方反映?问句是描述性的提问,一般与命名实体无关,我们设定:α=2/5χ=2/5δ=1/5 ,χ=03. 实验结果在问句分类模块中,我们使用支持向量机SVM,采用的是Libsvm[8],问句分类训练集采用HIT-IRLab 及我们实验室所编辑的共4366个问句。
选择其中的4000个问句用于训练,366个问句用于测试。
采用上面所提到的特征得到的实验结果如下:表1:问句分类的实验结果特征 准确率词 87.4%词+Bigrams 87.9%词+Bigrams+知网 89.6%本实验采用TRECVID2005中的中文新闻集CCTV4_NEWS中的新闻视频进行实验。
任选19天的简明新闻,每天10分钟,总共大约190分钟。
在进行故事分割后,我们提取出共140个故事单元。
通过自动语音识别后,中文的脚本带有很多错误,我们人为对脚本进行了部分纠错。
在返回的三个句子中,如果有能回答问句的答案,就认为是正确的。
例如对于上面句子1最后的答案是:阿富汗选举管理机构3号宣布过渡政府总统卡尔扎伊以绝对优势当选为阿富汗总统任期五年阿富汗选举管理机构说在802.45万张有效选票当中卡尔扎伊获得了444.22万张选票得票率为55.4%对于问句2最后的答案为:中国外交部发言人章启月4号就布什当选连任美国总统发表评论说结合XML时间对应视频可得到上面对应视频为:问句1 问句2图2 最后的视频片段由于时间的关系,我们只设计了40个针对这19天新闻的问句。
结果显示如下:表2:最初的实验结果总的问句 有正确答案的问句 准确率67.5%40 274. 实验结果分析这是我们第一次尝试对中文视频进行问答系统的研究,由于数据集比较小,结果不是很理想。
当然,中文视频问答系统由于是多知识领域的结合,错误的产生也可能来自各种方面。
主要的错误原因是:(1)中文分词的错误。
虽然现在的分词准确率已经很高,但还是有好多句子被错误的切分,这就很影响问句分类的结果。
(2)命名实体的错误。
在答案抽取阶段需要根据问句分类时的答案类型来选择不同的抽取规则,如果检索出的句子中包含该答案类型的命名实体,赋予较高的分数。
但是由于中文命名实体的错误,导致许多答案被错检或漏检。
(3)语音识别带来的错误。
语音识别带来的错误主要有三种。
其一,对每个故事单元是按照静音来分割句子的,但有时候音频的停顿并非一个句子的结束,这样导致一个句子被分成几个句子,这无疑降低了系统的整个成绩。
其二,在语音识别的脚本中有好多词被错误的识别,尤其是外国人名,地名等,虽然我们是经过简单的人工纠错,但还是有错误存在。