当前位置:文档之家› 融合词向量及BTM模型的问题分类方法

融合词向量及BTM模型的问题分类方法

融合词向量及BTM模型的问题分类方法
融合词向量及BTM模型的问题分类方法

2019年2月计算机工程与设计 Feb.2019

第 %〇卷第 2 期 COMPUTER ENGINEERING ANDDESIGN Vol.40 No.2融合词向量及BTM模型的问题分类方法

黄贤英,谢晋+,龙姝言

(重庆理工大学计算机科学与工程学院,重庆400054)

摘要:针对传统短文本分类算法对问题分类效果不佳的问题,提出一种融合词向量及B T M模型的问题分类方法。使用 Word2vec对问题语料库进行训练得到词向量;对语料进行基于吉布斯采样的B T M主题模型构建,得到文本主题扩展向 量;将文本主题扩展向量与词向量拼接得到新的问句扩展文本,利用S V M进行文本分类。实验结果表明,该方法在准确 率、召回率及F值上的表现均有提高。

关键词:问答系统'问题分类;词向量'B T M主题模型;问句扩展

中图法分类号!TP391 文献标识号:A文章编号$ 1000-7024 (2019) 02-0384-05

doi: 10. 16208!. issnl000-7024. 2019. 02. 015

Q u estio n classification m ethod com bining w ord vector and B T M m odel

H U A N G X ia n-y in g,X IE J in+ &L O N G S hu-yan

(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054, China) Abstract:As the traditional short text classification algorithms do not work well in classification,a problem classification method based on the fusion of word vector and B TM model was proposed.Word2vec was used to train the corpus and word vector was obtained.The B TM t opic modd was constructed based on Gibbs sampling of data.The text topic extension vector and the word vector were spliced to ge t the new ques t ion extension text and text classification was implemented based resu1t s show t h a t using t h e proposed me t hod improves t h e accuracy,recall rat e and F valu.. Keywords:Q A#question classification;w ordvector;B TM m odel;questionexpansion

/引言

问答系统(Q A)的任务是快速的为用户提出的问题提 供一个用户满意的答案[1],而在回答问题的过程中蕴含着许 多信息检索领域息息相关的技术。通常来说,问答系统包括 三个重要模块:对用户所提出问题的分析、对信息进行检索 和抽取出最优答案集合)]。问题分析作为问答系统的第一项 关键技术,其主要工作是分析用户问句所包含的信息,而分 析问句的关键环节就是对问题进行分类,所以从某种程度上 来说,问题分类效果影响着问答系统的工作效率)]。

问题文本指的是要求问答系统回答或者解释的文本,一般来说问题文本的长度较短且重复的词项较少,所以问 题分类不可以看作为一般的文本分类任务)]。与文本分类 相比,问题分类存在不少难题,首先问题文本长度较短,形成的特征向量空间存在较大的稀疏性;其次,问题文本难以找到合适的方法或者模型来表示;再次,由于问题文 本中的重复的词项较少,那么词频就不能作为问句特征的衡量标准)5]。

目前在问题分类研究领域,使用的工具和方法与短文 本分类相似,大致分为两个方向,第一种是基于规则的分 类方式;第二种是基于数理统计的机器学习算法。张栋 等[6]在扩充问句特征的过程中,将答案语料融人原始的问 句文本;冶忠林等)]利用搜索引擎来扩展知识库,并结合 L D A来进行主题模型的构建;文献)]中引人词向量模 型来代替传统的空间向量模型;张青等[9]提出一种优质主 题的思想,并使用L D A模型扩展文本的特征项。近些年,随着信息检索、文本表示相关领域的飞速发展,专家学者 意识到L D A主题模型对短文本建模的稀疏问题。Yan 等)0]提出中文短文本双词主题模型BTM(biterm topic model),改善了 L D A主题模型的建模缺陷;刘良选等)1]

收稿日期:2017-12-26;修订日期:2019-01-08

基金项目:国家社会科学基金项目(17XXW004);重庆市教委基金项目(15YK790061)

作者简介:黄贤英(1967 -)女,重庆人,硕士,教授,CCF会员,研究方向为信息检索;+通讯作者:谢晋(1993 -)男,湖北 十堰人,硕士研究生,研究方向为信息检索、文本挖掘;龙姝言(1992-)女,重庆人,硕士研究生,研究方向为推荐系统。

E-mail:895309382@https://www.doczj.com/doc/971368936.html,

基于主题模型的文本情感和话题建模的研究

基于主题模型的文本情感和话题建模的研究随着互联网的快速发展以及社交媒体的崛起,用户生成的大量文 本等数据日积月累,其中,包含篇幅较长的新闻文本、篇幅不一的评论文本以及篇幅较短的社交媒体文本,例如,微博、推特文本。新闻文本之类的文本一般描述重大事件、科学发现等内容,虽然单一文档中包 含信息量大,但是文档涉及话题比较固定。评论文本中包含大量用户 对评价对象的主观评价,虽然文本长度不一,但是包含的信息相对丰富。不同于新闻之类的文本和评论数据,虽然单条微博文本长度较短 且信息量少,但是更新速度快,数据规模大,涉及领域广。这些海量的 文本数据中包含大量有实用价值的信息。但是如何挖掘这些文本中隐藏的语义结构信息是目前自然语言处理和文本检索领域的一大研究 难点。主题模型是一种比较热门且有效的方法,该方法通过词语之间 在文档中的高阶共现模式挖掘文本中的语义结构信息。主题模型的技术已经应用到各个研究领域并且取得了不错的成果。本文以新闻文本、评论文本、微博文本三种不同的文本为实际应用背景,对于话题建模 以及情感相关的话题建模展开了研究。因为新闻文本中一般包含客观的话题信息,而评论文本和微博文本中包含大量的情感信息,因此,本 文针对新闻文本只建模话题信息(不考虑文本的情感信息),而针对评 论数据和微博文本则建模话题和情感两种信息。本文的工作主要基于生成式主题模型,用改进的生成主题模型抽取文本的话题或者情感相 关的话题。其中,现有的针对新闻文本的主题模型和针对评论文本的 情感主题模型,并没有合理地考虑文本中词语或者实体之间包含的语

义知识。同时,现有的工作并没有针对短文本的情感和话题建模提出有效的模型。为了解决上述的问题,本文重点研究话题建模或者情感相关的话题建模中的三个重要的问题:融合知识库中的语义知识建模新闻文本的话题,融合词语之间的语义知识建模评论数据中的情感和话题以及融合用户和时间信息建模微博短文本的情感和话题。具体研究内容如下:(1)本文分析现有的话题建模方法在新闻文本中的不足,即单纯依靠语料中词语之间的高阶共现模式建模话题。当语料中的有些词语没有充分的共现模式,主题模型不能很好地挖掘它们的语义信息。为了克服这一问题,本文研究一种融合维基百科知识到新闻文本中的主题模型,也就是利用外界知识库中的概念和分类知识弥补文本中词语共现模式不足的问题。本文提出一种维基百科知识主题模型(WCM-LDA)。WCM-LDA模型同时建模文本中的词语和实体,并且引入了实体在知识库中对应的概念和分类知识,因此WCM-LDA模型可以缓解建模话题时词语共现模式不足的问题。另外,WCM-LDA模型输出每个话题的词语、概念和分类,可以更加直观地展示每个话题。(2)在评论数据中词语之间的先验语义关系对于情感相关的话题建模同样尤为重要,但是现有的情感主题模型只能通过共现模式挖掘词语之间的语义关系,有些词语在小规模的数据集中没有充分的共现模式同样会导致情感和话题建模的质量不佳。不同于前面的新闻文本中包含了大量实体,可以引入实体对应的知识。评论数据中更多的是评论对象的属性词或者评价词,建模评论文本的情感和话题时,更需要引入的知识是属性词或者评论词语之间的语义关系。因此,本文研究一种引入外

融合词向量及BTM模型的问题分类方法

2019年2月计算机工程与设计 Feb.2019 第 %〇卷第 2 期 COMPUTER ENGINEERING ANDDESIGN Vol.40 No.2融合词向量及BTM模型的问题分类方法 黄贤英,谢晋+,龙姝言 (重庆理工大学计算机科学与工程学院,重庆400054) 摘要:针对传统短文本分类算法对问题分类效果不佳的问题,提出一种融合词向量及B T M模型的问题分类方法。使用 Word2vec对问题语料库进行训练得到词向量;对语料进行基于吉布斯采样的B T M主题模型构建,得到文本主题扩展向 量;将文本主题扩展向量与词向量拼接得到新的问句扩展文本,利用S V M进行文本分类。实验结果表明,该方法在准确 率、召回率及F值上的表现均有提高。 关键词:问答系统'问题分类;词向量'B T M主题模型;问句扩展 中图法分类号!TP391 文献标识号:A文章编号$ 1000-7024 (2019) 02-0384-05 doi: 10. 16208!. issnl000-7024. 2019. 02. 015 Q u estio n classification m ethod com bining w ord vector and B T M m odel H U A N G X ia n-y in g,X IE J in+ &L O N G S hu-yan (College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054, China) Abstract:As the traditional short text classification algorithms do not work well in classification,a problem classification method based on the fusion of word vector and B TM model was proposed.Word2vec was used to train the corpus and word vector was obtained.The B TM t opic modd was constructed based on Gibbs sampling of data.The text topic extension vector and the word vector were spliced to ge t the new ques t ion extension text and text classification was implemented based resu1t s show t h a t using t h e proposed me t hod improves t h e accuracy,recall rat e and F valu.. Keywords:Q A#question classification;w ordvector;B TM m odel;questionexpansion /引言 问答系统(Q A)的任务是快速的为用户提出的问题提 供一个用户满意的答案[1],而在回答问题的过程中蕴含着许 多信息检索领域息息相关的技术。通常来说,问答系统包括 三个重要模块:对用户所提出问题的分析、对信息进行检索 和抽取出最优答案集合)]。问题分析作为问答系统的第一项 关键技术,其主要工作是分析用户问句所包含的信息,而分 析问句的关键环节就是对问题进行分类,所以从某种程度上 来说,问题分类效果影响着问答系统的工作效率)]。 问题文本指的是要求问答系统回答或者解释的文本,一般来说问题文本的长度较短且重复的词项较少,所以问 题分类不可以看作为一般的文本分类任务)]。与文本分类 相比,问题分类存在不少难题,首先问题文本长度较短,形成的特征向量空间存在较大的稀疏性;其次,问题文本难以找到合适的方法或者模型来表示;再次,由于问题文 本中的重复的词项较少,那么词频就不能作为问句特征的衡量标准)5]。 目前在问题分类研究领域,使用的工具和方法与短文 本分类相似,大致分为两个方向,第一种是基于规则的分 类方式;第二种是基于数理统计的机器学习算法。张栋 等[6]在扩充问句特征的过程中,将答案语料融人原始的问 句文本;冶忠林等)]利用搜索引擎来扩展知识库,并结合 L D A来进行主题模型的构建;文献)]中引人词向量模 型来代替传统的空间向量模型;张青等[9]提出一种优质主 题的思想,并使用L D A模型扩展文本的特征项。近些年,随着信息检索、文本表示相关领域的飞速发展,专家学者 意识到L D A主题模型对短文本建模的稀疏问题。Yan 等)0]提出中文短文本双词主题模型BTM(biterm topic model),改善了 L D A主题模型的建模缺陷;刘良选等)1] 收稿日期:2017-12-26;修订日期:2019-01-08 基金项目:国家社会科学基金项目(17XXW004);重庆市教委基金项目(15YK790061) 作者简介:黄贤英(1967 -)女,重庆人,硕士,教授,CCF会员,研究方向为信息检索;+通讯作者:谢晋(1993 -)男,湖北 十堰人,硕士研究生,研究方向为信息检索、文本挖掘;龙姝言(1992-)女,重庆人,硕士研究生,研究方向为推荐系统。 E-mail:895309382@https://www.doczj.com/doc/971368936.html,

相关主题
文本预览
相关文档 最新文档