当前位置:文档之家› 024047中文文本情感倾向性分析

024047中文文本情感倾向性分析

024047中文文本情感倾向性分析
024047中文文本情感倾向性分析

中文文本情感倾向性分析1

黄萱菁 赵 军

复旦大学

关键词:情感倾向 语料库

引言

大约在两年半前,《新华网》、《环球时报》等大众媒体纷纷转载了英国《新科学家》杂志的一则报道,英国Corpora软件公司开发了一套名为“感情色彩(Sentiment)”的软件2,它能判断报纸刊登的文章对一个政党的政策是持肯定态度还是否定态度,或者网上的评论文章是称赞还是贬低一种产品,并以此帮助政府和一些大公司全面了解公众对他们的看法。这则报道之所以引起了舆论的广泛关注,是因为它介绍了一个非常新颖而又很有价值的研究方向—文本情感倾向性分析。

所谓文本情感倾向性分析,就是对说话人的态度(或称观点、情感)进行分析,即对文本中的主观性信息进行分析。由于立场、出发点、个人状况和偏好的不同,民众对生活中各种对象和事件所表达出的信念、态度、意见和情绪的倾向性必然存在很大的差异。在论坛、博客(blog)等反应草根观点的网络媒体上,这种差异表现得尤为明显。

长期以来,要了解关于某个问题的报道是正面的还是反面的,是消极的还是中立的,往往需要求助于调查公司。这些公司的员工仔细阅读有关某个机构、个人、事件或问题的所

1 本项研究受国家自然科学基金课题资助(60673038,60673042)。

2 https://www.doczj.com/doc/6a8057447.html,/products/sentiment.aspx

图1 英国Corpora软件公司的“感情色彩(Sentiment)”的软件

专题报道

有文字,然后就这些评论的态度做出反馈。这不仅耗费了大量人力和财力,而且过程相当缓慢。由此可见,文本情感倾向性的自动分析具有很好的商业应用前景。

文本情感倾向性分析属于计算语言学的范畴。以前,在计算语言学以及相关领域,研究人员普遍关注的是客观性信息的分析和提取,对主观性信息分析与提取的研究尚处于起步阶段,其中存在的很多问题都需要进行全面探索。这项研究涉及到计算语言学、人工智能、机器学习、信息检索和数据挖掘等多方面研究内容,因此文本情感倾向性分析也具有重要的学术研究价值。

总体来看,文本情感倾向性分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究以及海量信息的整体倾向性预测等四个研究层次。接下来将首先介绍在各个层次所取得的研究进展,其次介绍情感倾向性分析标准语料库的建设和系统评测,最后是本文的结论。

词语情感倾向性分析

对词语的情感倾向进行研究是文本情感倾向分析的前提。具有情感倾向的词语以名词、动词、形容词和副词为主,包括人名、机构名、产品名、事件名等命名实体。其中,除部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中性三种)可以通过查词典3的方式得到之外,其余词语的极性都无法直接获得。此外,词语的情感倾向还包括倾向性的强烈程度。例如,“谴责”的强度就远远超过了“批评”和“指责”,而这种强度很难由词典编撰者用人工的方式进行量化。另外,词语的极性往往取决于特定的上下文环境,例如,“骄傲”在表示“自豪”概念时,是褒义词;而在表示“自满”概念时,则是贬义词。

词语情感倾向分析包括对词语极性、强度和上下文模式的分析。其分析结果甚至可以写入到语义词典中,如北京大学计算语言学研究所以基于人民日报基本标注语料库的真实文本为实例,进行统计归纳得到词语的情感倾向,而后在现代汉语语法信息词典中实现形式化[1]。词语情感倾向分析目前主要有以下三种方法:1.由已有的电子词典或词语知识库扩展生成情感倾向词典。英文词语情感倾向信息的获取主要是在WordNet4和General Inquirer5的基础上进行的文献[3-4] ;而中文词语情感倾向信息的获取依据主要有HowNet[5]。这种方法的主要思想是,给定一组已知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与该词语义相近并且在种子集合中出现的若干个词,根据这几个种子词的极性,对未知词的情感倾向进行推断。这种方法对种子词数量的依赖比较明显。

2.无监督机器学习的方法。这种方法与第1种方法类似,也是假设已经有一些已知极性的词语作为种子词,对于一个新词,根据它和种子词的紧密程度对其情感倾向性进行推断。不同的是,第1种方法的词语紧密程度的度量是以词典信息为依据判断,而这种方法是根据词语在语料库中的同现情况判断其联系紧密程度。根据文献[6-7]的经典方法,假设以“真”、“善”、“美”作为褒义种子词,“假”、“恶”、“丑”作为贬义种子词,则任意其它词语的语义倾向定义为,将与各褒义种子词的点态互信息量(Point of Contact Information,PMI)之和,减去与各贬义种子词的点态互信息量之和后所得的结果。语义倾向的正负号就可以表示词语的极性,而绝对值

3 例如,General Inquirer [Stone,1966],知网:heep://https://www.doczj.com/doc/6a8057447.html,

4 WordNet

5 通用查询者,最早为KWIC编写的程序之一,该程序根据基于理论编写的词典给单词分类。

就代表了强度。词语A和B的点态互信息量定义为它们在语料库中的共现概率与A、B概率之积的比值。这个值越高,就意味着相关性越大。有趣的是,点态互信息量计算可通过搜索引擎进行。计算A的概率,可以把A当作查询送给搜索引擎,那么返回的Hits值(含有A的页面数)和总的索引页面数的比值,就可以认为是A的概率。要计算A和B的共现概率,只要把A和B同时送给搜索引擎即可。这种方法同样存在着对种子集的依赖性比较强的问题,而且噪声比较大。

3.基于人工标注语料库的学习方法。首先对情感倾向分析语料库进行手工标注。标注的级别包括文档级标注(即只判断文档的情感倾向性)、短语级标注和分句级标注。在这些语料的基础上,利用词语的共现关系、搭配关系或者语义关系,判断词语的情感倾向性。这种方法需要大量的人工标注语料库,典型的工作如威博(Wiebe)利用词语的搭配模式发现在主观性文本中的倾向性词语及其搭配关系[8]。

不可不提的是香港城市大学语言资讯科学中心在LIVAC 6共时语料库上进行的名人信誉分析研究。他们选择泛华语地区有代表性的中文媒体,对相应的新闻报道进行深层次的人工标注,并在该语料库上开展中文文章正负两极性自动分类的研究,通过人物褒贬指数的计算,发布京港台双周名人榜,并用—10~10之间的数表示名人在三地报章的信誉度[9]。例如在某段时间内,“陈水扁”中国大陆、中国香港和中国台湾的信誉度分别是—10、—6.2和—4.6。

句子情感倾向性分析

词语情感倾向分析的处理对象是单独的词语或者实体,而句子情感倾向性分析的处理

对象则是在特定上下文中出现的语句。其任务就是对句子中的各种主观性信息进行分析和提取,包括判断句子的情感倾向,以及从中提取出与情感倾向性论述相关联的各个要素。这些要素包括情感倾向性论述的持有者、评价对象、倾向极性和强度,甚至是论述本身的重要性等。例句(1):“XXX绝不是一款能放心开到公路上的SUV 7。当然,它在公路上的表现令人满意”。通过分析我们可以得到以下两条情感倾向性论述的要素(见表1):

如果说句子是点,那么由句子构成的篇章是线,而由多篇文章组成的语料库就是面。在句子情感倾向分析的基础上,可以很方便地进行篇章的情感倾向分析,甚至可以得到海量信息的整体倾向性态势。

长期以来,客观性信息提取一直是计算语言学的研究热点,但尚未研究透彻。近年来自动内容提取会议(Automatic Content

Extraction,ACE)的评测结果也表明,虽然命

表1 例句(1)的情感倾向性论述的要素

6 Linguistic Variations in Chinese Speech Communities,汉语各地区语言差异研究7

Sport Utility Vehicle,运动型多用途车

图2 新闻报道中的名人

专题报道

名实体识别和指代消解的性能尚可,但实体间关系的提取则显得很困难8,特别在主观性信息的提取方面更是如此。在这方面,有关英文信息的研究很少,且集中在对句子情感倾向性的判断上[10,12]。在此基础上,文献[11]尝试识别情感倾向性论述的持有者。而关于系统地提取句子的情感倾向性信息的多个要素方面的研究,目前还少有报道。

对中文的研究主要集中在句子情感倾向性论述的某个侧面。例如,文献[14]的主要工作是在情感倾向性论述中定位评价对象。考察下面两个例句:

(a)功能很全面,价格也很便宜。

(b)我买电脑时最关心的是功能和价格。

在例句a中,“功能”和“价格”是评价对象,但在例句b中并不是。该文主要考察的是在只有规模很小的标注语料可用时,如何采用半监督自学习方法对评价对象进行迭代学习。

文献[13]则关注于句子情感倾向性的判断。文中提出了一个分级模型,可以将句子的主客观性判别、褒贬分类和褒贬分级统一在一起:将句子分为主观句和客观句,主观句分成赞扬和贬斥两类,每类再分成强烈和微弱两种强度,并提出了一种基于多重标记CRF (Conditional Random Field,条件随机域)的方法加以解决。

文献[15]针对的具体任务是抽取评价词和目标对象之间的关联关系。这里的关联除了句法上的直接关联,还包括语义上的间接关联。目标对象又细分为直接评价对象和间接评价对象两种。如在例句“品牌A的造型很美观”中,评价词是“美观”,“造型”是“美观”直接评价的对象,而“品牌A”是间接评价对象。他们把在同一句子中共现的评价词与评价对象作为候选集合,应用最大熵模型进行关系抽取。

篇章情感倾向性研究

篇章级情感倾向性分析,就是要从整体上判断某个文本的情感倾向性,即褒贬态度。有代表性的工作包括文献[6]和文献[16]对电影评论的分类。文献[6]的方法是通过将文档中词和短语的倾向性进行平均,来判断文档的倾向性。这种方法基于情感倾向性词典,不需要人工标注文本情感倾向性的训练语料。文献[16]的工作是将电影评论的数据按照倾向性分成两类,利用人工标注文本倾向性的训练语料、基于一元(Unigram)和二元(Bigram)等特征以及学习分类器。

将篇章作为一个整体,笼统地进行主观性分析存在很大局限性,其本质缺陷在于假设整个文本是针对同一个对象进行评论。而真实文本往往包含多个对象,不同的对象所涉及到的观点、态度等主观性信息是有差异的。从另一方面看,篇章内的对象总数仍然有限,不足以支撑对整体倾向性的挖掘。因此,这两年根据情感倾向对篇章进行褒贬态度分类的研究有减少的趋势;更多的研究集中在篇章内进行情感倾向性论述的分析,以及在大规模数据集上进行整体倾向性分析。

海量数据的整体倾向性预测

所谓整体倾向性预测,是针对海量数据而言的,其主要任务是:对从不同信息源抽取出的、针对某个话题的情感倾向性信息进行集成和分析,进而挖掘出态度的特点和走势。

杜兰特(Durant)提出利用网络日志(Web log)来帮助对博客情感倾向性进行分类[19]。芝加哥伊利诺依大学(University of Illinois

8 https://www.doczj.com/doc/6a8057447.html,/speech/ tests/ace/index.htm

Chicago,UIC)的刘(Liu)和胡(H u)等人讨论了从评论中挖掘产品特性的方法,从而得到用户对产品或者产品某个特性的整体倾向性[17-18]。例如,他们根据用户评论来比较两个款式的数码相机,并用如图3所示的可视化文摘来显示分析结果,每列代表相机的一个属性,水平线表示中立态度,彩条则反映了用户的褒贬度的主要取值范围。

日本富士通公司则开发出了从中、日、英三种语言的博客和论坛中提取对企业及其产品的评价信息的技术[20],根据从万维网上抓取的大量用户评论得到产

品的整体信誉度,以图表的形式展现不同时间里企业和品牌的正面或负面评价信息9。例如,图4显示了某产品在3个月内用户评价的情况,其中绿、红两种颜色分别表示某一天持肯定、否定态度的评论数,而蓝线则表示评论总数。

该系统受到了产业界的广泛关注,日经产业新闻、日刊工业新闻等报刊和网络媒体对此进行了广泛的报道。上海交通大学也开发了一个类似的用于汉语汽车论坛的意见挖掘系统。其目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见,并判断这些意见的褒贬性和强度。然后,通过对文本处理的综合统计,给出可视化的结果[21]。

标准语料库建设

在国外,文本情感倾向性分析还是一个非常新颖的研究方向,一开始并没有一个文本情感倾向性分析的评测规范对该领域的研究任务进行清晰的定义。同时也没有一个被普遍接受的文本情感倾向性分析的标准语料库来支撑关键技术的研究、评测和应用系统的开发。这个问题使得一段时间内该领域的研究显得比较混乱,不能进行客观的比较测试,严重地影响了该领域的研究水平和技术发展。

国外的研究人员已经意识到了这个问题,并开始着手解决。影评数据集10是使用较多的一个语料库,由电影评论组成,其中持肯定和否定态度的各1000篇。另外还有标注了整体褒贬极性的句子各5000句。影评库广泛应用于词汇和篇章情感倾向研究,但由于未进行更细粒度的标注,它不适应句子情感倾向性分析的要求。

美国农业部北部研究中心的夏季研讨会(NRRC11Summer

Workshop)开发的多观

图3 可视化的文摘分析结果

图4 某产品在3个月内用户评价的情况

9 https://www.doczj.com/doc/6a8057447.html,/cn/frdc/news/20070123.html

10 https://www.doczj.com/doc/6a8057447.html,/people/pabo/movie%2Dreview%2Ddata/

11 Northeast Regional Research Center,美国农业部北部研究中心

专题报道

点问题回答(Multiple-Perspective Question Answering,MPQA)库是一个进行了深度标注的语料库,它标出了倾向性论述的持有者、对象、极性、强度等要素[22-23]。图5是用二分图表示的一组深层标注结果,原文的大意是美国发布的人权报告引起了许多国家的不满。图中左部表示情感倾向论述的持有者,右部为评价对象,箭头上的标记则显示了倾向性的极性和强度。

多观点问题回答语料库存在的主要问题是规模太小,只有57篇文章进行了深度标注,但它所建立的标注规范还是很有意义的。

关于语料标注,还有一个值得关注的问题,即极性和强度应该如何标

注?通常把极性分为褒义、贬义

和中性3类,而把强度分成强、

中、弱3个级别。是否可以分得

更细,研究者们做了许多有意义

的尝试,例如,文献[24]把情感

细分为乐、好、怒、哀、惧、

恶、惊等,共计7大类、20小

类。一般来说,较多的层次表现

力更强,更能体现语言上的细微

差别,但也会给人工标注带来困难,标注者之间更容易产生不一致,此外也会带来一定程度的数据稀疏问题。

系统评测

2006年,文本检索会议(Text REtrieval Conference,TREC)新增加了博客检索评测任务12,对于给定的查询,要求在博客数据集上(近30GB,320万篇)检索带有观点的文章。例如,给定查询对象“Skype13”,要求检索出的网页必须和“Skype”相关,且必须含有主观性信息,而不能是纯客观的叙述。除了观点检索任务之外,还有一个篇章态度分类的子任务,给定一批人工标注了正负极性的训练语料,用来测试基于监督学习的篇章态度分类系统。

如图6所示,在提交的50多组检索结果中,观点检索和常规的相关性检索在性能方面有很大的差距,前者约为后者的2/3,说明主观性分析的准确率还有很大的提升空间[25]。

亚洲语言信息检索评测会议(NTCIR14)的观点分析评测同样出现在2006年。不同于文本检索会议所关注的观点检索,亚洲语言信息

图5 二分图表示的一组深层标注结果

图6 观点检索和常规的相关性检索的性能比较曲线

12 https://www.doczj.com/doc/6a8057447.html,/wiki/TREC-BLOG

13 一款简单的免费软件,使用P2P技术使用户能够在世界上的任何角落拨打免费电话。

14 National Center for Science Information Systems Test Collections for IR,日本国家科学资讯系统中心信

息检索测试集合。http://research.nii.ac.jp/ntcir/ntcir-ws6/opinion/index-en.html

检索评测会议评测的主要任务是从新闻报道中提取主观性信息,并建立中、英、日3种语言的标准语料库。给定各个语种的句子,要求参加评测的系统判断句子是否和篇章的主题相关,并从句子中提取出观点持有者,评价词极性等信息。

图7是亚洲语言信息检索评测会议观点分析的路线图,可以看出他们的目标是进行多语种、多信息源、多粒度、深层次的主观性信息提取。这一目标通过渐近方式实现,比如,即将开始的NTCIR-7评测已经将注意力转移到博客信息源,而对于情感倾向论述,也开始尝试提取被评价对象。

结语

总结情感倾向性分析的研究现状,我们可以发现以下两个特点:

首先是情感倾向分析能给现有的自然语言处理加入许多新的研究内容。和文本检索相结合的产物是观点检索;和信息提取相结合,即

为主观性信息提取。这两个任务目

前已经取得了文本检索会议和亚洲

语言信息检索评测会议的关注。另

外,如果和问题回答相结合,就是

多视角的问题回答;和自动文摘特

别是多文档自动文摘相结合,就是

基于观点的文摘。这些都将成为很

有意义的研究方向。

其次是和W e b2.0技术的紧密结合。文本检索会议评测选择的是博客语料,亚洲语言信息检索评测会议首次评测是在新闻语料上进行的,从第二次起就转移到博客语料上。这是因为博客、论坛作为草根媒体,可以反映大众的真实情感和态度。其中,最为企业界关注的,是从顾客自主媒体(Consumer Generated Media,C G M)上获取产品评论信息,分析用户对于产品是持肯定还是否定的态度,并进行综合分析,而这也是最困难的任务。

和国外的研究相比,中文的情感倾向性分析有一定滞后,现有的主要工作集中在词语的情感倾向性分析。对情感倾向进行更细致的研究,特别是句子级的倾向性分析和海量信息的整体倾向预测,将是未来的主要研究趋势。与此同时,制订情感倾向性语料库标注规范,充分覆盖情感倾向性论述的要素;按照严格的程序进行人工标注和一致性检验,得到较大规模的细粒度标注语料库,并在此基础上对情感倾向分析方法进行客观公正的评测,必将是对中文情感倾向研究的重大贡献。■

图7 亚洲语言信息检索评测会议观点分析的路线图

黄萱菁

中国计算机学会高级会员,复旦大学计算机科学与工程系教授,博士生导师。1998年获得复旦大学计算机软件专业博士学位。研究兴趣:自然语言处

理和信息检索。赵 军

中国计算机学会高级会员,中国计算机学会名词审定工作委员会委员。中国科学院自动化研究所模式识别国家重点实验室副研究员,博士生导师。1998年获得清华大学计算机应用专业博士学位。研究兴趣包括:自然语言处理、信息检索

和信息提取。

专题报道

参考文献

[1] Stone, Philip J., Dunphy, Dexter, Smith, Marshall, Ogilvie, Daniel, 1966. The General Inquirer: A Computer

Approach to Content Analysis. MIT

[2] 王治敏, 朱学锋, 俞士汶, 基于现代汉语语法信息词典的词语情感评价研究, Recent advancement in Chinese

Lexical Semantics, Proceeding of 5th Chinese Lexical Semantics Workshop (CLSW-5), 2004, Singapore

[3] Hatzivassiloglou and McKeown, Predicting the Semantic Orientation of Adjectives. In: Proceedings of ACL-97, 35th

Annual Meeting of the Association for Computational Linguistics, pages 174-181, Association for Computational

Linguistics, Madrid, ES, 1997.

[4] Theresa Wilson , Janyce Wiebe, and Paul Hoffmann, Recognizing Contextual Polarity in Phrase-Level Sentiment

Analysis, HLT-EMNLP-2005

[5] 朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德, 基于HowNet 的词汇语义倾向计算, 中文信息学报, 2006(1)

[6] Turney Peter, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of

Reviews. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 417-424,

2002

[7] Turney, Peter D., & Littman, Michael L. 2003. Measuring praise and criticism: Inference of semantic orientation from

association. ACM Transactions on Information Systems, 21(4), 315-346

[8] J. Wiebe, J. M. A corpus study of evaluative and speculative language. In Proceedings of the 2nd ACL SIG on

Dialogue Workshop on Discourse and Dialogue (Aalborg, Denmark)

[9] T'sou Benjamin, Kwong Olivia, Wong Wei-Lung, Lai Tom. 2005, Sentiment and Content Analysis of Chinese News

Coverage, International Journal of Computer Processing of Oriental Languages, 18: 171-183

[10] Kim, S. & E. Hovy. 2004. Determining the Sentiment of Opinions. In: Proceedings of COLING-04: the 20th

International Conference on Computational Linguistics, 2004

[11] Soo-Min Kim and Eduard Hovy, Identifying Opinion Holders for Question Answering in Opinion Texts 2005, In:

Proceedings of AAAI-05 Workshop on Question Answering Restricted Domains. 2005

[12] J. Wiebe and E. Riloff, Creating Subjective and Objective Sentence Classifiers from Unannotated Text. In:

Proceedings of CICLING, 2005

[13] 王根, 赵军, 基于多重标记CRF的句子情感分析研究, 全国第九届计算语言学学术会议, 清华大学出版社, 大

连, 2007

[14] 王波, 王厚峰,基于自学习策略的产品特征自动识别, 全国第九届计算语言学学术会议, 清华大学出版社, 大

连, 2007

[15] 章剑锋, 张奇, 黄萱菁, 吴立德, 中文评论挖掘中的主观性关系抽取, 第三届全国信息检索与内容安全学术会

议, 苏州, 2007

[16] Pang. B, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment. Classification using Machine Learning Techniques.

In: Proceedings of EMNLP 2002

[17] Hu, Minqing, & Liu, Bing. 2004a. Mining and summarizing customer reviews. Pages 168-177 of: Proceedings of

KDD'04

[18] Liu, Bing, Hu, Minqing, & Cheng, Junsheng. 2005. Opinion observer: analyzing and comparing opinions on the Web.

Pages 342-351 of: Proceedings of WWW'05

[19] Kathleen T. Durant & Michael D. Smith. 2006. Mining Sentiment Classification from Political Web Logs.

Proceedings of WEBKDD'06

[20] 张军, 于浩, 内野宽治, UGC中产品评论信息的挖掘, 全国第九届计算语言学学术会议, 清华大学出版社, 大

连, 2007

[21] 姚天, 聂青阳, 李建超, 一个用于汉语汽车评论的意见挖掘系统中国中文信息学会二十周年学术会议,2006

年, 北京

[22] Janyce Wiebe, Eric Breck, Chris Buckley, Claire Cardie, Paul Davis, Bruce Fraser, Diane Litman, David Pierce,

Ellen Riloff, Theresa Wilson, NRRC Summer Workshop on MPQA: Multi-Perspective Question Answering, Final

Report, 2002

[23] Wiebe, Janyce, Wilson, Theresa, and Cardie, Claire. Annotating Expressions of Opinions and Emotions in Language.

Language Resources and Evaluation, 2005

参考文献

[24] 陈建美, 林鸿飞, 杨志豪, 基于贝叶斯模型的词汇情感消歧, 全国第九届计算语言学学术会议, 清华大学出

版社, 大连, 2007

[25] Iadh Ounis , Maarten de Rijke, Craig Macdonald, Gilad Mishne, Ian Soboroff, Overview of the TREC-2006 Blog

Track, Proceedings of TREC2006, Gaithersburg, USA

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.doczj.com/doc/6a8057447.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.doczj.com/doc/6a8057447.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.doczj.com/doc/6a8057447.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.doczj.com/doc/6a8057447.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

文本情感分析论文总结

文本情感分析 赵妍妍,秦兵,刘挺- 软件学报, 2010 - https://www.doczj.com/doc/6a8057447.html, 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。 情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者) 1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。 2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评 价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。 3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做 序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4.组合评价单元的抽取: 主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类 1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于 分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语 特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1.情感信息检索 2.情感信息归纳 基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。 基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源 1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析), 国内的COAE。 2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料, Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。 3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英 文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

情感文本分析

情感文本分析 [摘要]本文运用扎根理论对龙源2012年具有代表性的5种期刊中点击率高的30篇情感类文章进行文本分析,通过开放性和选择性编码,归纳出这些热点情感类文章的核心范畴,并以此构建了情感类文章的核心结构模型。通过分析该模型发现,婚姻冲突是情感类文章的关键,婚恋指导是情感类文章的核心,这两个要素是情感类文章写作与编辑时需要把握的两个重要指标,同时也是情感类期刊在组织文章时可资参考的一种结构。 [关键词] 情感类文章婚姻冲突婚恋指导扎根理论 一、引言 随着时代变迁和社会发展,人们的价值观和婚恋观也随之发生改变,由此产生了一系列社会问题,从而引发了人们对于当今社会情感婚姻问题的探讨,作为情感类期刊,它其中的文章更要直接面对这个问题。本文将以龙源2012年具有代表性的5种情感类期刊中点击率高的情感类文章为例,运用扎根理论,深入分析这类文章受欢迎的因素。 二、概念界定 本部分主要对本文涉及的术语进行界定,厘清其概念,为后文的研究奠定基础。 (一)情感类期刊 随着人民生活水平的提高,除却对物质方面的追求外,人们开始越来越重视对情感方面的追求。正因如此情感类期刊在我国有很好的发行量,例如《知音》、《家人》、《家庭》、《婚姻与家庭》、《恋爱婚姻与家庭》、《爱情婚姻与家庭》等知名情感类期刊,都深受读者的好评。情感类期刊有一个共同的特点,就是能够从读者的某种需求切入,投影,准确抓住读者心灵和情感层面的特殊需求,坚持自己的办刊特色,并狠抓文章在这一理念上的品质,把文章质量做到了一种极致,深深扎入读者的心灵和生活当中。 (二)扎根理论 扎根理论研究法是由芝加哥大学的Barney Glaser和哥伦比亚大学的Anselm Strauss两位学者共同发展出来的一种研究方法,是运用系统化的程序,针对某一现象来发展并归纳式地引导出扎根的理论的一种定性研究方法。扎根理论研究法就是,在研究开始之前研究者一般没有理论假设,而是带着研究问题将收集到的原始资料进行思考、比较、分析、归类、概念化并加以关联和建构,并将隐藏在资料中的理论通过研究者的理论触觉挖掘出来,扎根理论的本质是归纳法,主旨是在经验资料的基础上构建理论。 三、基于扎根理论的情感类文章文本分析 为了挖掘情感类文章受欢迎的因素,本文根据龙源网提供的5家具有代表性的期刊《伴侣》、《婚姻与家庭》、《家庭》、《恋爱婚姻家庭》和《人生与伴侣》五家期刊社的《2012年度个刊数据分析报告》,选择其中每家刊社2012年度国内阅读TOP10文章作为研究素材,在逐篇阅读和分析之后,从中筛选出内容涉及情感婚恋的文章,共30篇。最终确定这30篇文章为本文深入研究的对象。 1、挖掘情感类文章的相关概念 研究者以开放的心态基于资料,贴近数据,用概念来表达数据,并将具有相似属性的概念进行归类形成范畴。对文本进行开放编码,逐句逐段进行分析,使得编码契合数据。抽取相关的概念,对所得到的概念及其范畴反复考察,最终从文章中抽取出119个概念和20个范畴。概念数量庞杂而且有交叠,范畴则是对概念的重新分类整合,成为后续研究的重点。挖掘出的20个范畴(A1~A20)分别为爱情观、婚后夫妻沟通、婚姻危机、婚后理性处事、婚姻观、婚姻调适、幸福生活、夫妻性生活、专家意见、现实压力、婚姻问题、异国婚姻、残疾人婚恋、法律纠纷、奇妙缘分、恋爱故事、新式婚恋、养育子女、名人婚恋、违法犯罪。经过多次整理分析得到如下范畴,表1为情感类文本开放编码形成的范畴。

文本情感分析

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.doczj.com/doc/6a8057447.html, Journal of Software, V ol.21, No.8, August 2010, pp.1834?1848 https://www.doczj.com/doc/6a8057447.html, doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563 ? by Institute of Software,the Chinese Academy of Sciences. All rights reserved. 文本情感分析 ? 赵妍妍+ , 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨150001) Sentiment Analysis ZHAO Yan-Yan + , QIN Bing, LIU Ting (Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: E-mail: yyzhao@https://www.doczj.com/doc/6a8057447.html, Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834?1848.https://www.doczj.com/doc/6a8057447.html,/ 1000-9825/3832.htm Abstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field,making detailed comparison and analysis. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信 息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分 析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前 沿进展进行概括、比较和分析. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391 文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯 的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主

开题报告(文献综述)-在线评论分析系统的情感分析

开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告 论文题目在线评论分析系统的情感分析开题报告内容: 一、选题的背景及意义 近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。 然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行 收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。 文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。进入21 世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。目前

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。 情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。 1 基于统计机器学习法 随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

024047中文文本情感倾向性分析

中文文本情感倾向性分析1 黄萱菁 赵 军 复旦大学 关键词:情感倾向 语料库 引言 大约在两年半前,《新华网》、《环球时报》等大众媒体纷纷转载了英国《新科学家》杂志的一则报道,英国Corpora软件公司开发了一套名为“感情色彩(Sentiment)”的软件2,它能判断报纸刊登的文章对一个政党的政策是持肯定态度还是否定态度,或者网上的评论文章是称赞还是贬低一种产品,并以此帮助政府和一些大公司全面了解公众对他们的看法。这则报道之所以引起了舆论的广泛关注,是因为它介绍了一个非常新颖而又很有价值的研究方向—文本情感倾向性分析。 所谓文本情感倾向性分析,就是对说话人的态度(或称观点、情感)进行分析,即对文本中的主观性信息进行分析。由于立场、出发点、个人状况和偏好的不同,民众对生活中各种对象和事件所表达出的信念、态度、意见和情绪的倾向性必然存在很大的差异。在论坛、博客(blog)等反应草根观点的网络媒体上,这种差异表现得尤为明显。 长期以来,要了解关于某个问题的报道是正面的还是反面的,是消极的还是中立的,往往需要求助于调查公司。这些公司的员工仔细阅读有关某个机构、个人、事件或问题的所 1 本项研究受国家自然科学基金课题资助(60673038,60673042)。 2 https://www.doczj.com/doc/6a8057447.html,/products/sentiment.aspx 图1 英国Corpora软件公司的“感情色彩(Sentiment)”的软件

专题报道 有文字,然后就这些评论的态度做出反馈。这不仅耗费了大量人力和财力,而且过程相当缓慢。由此可见,文本情感倾向性的自动分析具有很好的商业应用前景。 文本情感倾向性分析属于计算语言学的范畴。以前,在计算语言学以及相关领域,研究人员普遍关注的是客观性信息的分析和提取,对主观性信息分析与提取的研究尚处于起步阶段,其中存在的很多问题都需要进行全面探索。这项研究涉及到计算语言学、人工智能、机器学习、信息检索和数据挖掘等多方面研究内容,因此文本情感倾向性分析也具有重要的学术研究价值。 总体来看,文本情感倾向性分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究以及海量信息的整体倾向性预测等四个研究层次。接下来将首先介绍在各个层次所取得的研究进展,其次介绍情感倾向性分析标准语料库的建设和系统评测,最后是本文的结论。 词语情感倾向性分析 对词语的情感倾向进行研究是文本情感倾向分析的前提。具有情感倾向的词语以名词、动词、形容词和副词为主,包括人名、机构名、产品名、事件名等命名实体。其中,除部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中性三种)可以通过查词典3的方式得到之外,其余词语的极性都无法直接获得。此外,词语的情感倾向还包括倾向性的强烈程度。例如,“谴责”的强度就远远超过了“批评”和“指责”,而这种强度很难由词典编撰者用人工的方式进行量化。另外,词语的极性往往取决于特定的上下文环境,例如,“骄傲”在表示“自豪”概念时,是褒义词;而在表示“自满”概念时,则是贬义词。 词语情感倾向分析包括对词语极性、强度和上下文模式的分析。其分析结果甚至可以写入到语义词典中,如北京大学计算语言学研究所以基于人民日报基本标注语料库的真实文本为实例,进行统计归纳得到词语的情感倾向,而后在现代汉语语法信息词典中实现形式化[1]。词语情感倾向分析目前主要有以下三种方法:1.由已有的电子词典或词语知识库扩展生成情感倾向词典。英文词语情感倾向信息的获取主要是在WordNet4和General Inquirer5的基础上进行的文献[3-4] ;而中文词语情感倾向信息的获取依据主要有HowNet[5]。这种方法的主要思想是,给定一组已知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与该词语义相近并且在种子集合中出现的若干个词,根据这几个种子词的极性,对未知词的情感倾向进行推断。这种方法对种子词数量的依赖比较明显。 2.无监督机器学习的方法。这种方法与第1种方法类似,也是假设已经有一些已知极性的词语作为种子词,对于一个新词,根据它和种子词的紧密程度对其情感倾向性进行推断。不同的是,第1种方法的词语紧密程度的度量是以词典信息为依据判断,而这种方法是根据词语在语料库中的同现情况判断其联系紧密程度。根据文献[6-7]的经典方法,假设以“真”、“善”、“美”作为褒义种子词,“假”、“恶”、“丑”作为贬义种子词,则任意其它词语的语义倾向定义为,将与各褒义种子词的点态互信息量(Point of Contact Information,PMI)之和,减去与各贬义种子词的点态互信息量之和后所得的结果。语义倾向的正负号就可以表示词语的极性,而绝对值 3 例如,General Inquirer [Stone,1966],知网:heep://https://www.doczj.com/doc/6a8057447.html, 4 WordNet 5 通用查询者,最早为KWIC编写的程序之一,该程序根据基于理论编写的词典给单词分类。

2016年,文本分析、情感分析和社交分析的10大趋势

文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。 它从文本中、音频中、图像中还有网络连接中提取洞察力,它可真是个有用的东西! 目前分析技术发展得还是相当不错的,尽管在某些领域,例如数字分析和市场研究有些稍稍落后。但是甚至是在例如“客户体验、社群聆听、用户交互”方面,还是有很多发展空间。这个快速发展的市场空间无论对于新加入的玩家还是深耕已久的资深人士都意味着大量的机遇。 随着技术和应用不断融合,与其独立地检验每个分析领域,还不如好好地观察整体的效果。忽视情感的社交分析是不完整的,并且为了从网络上获取社交情感数据并调查情感数据,我们真的需要文本分析技术。 本文对即将到来的2016年,针对文本分析、情感分析和社交分析的发展趋势进行一个前瞻性的观察。 一、多语言才是王道 尽管单纯英文的文本分析一直保持常态,但仅将一种语言做好,也比囊括很多种语言,却哪种都做得潦草要强得多。机器学习和机器翻译已经向着多语种文本分析迈进了一大步,使其成为一个全新的标准。但是如果你的确需要做多语种的开发尝试,事先也要做一些调查:很多开发者在其核心语言上很强,但在别的语言上就很弱了。所以说选择的时候还是小心一点。 二、文本分析获得认可 文本分析能力对于客户体验、市场研究、客户洞察、数字分析乃至媒体评测来说都是关键解决方案,各个文本分析服务提供商在分析能力的优势上不断竞争。总的趋势是“量化定性”,文本分析被纳入业务解决方案中是十分重要的事。 三、机器学习、统计学和语言工程并存 明天是属于机器学习、递归神经网络以及相似技术的,但是今天,长期建立的语言工程方法仍占上风。这里我指的是分类系统、分析器、词法和句法网络以及句法规则系统。目前我们处在一个“百花齐放、百家争鸣”的时代,所以很多种方法都是可以并存的。举例来说,甚至众包数据处理的领军企业:CrowdFlower都全面拥抱机器学习了,初创企业Idibon都把传统和现代相结合作为一大卖点:“你可以组建自定义的分类系统,并使用机器学习、规则和你已有的字典/模式去调整它们。”

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sen time nt Classificati on on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwa ng@t on https://www.doczj.com/doc/6a8057447.html,.c n 。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 Analyzing the users' reviews on the Webcan help us to identify users' implicit

sen time nts and find the evoluti on laws of their emoti on. To this end, this paper is a survey about the sen time nt classificati on on the Web text. We divided the process of classificati on into three categories:subjective and objective classification,polarity iden tificati on and in ten sity ide ntificati on and respectively summarize the rese nt research achieveme nts in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural Ianguage processing. What is more, the choice of corpus and pote ntial research problems are discussed. At last, this paper summarized the status quo of applicatio n and poin ted out the direct ion of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classificati on/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分析的一个重要问题就是情感倾向性的判断,即判断作者的观点是褒义的、积极的,还是贬义的、消极的。这类问题也被称为情感分类(sentiment classification) 。

相关主题
文本预览
相关文档 最新文档