当前位置：文档之家› 基于微博文本挖掘的投资者情绪与股票市场表现研究_张伟

基于微博文本挖掘的投资者情绪与股票市场表现研究_张伟

微博文本

7-14 109师傅对十字路口交通隐患的看法 #行走的青春#今天我们引路者团队对十字路口交通隐患很有发言权的109师傅进行了采访。 109师傅对十字路口直行和左拐弯同步进行是否有安全隐患表示，很多行人认为绿灯亮了之后就不用在注意是否有车辆通行了，所以这对司机进入路口后的驾驶就要求更加谨慎，所以车辆在左拐弯的时候会减速很多，但是有些不常在这种路口行驶的司机在驶入这种路口时就会大大增加了发生事故的可能性，例如当司机在左拐弯时速度并没有降的很低，当一个行人猛的一下出现司机没有足够的时间将车辆控制在安全状态下，就容易出现交通事故。这就大大降低了这种交通信号灯的安全性。同时，109师傅还表示如果将信号灯改为直行和人道横道的信号灯变为红灯后再进行左拐弯，这就会更加安全些。 109师傅对烟台市十字口的红绿灯时间的设置表示，红绿灯时间的设置是交通部门根据车流量和人流量的大小来制定红绿灯时间的长短，所以信号灯时间的设置应该都是比较合理的。同时109师傅对车辆闯黄灯的现象还发出了自己的见解，他们说，以前“闯黄灯”属于交通违章行为，依法应当受到处罚，但由于司机在看见黄灯时急刹车导致很多追尾事件的发生，所以现在对于闯黄不做处罚，只是进行教育。他认为黄灯是不能取消的，因为司机闯黄灯的时候一般都是有所顾忌的，如果取消黄灯，那没有一个缓冲过程，事故会更多的。最后，109师傅对我们周边路口手控红绿灯的安全性表示，手控红绿灯的安全性很低，司机的急刹车很可能会造成追尾事件，同时也有些行人会故意按下红绿灯，这样会耽误司机很多时间，同时也容易发生交通事故。通过对109师傅的采访，发现十字路口的交通隐患还是很多的，左拐弯和直行同时进行，车辆闯黄灯，手控红绿灯的运用这些都在现实生活中或多或少的埋下了交通隐患，安全是社会重中之重的大事，只有了行人以及车辆还有交通部门统一协调，共同重视，就一定会大大减少交通事故的发生。 7-15 #行走的青春#07.14早晨，我们引路者团队对烟台莱山区、芝罘区等十字路口的交警进行了采访。采访的内容如下：我们主要是询问了他们怎么看待行人直走和车辆左拐弯这一交通现象的？这种红绿灯的设置是否合理？交警表示一般的司机都会让行人先通过，当然这也取决于行人欲司机的素质。烟台的十字路口的红绿灯都是这样设置的，全国也只有很少的城市的某些人流量和车流量很大的路口会设置四个红灯都亮，让行人先通过，机动车辆后运行的。如果都这样设置的话很可能会造成交通拥堵。接着交警回答了我们“闯黄”算不算交通违规？交警介绍以前“闯黄”属于交通违规行为，依法应该受到处罚，但是因为禁止闯黄造成了很多追尾事件，所以现在闯黄不算是违章，也不会扣司机的分。交警又向我们介绍了怎么使用手控红绿灯？有什么注意事项？交警认为这个设置不是很合理，安全性有点低，行人按了红绿灯后可能是司机急刹车而发生交通事故。并且交警说这个受控红绿灯会在几个月内换成自动的。接着我们又对莱山区的几个交警进行了采访，交警们的回答基本上是一致的，交警今天对我们的有些疑问进行了比较专业的解答，对交通知识的普及以及一些注意事项都有很大的帮助。 7-16 今天我们引路者团队结束了在烟台最后一天的社会实践，主要到莱山区和芝罘区主要路口进行了影像资料的采集，今天的天气可谓是伏天来临的最好征兆，几天雨天天气后，空气中的水分加上今天的大太阳，真正造就了桑拿天，把我们这些进行户外社会实践的人儿们可害惨了！！

微博内容规范

微博内容发布界定： 1、在行使个人言论自由和权力的同时，不得损害国家的、社会的、集体的利益和其公司的合法权力。 2、维护企业的经营安全、荣誉和利益的义务，不得有危害企业经营安全、荣誉和利益的行为。 3、不发表含有任何蕴含国别歧视、民族歧视、种族歧视、宗教歧视、性别歧视、生理残疾歧视、文化歧视、行政地域歧视及暴力等其他有悖于公俗良允的内容。 4、不在微博发布和谈论涉及政治、宗教信仰等敏感类话题，以及执政党、政治人物的稗官野史。 5、远离谣言的信息链，不造谣、不信谣、不传谣，不主观臆断，不随意转发和评论可能发起争议的微博。 6、企业领导人官方微博、专家微博、员工微博，不得将个人凌驾于组织之上发布与其个体身份不相适宜的言辞或信息内容。 7、不在微博上发布和谈论涉及商业机密和话题。 8、不发布未经确认的敏感类新闻。 9、不在微博上发布道听途说、未经确认的时事新闻、商业领袖的言论观点及明星的花边新闻、绯闻。 10、谨言慎行，不在微博上随意批评竞争对手及与企业正在合作中得客户和品牌，不陷入任何企业间的恩怨争端，保持中立、静默言行立场。 11、不在微博内容中使用任何不雅的粗俗言语宣泄个人情绪，禁止用任何方法对他人进行侮辱、诽谤、污蔑和打击报复。 12、以原创类或原创格式发布的微博内容，若不属于个人独立创作完成或共同参与创作的原

创作品，不得侵犯他人知识产权，不得与他人先取得的合法权力相冲突。 13、以复制方式获取微博文字内容并原创发布，必须在正文引注文字的出处来源，或在正文适当位置及评论处以@呼叫或版权符号标注拥有著作权文字作者，或标注作品出处，以免引发不必要的著作权纠纷。 14、原创类微博的配图，不得使用淫秽低俗、有碍观瞻并可能引发非议图片。严禁侵犯他人的肖像权，禁止通过软件技术对他人的肖像进行损毁、玷污、丑化和歪曲。评论微博界定： 1、坚决不发表不便于表白立场的评论观点，以避免在他人回复评论+转发时对外公示，间接发布我方评论。 2、不参与一切涉及人身攻击、人格尊严侵犯的网络口水之争，不参与倾向于任何一方的感情支援，包括企业领导人、同事、亲友等主体。 3、以案例研究为出发点的评论，语气、措辞及观点必须恪守中立观点，若不能判断拿捏分寸是否得当，则不得发表评论。转发微博的界定: 1、转发必须是带评论的转发。（微博自带的“转发微博”也可以。） 2、转发微博内容须有选择性： A、客户在微博上对企业的产品或服务的投诉、抱怨、质疑类的微博坚决不转发，但须通过私信及时沟通，或私信批转给相应人员处理。 B、粉丝微博或其他第三方微博的内容，如果与企业所属的行业、产业，以及企业的产品、服务等毫无关联，无论该微博内容具有怎样的可读性或娱乐性，都不得为了博取粉丝的眼球而转发。 C、不得毫无创意的将自己的微博再次单纯转发。

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.doczj.com/doc/854269609.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

面向中文微博文本的情感分类研究

目录摘要....................................................................................................................................... I ABSTRACT .......................................................................................................................... II 第一章绪论.. (1) 1.1 研究背景 (1) 1.2 研究意义及应用领域 (2) 1.3 研究现状 (3) 1.3.1 主客观文本分类研究现状 (3) 1.3.2 微博情感分类研究现状 (4) 1.3.3 微博倾向性分析相关评测 (6) 1.4 研究思路 (6) 1.5 本文的主要工作 (7) 1.6 本文的结构安排 (7) 第二章微博情感分类相关技术 (8) 2.1 微博文本情感分类基本流程 (8) 2.2 语料库构建技术 (8) 2.3 微博文本预处理技术 (9) 2.3.1 微博文本分词 (9) 2.3.2 微博停用词及特殊符号的过滤 (10) 2.4 微博情感词典构建技术 (11) 2.4.1 情感词典资源介绍 (11) 2.4.2 微博情感词的识别与倾向性判断 (12) 2.5 微博情感特征选择算法与特征权值计算 (15) 2.5.1 微博情感特征选择算法 (15) 2.5.2 微博特征权值计算方法 (17) 2.6 微博情感分类算法 (17) 2.6.1 基于情感词的微博情感分类算法 (17) 2.6.2 基于朴素贝叶斯的微博情感分类算法 (18) 2.6.3 基于K近邻的微博情感分类算法 (19) 2.6.4 基于支持向量机的微博情感分类算法 (20) 2.7 微博情感分类效果的评价指标 (21) 2.8 本章小结 (22) IV

不同人格倾向微博用户的情绪表达分析

不同人格倾向微博用户的情绪表达分析微博平台作为中文区最大的社交网络媒体早已成为网民发表观点与表达情绪的重要阵地。社交网络媒体文本中蕴含的情绪信息能够对他人产生影响,并且有可能在公共事件传播上起到不可忽视的作用,这就使得有必要探究个体在此类环境中的情绪表达特点。人格作为影响情绪表达的重要因素,以往在研究人格对情绪表达的影响时,通常以压力情景作为实验场景,将情绪表达作为个体面对压力时的情绪应对策略。对于社交网络媒体环境下,人格对情绪表达的影响还研究得比较少。因此,本研究选择微博平台,对不同人格倾向用户的情绪表达特点进行分析。由于利用传统问卷获取大量微博用户的人格分数费时费力,本研究首先选择建立分类模型以实现对微博用户的人格预测, 再使用在线文本分析技术对不同人格类型微博用户的情绪表达特点进行分析。在研究一中,首先利用前人研究结果中与大五人格各维度最相关的表达词汇作为种子词,进行翻译和分类。再随机爬取3374名中文活跃微博用户的原创微博作为语料库,利用Word2Vec和语料库对翻译后的种子词进行扩充。再基于协商一致原则,由两名心理学硕士对扩充后的词汇进行筛选,形成初版人格词库。随后,选取三种分类机器学习算法对初版人格词库进行验证,并且利用随机森林结果中的特征重要性对初版人格词库中的词汇进行筛选,形成最终版的人格词库和人格预测模型。在研究二中,根据研究一得到的人格词库和人格预测模型对从微博平台随机爬取的1868名微博用户打上人格标签, 分为高低两种人格倾向。再根据已有的情绪词库、否定词库和词汇匹

配技术进行情感分析,计算含有每种情绪类别情绪词的微博条数占比,并利用贝叶斯t检验对高低两种人格倾向用户的结果进行分析。最后对大五人格各维度下高倾向用户的情感分析结果进行总结。据此,本研究得到以下结论:(1)从混合情绪角度出发,高开放性微博用户会表达更少消极情绪;高尽责性微博用户会表达更少消极情绪;高外倾性微博用户会表达更多积极情绪,表达更加情绪化;高宜人性微博用户会表达更多积极情绪,更少消极情绪;高神经质微博用户会表达更多消极情绪,表达更加情绪化。(2)从8种基本情绪的角度出发,高开放性微博用户会表达更少愤怒情绪;高尽责性微博用户会表达更少愤怒情绪;高外倾性微博用户会表达更多的快乐和喜爱情绪;高宜人性微博用户会表达更多快乐、喜爱和期待情绪,表达更少愤怒、焦虑和厌恶情绪;高神经质微博用户会表达更多愤怒、焦虑、厌恶和悲伤情绪。

中文微博情感分析评测结果(2012)

2012年CCF自然语言处理与中文计算会议中文微博情感分析评测结果 1.提交结果编号本次评测共有34支队伍提交53组有效结果，提交结果编号及所属参评单位对应情况如表1所示。表1 提交结果编号与参评单位对照表提交结果编号参评单位 1 北京工商大学 2 北京工商大学 3 北京航空航天大学计算机学院 4 北京航空航天大学计算机学院 5 北京理工大学海量语言信息处理与云计算应用工程技术研究中心1 6 北京理工大学网络搜索挖掘与安全实验室 7 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 8 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 9 大连理工大学 10 大连理工大学 11 广东工业大学DMIR实验室 12 哈尔滨工业大学语言技术研究中心网络智能研究室 13 哈尔滨工业大学语言技术研究中心网络智能研究室 14 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 15 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 16 哈尔滨工业大学（威海） 17 海军工程大学信息安全系 18 黑龙江大学计算机科学技术学院 19 湖南工业大学计算机与通信学院 20 湖南工业大学计算机与通信学院 21 湖南科技大学外国语学院 22 华侨大学计算机科学与技术学院 23 华侨大学计算机科学与技术学院 24 华中科技大学 25 南京大学计算机科学与技术系自然语言处理研究组 26 南京理工大学 27 南京理工大学 28 清华大学计算机系智能技术与系统国家重点实验室信息检索组 29 清华大学计算机系智能技术与系统国家重点实验室信息检索组 1参评队伍联系人为刘全超 2参评队伍联系人为王金刚

基于微博短文本的用户兴趣建模方法

———————————— 基金项目基金项目：：国家自然科学基金资助项目(70971059)；辽宁省创新团队基金资助项目(2009T045)；辽宁省高等学校杰出青年学者成长计划基金资助项目(JQ2012027) 作者简介作者简介：：邱云飞(1976－)，男，教授、博士，主研方向：数据挖掘；王琳颍，硕士研究生；邵良杉，教授、博士生导师；郭红梅，硕士收稿日期收稿日期：：2013-01-05 修回日期修回日期：：2013-03-05 E-mail ：qyf321@https://www.doczj.com/doc/854269609.html, 基于微博短文本的用户兴趣建模方法邱云飞1，王琳颍1，邵良杉2，郭红梅3 (1. 辽宁工程技术大学软件学院，辽宁葫芦岛 125100；2. 辽宁工程技术大学系统工程研究所，辽宁阜新 123000； 3. 阜新市实验高中，辽宁阜新 123000) 摘要：针对微博用户兴趣建模问题，提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题，在分析微博短文本结构和内容的基础上，给出微博短文本重构概念，根据微博相关的其他微博短文本和文本中包含的 3种特殊符号，进行文本内容的扩展，从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类，划分用户的兴趣集合，并给出用户兴趣模型的表示机制。实验结果表明，短文本重构和概念映射提高了聚类效果，与基于协同过滤的微博用户兴趣建模方法相比，平衡均值提高29.1%，表明构建的微博用户兴趣模型具有较好的性能。关键词关键词：：微博；短文本重构；概念映射；短文本聚类；用户兴趣模型 User Interest Modeling Approach Based on Short Text of Micro-blog QIU Yun-fei 1, W ANG Lin-ying 1, SHAO Liang-shan 2, GUO Hong-mei 3 (1. School of Software, Liaoning Technical University, Huludao 125100, China; 2. System Engineering Institute, Liaoning Technical University, Fuxin 123000, China; 3. Experimental High School of Fuxin, Fuxin 123000, China) 【Abstract 】In this paper, a method on modeling user’s interests based on short text of micro-blog is presented. In order to overcome the lack of information in short text, on the base of analyzing the structure and content of micro-blog short text, this paper proposes an approach on micro-blog short text reconstruction, and namely, according to the other related and the three kinds of special symbols of the text, extends the content, thereby extending the characteristic information of original micro-blog. It takes advantage of HowNet2000 concept dictionary to map the feature set of reconstruction text to a set of concepts. It clusters the set of concepts to divide user’s interests, and meanwhile, a representation mechanism of user interest model is presented. Experimental results show that the short text reconstruction and concept mapping can improve the effect of clustering. Compared with the modeling based on collaborative filtering, F -Measure value is increased by 29.1%. This means the proposed micro-blog user’s interest modeling has a better performance. 【Key words 】micro-blog; short-text reconstruction; concept mapping; short-text clustering; user interest model DOI: 10.3969/j.issn.1000-3428.2014.02.060 计算机工程 Computer Engineering 第40卷第2期 V ol.40 No.2 2014年2月 February 2014 ·开发研究与工程应用开发研究与工程应用·· 文章编号文章编号：：1000—3428(2014)02—0275—05 文献标识码文献标识码：：A 中图分类号中图分类号：：TP393 1 概述近年来，微博以其便捷、及时的信息分享、传播和获取的特点，迅速在网民间普及，并逐渐地影响着人们的生活和思维方式。2012年湖北武汉举行的第十一届中国网络媒体论坛透露，目前，微博客等社交网络呈蓬勃发展势头，中国微博客用户已经超过3亿[1]。现在，很多微博平台提供了推荐功能——“可能感兴趣的人”，但这是基于用户关系的推荐机制。如何在人海中找到志趣相投的人，那么分析用户所发表、转发和评论的信息内容来获取用户的兴趣，建立兴趣模型，基于这样的兴趣，与其他用户兴趣模型进行相似度匹配来推荐关注对象，便可以找到具有真正相同兴趣爱好的朋友。此外，建立用户兴趣模型也是微博用户个性化服务[2]和商业广告投放等领域首要也是重要的研究内容。用户兴趣建模包括基于行为和基于文本内容2类，本文属于基于文本内容的兴趣建模。与传统的基于示例文本的兴趣建模不同，基于微博文本挖掘用户兴趣的载体是微

基于深度学习的文本情感分析技术研究

基于深度学习的文本情感分析技术研究在Web2.0时代,信息技术飞速发展,人们越来越多地在网络平台上发表自己的观点和意见。随着这些评论数据量的爆炸式增长,如何提取利用其中的情感信息也成为人们的关注热点,文本情感分析技术随之兴起。情感分析工作就是对含有情感色彩的主观性文本进行分析,挖掘出其蕴含的情感倾向的过程,而文本的主客观分析是情感态度分析的基础。作为自然语言处理领域的一个重要分支,情感分析在理论方面有着较高的研究意义。随着词向量的提出,基于深度学习的自然语言处理技术快速发展。面对大量的文本数据,深度神经网络强大的学习表达能力得到了展现。本文对基于深度学习的文本情感分析技术进行研究,主要工作如下:第一,构建了基于多头自注意力机制的文本情感分析模型。研究了深度学习中的注意力机制,其中自注意力机制能够关注到文本内部词语之间的依赖关系。因此,在文本情感分析任务上,引入了多头自注意力机制,并通过结合非线性子层双向门控循环单元增强模型的学习能力。实验结果表明,构建的模型在情感分析任务上的准确率得到了提升。第二,针对情感分析的子任务主客观分析,构建了基于线性门控卷积的网络模型。通过对不同的门控机制进行研究,在卷积神经网络的基础上引入了线性门控机制;并使用多个不同尺寸的卷积核提取文本特征。实验结果表明,构建的模型在主客观分析任务上表现突出,性能优于其他模型。论文主要的创新点和贡献是:将多头自注意力机制引入到文本情感分析领域,并通过结合非线性子层对模型进行了改进,提升了模型的准确率;在文本主客观分

析任务上,通过线性门控机制对卷积网络进行改进,并根据文本数据的特性构建了不同尺寸的卷积核,有效地提升了模型的性能。

多策略中文微博细粒度情绪分析研究

湖南省自然科学基金项目(13JJ4076, 11JJ6047)、湖南省教育厅优秀青年项目(13B101)和衡阳市科技计划项目(2012KJ9)资助收稿日期: 2013-07-09; 修回日期: 2013-10-11; 网络出版日期: 2013-11-08 北京大学学报(自然科学版), 第50卷, 第1期, 2014年1月 Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 50, No. 1 (Jan. 2014) doi: 10.13209/j.0479-8023.2014.028 多策略中文微博细粒度情绪分析研究欧阳纯萍? 阳小华雷龙艳徐强余颖刘志明南华大学计算机科学与技术学院, 衡阳421001; ? E-mail: ouyangcp@https://www.doczj.com/doc/854269609.html, 摘要针对中文微博用户的情绪分析问题, 提出一种基于多策略融合的细粒度情绪分析方法。首先采用朴素贝叶斯算法对微博的有无情绪分类问题进行研究, 然后构建有情绪微博的21维特征向量, 最后采用SVM 和KNN 算法对微博进行细粒度情绪分析。以新浪微博作为实验对象, 结果表明多策略集成方法好于单一分类算法。在多策略集成方法中, “NB+SVM”方法略优于“NB+KNN”方法。关键词细粒度情绪分析; 中文微博; 朴素贝叶斯; SVM; KNN 中图分类号 TP391 Multi-strategy Approach for Fine-Grained Sentiment Analysis of Chinese Microblog OUYANG Chunping ?, YANG Xiaohua, LEI Longyan, XU Qiang, YU Ying, LIU Zhiming School of Comupter Science and Technology, University of South China, Hengyang 421001; ? E-mail: ouyangcp@https://www.doczj.com/doc/854269609.html, Abstract Fine-grained sentiment analysis of Chinese microblog is investigated and a method of multi-strategy fusion is proposed. Firstly, the authors apply naive Bayesian to identify sentiment or non-sentiment about microblog. Secondly, based on emotion ontology, a method for how to form 21 sentiment features vectors of microblog is presented. At last, fine-grained sentiment of microblog is classified based on SVM and KNN respectively. Experiment results show that multi-strategy fusion is better than a single method, in addition, “NB+SVM” strategy is better than “NB+KNN” strategy. Key words fine-grained sentiment analysis; Chinese microblog; naive Bayesian; support vector machine (SVM); K Nearest Neighbor (KNN) 微博是Web2.0时代分享与传播信息的重要平台, 使人们能够更加方便地评论热点事件, 抒发自己的情绪。因此, 国内外学者围绕微博展开一系列研究, 微博情绪分析是研究热点之一[1]。国外学者采用基于SVM 的距离监督学习、基于语义的关联分析、基于KNN 的语料强化学习以及基于情感词的语义标注等方法对 Twitter 进行情感分类研究[2?5]。由于中文微博比英文微博具有更丰富的语义信息, 上述方法无法直接应用到中文微博情绪分析中[6]。所以国内学者从中文微博的特点出发, 致力于中文微博的情感分类和情绪分析研究。谢丽星等[7]提出一种基于SVM 的层次结构多策略中文微博情感分类方法, 在引入主题相关的特征后, 基于层次结构的多策略方法在正负情感分类上准确率达到67.283%。刘志明等[8]分别使用3种机器学习算法、 3种特征选取算法以及3种特征项权重计算方法对微博正负情感分类进行研究, 实验证明采用SVM 、信息增益和IF-IDF 三者结合的方法对微博情感分类效果较好。韩忠明等[9]以HowNet 情感词典为基础, 构建一个计算短文本情感倾向性的自动机, 在短文本的正负情感分类上较SVM 方法有非常大的优势。文献[10?12]均采用朴素贝叶斯分类器(NB)

探究微博中的情绪分析

摘要：针对微博进行情绪分析就是对微博所表达的喜、哀、怒、惧、恶、惊六种情绪进行分析，对迅速了解大众情绪走向并且对于个人情绪调节有着重要的意义。本文对情绪分析的研究背景以及研究内容进行了阐述，重点探索了情绪分析的难点和基于情绪词典的情绪分析方法。为情绪分析的进一步研究奠定了基础。关键词：微博，情绪分析，情绪词典一、研究背景微博作为一种即时通讯工具，其简便易用，具备非常好的实时性，中国已经进入全民微博时代。越来越多的互联网用户注册微博，他们通过微博自由地发表自己的观点及情感，如对名人的喜欢或憎恶、对电影的评论、对品牌的评价或建议、对社会热点的看法以及生活中的喜怒哀乐等。这些看似琐碎的信息其实蕴含着巨大的商业价值，如预测电影票房、挖掘产品意见、了解用户需求、开拓新市场等。除此之外，分析微博有助于进行舆情监控、问答系统的研究，还可以用来帮助心理专家检测用户心理状态。二、本文的研究内容微博文本数据规模庞大，给自然语言研究处理带来了新的机遇和挑战，吸引了大量语言研究工作者从事微博的研究工作。其中，尤其以含有情感的微博文本更吸引人们的注意，成为了挖掘工作的宝贵资源。同时，对微博进行文本分类研究可以帮助解决用户观点分析和情感挖掘。目前，情感分析任务大致分为两种：一种是主客观文本分类；另一种是主观文本的情感分析，即对带有情感色彩的文本进行自动分析并预测其情感极性。情感分析任务根据不同应用分为两个领域：评价分析和情绪分析，前者侧重于产品性能评价，后者侧重于人的心理感受。本文主要进行中文微博的情绪分析，从以下方面进行研究：分析微博表达特点，探索微博中的情绪分析方法。三、情绪分析的难点（一）微博文本有三个最显著的特点：一、简短，只包含140个字符。二、含有丰富的表情符。三、语言表达口语化。这三个特点给微博情绪分析带来了新的挑战。中文微博至多可以输入140个中文字符，一般包含一个到三个中文句子。一个句子中包含的情感信息较少，很难挖掘；反讽句子，难以判断情绪类别。多个句子表达的感情相互独立、不一致，情绪挖掘意见难以统一。微博非结构化口语表达中混入了很多的谐音字，如“V5”等同于“威武”；英文缩略词，如“OMG”是“Oh， My God！”的缩写；网络用语频出，如“又挂科了，累觉不爱啊！”；表达口语化，难以分辨情绪，如“自然卷留毛线头发啊！！！” （二）由于中文表达的多样性，在对其进行情绪分析时面临诸多困难： a）同一个中文词语在不同语境中能表达不同的情感倾向。如“骄傲的人永远以自我为中心。”和“我为你骄傲，中国！”两句中的“骄傲”，前者表现了厌恶的情绪，后者则传达了喜爱的情绪。 b）不同词性下，词语的情感色彩不一致。如“好”作为副词不表达情感，但是作为形容词则传递了正面情绪。 c）本身不带有情感的词，被寓以特定情感。如“马圈里的那匹黑马今年三岁了。”和“斯诺克国锦赛年仅16岁的小将赵心童黑马成色不减以6：1淘汰世锦赛亚军霍金斯。”中的“黑马”，该词本身并没有任何情感倾向，但常常被使用来形容初出茅庐却取得优异成绩的人或物，具有积极正面的情感。四、情绪分析方法探索由于情绪的复杂性和敏感性，不同的研究对于其类别的划分也有很大差异，其中Ekman 通过研究人的面部表情，提出了六种基本情绪状态：喜（joy），哀（sadness），怒（anger），惧（fear），恶（disgust），惊（surprise）。这六种基本情绪分类被自然语言处理领域的自

面向微博文本的情感分析模型研究

面向微博文本的情感分析模型研究随着互联网和移动通讯的飞速发展,人们参与网络活动越来越频繁,微博每天都产生了大量数据,其包含了用户对事物的情感表达和评论分析,如何从这些信息中挖掘出情感倾向有着巨大的价值。因此,本文对微博文本展开了情感分析模型的研究。通过调研国内外文献,目前对于情感分析模型的研究主要有情感词典方法、机器学习方法和深度学习方法。本文通过爬取微博数据,对这三种方法进行对比实验,寻找最优的情感分析模型。基于传统情感词典方法的研究。利用波森情感词典,将文本数据分词后遍历词典并加权得到其情感极性,然后在此基础上利用添加情感副词的方式提升情感词典的效果。情感词典方法的优点是速度快,易于判断主观情感比较明确的句子,但是其缺点是针对不同场景的迁移能力弱,并且人工构建针对某一领域的情感词典耗时耗力。基于机器学习方法的研究。首先对文本数据进行数据预处理,将经过预处理后的数据分词结果通过Word2vec中Skip-gram 方法转化为词向量,同时利用腾讯开源词向量进行对比输入,然后利用主流的机器学习分类方法(Logistic回归、随机梯度下降法、朴素贝叶斯、支持向量机、随机森林、XGBoost)进行有监督学习,最后对比每种模型的测试集混淆矩阵,发现腾讯开源词向量训练的模型效果均优于Word2vec方法训练出来的词向量。在这些方法中,随机森林、XGBoost这类利用集成思想方法训练的模型效果远远优于单一的分类模型。虽然机器学习方法模型的准确率对比传统情感词典有了很大的提升,但是不足之处是每个训练器都涉及到大量的调参,并对于不同

业务场景的迁移能力不强,机器学习方法已经发展到了瓶颈。基于深度学习方法的研究。通过对经典的多层感知机神经网络、循环神经网络、卷积神经网络和自注意力机制进行对比实验,各类深度学习模型的准确率比情感词典和机器学习的准确率有了较大的提升,其中自注意力机制模型在测试集的准确率达到了91.12%。通过对所有模型进行对比实验,发现自注意力机制所训练的模型无论在训练速度上还是在模型测试集的准确率等方面均优于其他模型。并且它利用序列内部的自我关注,加快了模型收敛的速度。所以,自注意力机制的模型是情感分析任务中综合表现效果最好的模型。

面向微博事件的民众情绪分类及原因分析

目录目录摘要 ............................................................................................................................... I Abstract............................................................................................................................. II 第1章绪论......................................................................................................... - 1 -1.1课题背景与意义............................................................................................. - 1 - 1.1.1课题背景.................................................................................................. - 1 - 1.1.2研究意义.................................................................................................. - 1 -1.2国内外研究现状............................................................................................. - 3 - 1.2.1情感分类.................................................................................................. - 3 - 1.2.2文档聚类.................................................................................................. - 5 -1.3本文的主要研究内容与章节安排................................................................. - 7 -第2章面向微博事件的情绪层次分类 ................................................................. - 9 -2.1引言 ................................................................................................................ - 9 -2.2算法介绍......................................................................................................... - 9 - 2.2.1数据获取................................................................................................ - 10 - 2.2.2文本向量表示算法................................................................................ - 14 - 2.2.3文本分类算法........................................................................................ - 15 -2.3实验与分析................................................................................................... - 17 - 2.3.1评价标准介绍........................................................................................ - 17 - 2.3.2情绪层次分类实验与分析.................................................................... - 18 -2.4本章小结....................................................................................................... - 19 -第3章基于用户历史微博建模的微博情绪分类 ............................................... - 20 -3.1引言 .............................................................................................................. - 20 -3.2算法介绍....................................................................................................... - 20 - 3.2.1数据获取与处理.................................................................................... - 21 - 3.2.2用户历史微博建模................................................................................ - 22 -3.3实验与分析................................................................................................... - 24 - 3.3.1评价标准介绍........................................................................................ - 24 - 3.3.2实验结果与分析.................................................................................... - 24 -3.4本章小结....................................................................................................... - 27 -第4章基于微博事件的情感分布及拐点原因分析............................................ - 28 - III