当前位置：文档之家› 网络舆情分析中语义情感特征的实现

网络舆情分析中语义情感特征的实现

网络舆情分析中语义情感特征的实现

摘要：随着社交网络和移动互联网时代到来，网民参与交流、互动的方式增多，积极性也增强。网络已逐渐成为反映社会舆情的重要载体之一，网络舆情监测和舆情内容的分析、倾向性调查等也成为舆情工作的重点。我们针对网民相关话题评论的简单、数目众多的特点,应用一些算法对现有情感词典进行扩展，建立了一个新的、具有倾向程度的情感词典。基于扩展的情感词典，开发了一个半自动化网络舆情分析系统。该系统能够为用户提供更加细致、准确的评论倾向性分析结果关键词：观点挖掘；情感词典；倾向性分析；网络舆情

1 引言
近年来，对于描述非事实的主观性文本处理方面的研究越来越多，主要特点是分析和处理个人、群体等所表达的意见、情感和态度等。观点挖掘已经成为数据挖掘中的一个重要分支，它可以面向许多领域，如：市场分析、市场预测、民意调查以及信息监控等等。但是，目前大多数的研究工作主要面向商品的评论和反馈，涉及网络舆情、特别是基于观点分析的网络舆情的研究相对较少。
随着W eb2.0时代的到来，网络成了反映社会舆情的重要载体之一，越来越多的人们通过博客、论坛以及网站留言板发表自己对热点事件的观点和看法。对于某个热点事件，如果将其有关的网络舆情信息加以汇总并且进行分析，就可以反应出对于这个事件民众所持有的态度和观点的倾向性。这种汇总的网络舆情，可以有效地帮助相关政府职能部门了解民意，进而做出及时的反馈。本文应用观点挖掘技术通过对新闻网页的评论进行收集并进行分析，将网民的评论汇总成肯定、否定和中性三类，取得了良好的效果。

2 相关工作

分析评论中文本的情感倾向性是观点挖掘的主要任务之一，目前倾向性的分析主要针对词汇、句子和篇章三个层面进行分析。词汇的情感分析目前主要有三种方法，一种是基于 WordNet和 HowNet这样的知识库，首先选择两组具有明显正向和负向极性的词语作为种子词，对于一个情感倾向未知的词，计算这个词与两组种子词的相似度，与正向种子词组相似度高的则判定为正面倾向，反之则判定为负面倾向。词汇倾向性分析的另一种方法是无监督学习方法，这种方法同样需要先确定两组等量具有明显倾向性的种子词，一组是褒义种子词，一组是贬义种子词。对于一个新词，根据它和两组种子词的紧密程度对其倾向性进行推断，紧密程度的判断是根据词语在语料库中的共现频率，称为点态互信息量，将词语与褒义种子词的点态互信息量之和减去与各贬义种子

词的互信息量之和，结果的正负即表示词语的倾向性，而且结果的大小还表示了倾向性的强度。这个方法的点态互信息量也可以通过使用搜索引擎来计算，因此无需语料库。
在英文的应用系统的研究上，一些国际知名学者研究并开发了新的算法，主要针对商品评论做了更深入的分析，突破了仅仅给出篇章总体倾向性的研究，研究了从同一类商品的多个评论中抽取子主题的算法，对子主题倾向性分析，综合多个语篇的分析得出总结性的结果，具有比较实际的商用价值。这也是商品评论比较特别之处，同一类商品的子主题比较容易确定，比如数码相机的评论一般包含多个主要部件或属性的评论，尺寸大小、照片质量、电池寿命、相机重量等。

观点挖掘和情感分析的研究工作还有很多，其中较成熟的研究成果大多面向商品评价，这里不再一一赘述。

3 网民评论的特点

通过对新浪、搜狐等门户网站关于热点话题留言板的分析可见，绝大多数网民发表的留言简短，但倾向性明显。如 :
(1) 多才多艺才能真正体现一个人的综合才华，有才艺的人比死读书的人更有前途，更受别人爱戴。对社会繁荣更为重要。一定要加分 !
(2) 很不公平，考试考的是学习，而不是艺术院校招生。
如果你认为孩子有特长，去考艺术院校呀 !
这是两个网民在搜狐辩论区上关于"你认为特长生考试加分，这样公平吗？"中的留言，代表了两种不同的观。很明显，第一个表达肯定的观点，第二个是表达否定的观点。本文观察到网民在留言中，绝大部分的观点性很明确，情感词汇运用广泛，我们如果做到分词准确，并且情感词汇表建立的准确，能够取得很好的效果。

修饰词词典的构建
青动网络（https://www.doczj.com/doc/1315625419.html,)发现,在网民评论中，有大量的副词修饰情感词汇，比如提到的"更为重要"、"很不公平"、"更为"修饰"重要"，表达的情感明显比"重要"要强烈；"不"修饰"公平"，表达了否定的意向，用"很"修饰"不公平"，表达的情感明显比"不公平"强烈。为了更加准确地计算评论的倾向性，我们构建了修饰词词典。

基于上述过程，系统分为如下几个模块 :
( 1) 网页抓取模块。输入一条门户网站的新闻网页地址后，爬虫分析出该新闻网页的留言板地址，开始顺序抓取留言板下每个页面的信息，并保存到本地;
( 2) 网页分析处理模块。根据网页的结构，分析处理得到每个评论信息，并保存每个评论的网民ID、IP 地址、评论时间、评论内容到数据库中;
( 3) 去冗余模块。根据IP地址、评论时间和内容，去除同一网民同一评论在留言板上多次出现的现象;
( 4) 分词与标注模块。应用

IC TCLA S 对数据库中每一条评论进行分词和标注;
( 5) 计算模块。提取评论中的情感词汇，通过情感词汇表和修饰词词典，计算得到词语的倾向性，进而计算句子的倾向性，得到该条评论的倾向性，迭代直到所有评论分析完毕;
( 6) 图形用户界面模块。提供交互信息，并且显示最终的分析结果。

传统的机器学习方法需要人工标注训练出分类器，工作量大。青动网络（https://www.doczj.com/doc/1315625419.html,)针对网民评论内容较短、所有情感词汇广泛的特点，应用词典技术初步设计并实现了一个网络舆情系统，通过实验表明该系统达到了较理想的效果，并且分类的速度比机器学习方法快。但是其中还有很多不完善之处，包括:
(1) 如何过滤掉与话题不相关的评论 ;
(2) 用HowNet构建的词汇表明显比NTUSD构建的词汇表得出的结果要准确，两者合并之后更加的准确，经分析这与词汇表大小有很关系，那么如何建立更加准确的情感词汇表 ;
( 3) 数据库中保存了IP地址和评论时间，可以进一步分析，其中9条属于冗余的评论，17条评论与此话题无关，73条支持加分的评论，111条反对加分的评论，还有14条中性的评论。
我们应用网络舆情倾向性分析系统，分别单独使用HowNet、NTUSD 构建的情感词典分析处理网民的评论，接下来将两种词典进行合并，抽取出两个表中倾向性相反的相同词汇，进行人工标注，再汇总成一个词典，再次分析处理网民的评论。这样我们自动得到三种不同倾向性的评论数目。

舆情分析中的语义分析还有很长的路要走，我们希望能通过更多研发，帮助企业和政府更好的分析舆情内容，实现数字化营销推广的效果最大化。