【免费下载】 文本情感分析论文总结
- 格式:pdf
- 大小:420.80 KB
- 文档页数:6
中文短文本的情感分析一、内容概括随着互联网的普及和社交媒体的发展,中文短文本在人们的H常生活中扮演着越来越重要的角色。
这些短文本包含了丰富的信息,如新闻报道、评论、博客文章等。
通过对这些短文本进行情感分析,可以帮助我们更好地理解用户的需求和态度,为企业提供有针对性的市场策略建议,为个人提供更好的人际交往方式。
本文将介绍中文短文本情感分析的基本方法和应用场景,以及如何利用现有的中文情感分析工具和技术来实现这一目标。
二、短文本情感分析的基本概念和技术情感词典走一•种包含一定数量词汇及其对应情感极性的数据库,用于表示文本中每个词汇的情感倾向。
情感词典可以是人工构建的,也可以是基于机器学习的方法自动生成的。
在情感分析任务中,首先将文本中的每个词汇与情感词典中的词汇进行匹配,得到一个情感向量,该向量表示了文本的整体情感倾向。
语言模型是用来衡量文本的连贯性和完整性的一种方法,常用的语言模型有N元语法模型(ngrammode1.)、隐马尔可夫模型(HMM)等。
在短文本情感分析中,语言模型主要用于去除文本中的噪声,提高情感向量的准确性。
机器学习算法是短文本情感分析的核心技术之一,常见的机器学习算法包括支持向量机(SVM)、朴素贝叶斯(NaiVeBayes)、决策树(DecisionTree)›随机森林(RandomForeSt)等。
这些算法可以根据训练数据学习到文本的情感分布规律,从而对新的短文本进行情感分析。
近年来深度学习方法在短文本情感分析领域取得了显著的成果。
主要的深度学习方法包括卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(1.STM)等。
这些方法可以捕捉文本中的长距离依赖关系,提高情感分析的准确性。
为了提高短文本情感分析的性能,研究者们还提出了集成学习方法。
集成学习是指通过组合多个分类器来提高分类性能的方法,常见的集成学习方法有Bagging、Boosting,StaCking等。
在短文本情感分析中,集成学习方法可以有效提高模型的泛化能力,降低过拟合的风险。
文本情感分析综述文本情感分析是指对文本内容进行分析,以确定其中所包含情感的方法。
情感分析在自然语言处理领域具有广泛的应用,包括社交媒体监测、品牌管理、市场调研等。
本文将综述目前文本情感分析的技术和方法,并探讨其应用领域和存在的挑战。
一、情感分析技术和方法:1. 基于词典的方法:该方法使用预定义的情感词典,对文本中的词进行情感打分,然后通过加权求和或者分类算法来确定整个文本的情感极性。
常用的词典有SentiWordNet、AFINN等。
2.机器学习方法:该方法通过训练一个分类器,将文本分为积极、消极或中性,常用的算法有朴素贝叶斯、支持向量机、随机森林等。
3.深度学习方法:近年来,深度学习方法在情感分析中取得了显著的进展。
深度学习模型如循环神经网络(RNN)和卷积神经网络(CNN)能够对文本进行端到端的建模,包括长期依赖和局部特征提取。
二、情感分析的应用领域:1.社交媒体监测:情感分析可用于监测社交媒体上用户对特定事件、产品或品牌的态度和情感倾向,帮助公司及时了解用户的反馈和需求。
2.市场调研:情感分析可以帮助企业了解产品的市场反应和用户的需求,进而优化产品设计和营销策略。
3.品牌管理:情感分析可以帮助企业评估品牌形象和声誉,并及时发现并解决潜在的危机和问题。
4.情感分析还可应用于舆情监测、情感化以及个性化推荐等领域。
三、情感分析的挑战:1.多样性和主观性:情感分析受到文本多样性和主观性的影响,不同文化和背景下,不同人对同一词汇或句子的情感倾向可能会有差异。
2.语义理解:情感分析需要深入理解文本的上下文和语义,包括语言的隐喻、讽刺等。
这对于机器来说是一大挑战。
3.数据标注:情感分析的训练需要大量标注好情感的数据,然而标注数据是一项复杂且耗时的任务,为情感分析提供高质量的训练数据仍然是一个问题。
综上所述,文本情感分析是一项具有挑战性但应用广泛的任务。
随着技术的不断发展,我们可以期待情感分析在各个领域的更深入应用,并希望能够解决当前面临的挑战,提升情感分析的准确性和效果。
第1篇一、前言随着时光的流转,我们每个人都在不断地经历着情感的起伏和变化。
近期,我对自己在情感方面的体验进行了深入的反思和总结,以期在未来的日子里更好地理解自己、关爱他人。
以下是我近期情感总结报告的详细内容。
二、情感体验概述1. 感恩之情近期,我深感生活中的点滴温暖和关爱。
无论是家人的呵护、朋友的陪伴,还是同事的关心,都让我体会到了人间真情。
在感恩之情的包围下,我学会了珍惜眼前人,用心去回报这份爱。
2. 成长之痛在成长的道路上,我们难免会遇到挫折和困难。
近期,我在工作和生活中也遇到了一些挑战。
这些挫折让我深感痛苦,但也促使我不断反思和成长。
在痛定思痛之后,我明白了只有勇敢面对,才能不断进步。
3. 情感波动近期,我的情感波动较大。
一方面,我对未来的生活充满期待;另一方面,我又对现实的不确定感到焦虑。
这种矛盾的心理让我在情感的海洋中徘徊。
然而,通过自我调节和外界帮助,我逐渐找到了平衡点。
三、情感分析1. 感恩之情的来源感恩之情的来源主要有以下几个方面:(1)家庭的支持:家人的关爱让我在困难时刻感受到温暖,从而激发了我对家庭的感恩之情。
(2)朋友的陪伴:朋友的关心让我在孤独时不再感到无助,让我学会了珍惜友谊。
(3)社会的关爱:社会的进步和国家的繁荣让我感受到了民族的自豪感和归属感。
2. 成长之痛的原因成长之痛的原因有以下几点:(1)认知局限:由于自身认知的局限,我在面对问题时往往难以找到最佳的解决方案。
(2)情绪波动:情绪的波动使我难以保持冷静,导致在处理问题时出现失误。
(3)环境压力:工作和生活中的压力使我感到疲惫,影响了我的成长。
3. 情感波动的因素情感波动的因素主要包括以下几个方面:(1)价值观的变化:随着对社会和人生的不断认识,我的价值观也在不断变化,导致情感波动。
(2)生活压力:工作和生活中的压力使我难以保持心态平和。
(3)人际关系:与他人的相处使我感受到情感的起伏。
四、情感调节与应对策略1. 感恩之情的培养(1)珍惜当下:珍惜家人、朋友和同事的关爱,用心去回报。
时光荏苒,岁月如梭。
转眼间,我在情感的海洋中已经航行了多年。
回首过往,那些喜怒哀乐、悲欢离合,都成为了我人生中宝贵的财富。
在此,我想对自己在情感方面的经历进行一次总结,以期更好地认识自己,把握未来。
一、爱情的感悟爱情,是人生中最美好的情感之一。
在我的人生道路上,曾有过甜蜜的爱情,也有过痛苦的失恋。
这些经历让我深刻认识到以下几点:1. 真爱至上。
在爱情中,真诚和信任是最为重要的。
只有真诚相待,才能让爱情之花绽放出最灿烂的光芒。
2. 相互包容。
每个人都有优点和缺点,在爱情中要学会包容对方的不足,共同成长。
3. 珍惜当下。
爱情如同掌中的沙,握得越紧,流失得越快。
珍惜眼前人,珍惜与爱人共度的每一刻。
二、友情的思考友情,是人生中不可或缺的情感。
在我的人生中,有许多值得珍惜的友情。
以下是我对友情的几点思考:1. 真诚相待。
友情需要真诚的付出,才能地久天长。
2. 共同成长。
在友情中,我们要相互支持,共同进步,让彼此的人生更加精彩。
3. 知心相谈。
友情需要心灵的交流,只有在彼此心中占据一席之地,才能称之为真正的朋友。
三、亲情的体会亲情,是人生中最伟大的情感。
在我的人生中,父母的爱是我前行的动力,兄弟姐妹的陪伴是我坚强的后盾。
以下是我对亲情的几点体会:1. 孝敬父母。
百善孝为先,我们要时刻牢记父母的养育之恩,尽孝道。
2. 关心亲人。
亲情需要关心和呵护,我们要时刻关注家人的生活,为他们排忧解难。
3. 传承美德。
家庭是社会的细胞,我们要传承家族的美德,让家庭充满和谐与温馨。
总结:在情感的道路上,我学会了珍惜、学会了付出、学会了成长。
未来的日子里,我将继续秉持这些感悟,用心去经营每一份情感,让它们在我的人生中绽放出更加灿烂的光彩。
同时,我也希望自己在情感方面能够更加成熟,成为一个懂得关爱他人、懂得珍惜自己的人。
情感体会总结情感体会总结近期,我经历了一连串的情感起伏,这让我对自己的情感境遇以及如何处理情感问题有了更深刻的认识。
在这篇总结中,我将重点讨论我所遇到的情感问题以及我对它们的反思。
首先,我要提及的是对于失落感的体会。
在过去的几个月里,我经历了一些挫折和失望,这让我感到心力交瘁。
那时,我陷入了自我怀疑和消极情绪的泥淖中,无法走出。
但是,通过一段时间的思考和积极寻求帮助,我逐渐明白了失落感的本质:它是一个我对自己期望与现实之间的差距感到沮丧和绝望的结果。
我意识到,人生中难免会遭遇挫折,重要的是如何应对这些挫折。
于是我开始寻找解决方法,比如与朋友聊天、参加一些能够让我放松的活动、锻炼身体等。
这些积极的行动帮助我渐渐从失落中走出,重新恢复了对自己的信心。
其次,我想讨论的是与他人的情感连接。
在这段时间里,我与一位朋友发生了一些争执,这导致了我们之间的关系紧张。
一开始,我感到很困惑,不知道为什么我们会产生矛盾。
但在仔细反思后,我发现是我没有正确地沟通和表达自己的观点和感受。
于是我主动向朋友道歉,并表达了自己的真实想法。
通过这次争执,我明白了沟通是建立和维持人际关系的重要一环。
只有通过积极和真实的沟通,我们才能够避免误解和矛盾的产生,进而建立更加稳固的情感连接。
除此之外,我还体会到了积极情绪的重要性。
在经历了一段时间的负面情绪之后,我决定主动改变自己的态度,寻找积极的事物来提升自己的情绪。
我开始阅读一些让人振奋的书籍,参与一些能够让我感到开心和满足的活动,并积极寻求与朋友和家人的交流。
这些积极的行为逐渐改变了我的情绪,帮助我重新焕发了生活的热情和动力。
我现在明白,积极情绪是我们生活中的一剂良药,它能够促进我们的心理健康,增强我们抵抗困难和挫折的能力。
最后,我还要提及对于情感抑郁的理解。
在这段时间里,我遇到了一些朋友和亲人陷入情感抑郁的困境。
他们经历了一段时间内无法摆脱和克服的消极情绪,这给他们的生活带来了很大的困扰。
文本情感分析范文文本情感分析是指对一段文本进行评估和判断,以确定文本所表达的情感情绪是积极的、消极的还是中性的。
在自然语言处理领域,文本情感分析是一项重要的任务,它可以在许多应用中发挥关键作用,例如舆情监测、情感推荐和市场调研等。
情感分类是文本情感分析中的基本任务之一、情感分类的目标是根据文本的内容和上下文分析出文本所表示的情感类别。
常见的情感类别包括积极、消极和中性。
情感分类通常借助于机器学习算法,如支持向量机、朴素贝叶斯和深度学习模型等。
这些算法需要在训练阶段使用标注好的数据进行模型的训练,然后通过对新的文本进行分类来确定文本的情感类别。
情感分类可以被应用于许多领域,如舆情分析、评论分析和产品评价等。
另一个常见的任务是情感极性判断。
情感极性判断是指在情感分类的基础上,进一步判断出文本所表达情感的正负方向。
情感极性判断通常采用二分类的方法,将情感分为正向和负向两个极性。
情感极性判断可以帮助我们更好地理解文本的情感倾向性和态度。
这在舆情分析和情感推荐等领域中非常有用。
文本情感分析的关键挑战之一是语义的理解和表示。
由于自然语言的多样性和复杂性,对文本情感的准确理解是一项具有挑战性的任务。
为了解决这个问题,研究人员开发了各种各样的方法和技术,例如基于词典的方法、基于机器学习的方法和基于深度学习的方法等。
这些方法充分利用了大规模的训练数据和强大的计算能力,取得了显著的成果。
除了挑战,文本情感分析还面临着一些潜在的问题,例如主观性和目标性的混淆、文本长度的限制以及情感表达的多样性等。
这些问题需要进一步的研究和改进,以提高文本情感分析的性能和效果。
总结起来,文本情感分析是一项重要的任务,它可以用于许多应用中,从舆情分析到情感推荐等。
情感分类和情感极性判断是文本情感分析的两个主要任务。
虽然文本情感分析面临着挑战和问题,但通过不断的研究和改进,我们可以进一步提高其性能和效果,提供更好的情感分析服务。
文本情感分析方法研究综述一、本文概述随着信息技术的飞速发展和大数据时代的到来,文本情感分析作为自然语言处理领域的一个热门研究方向,正受到越来越多的关注。
本文旨在对文本情感分析方法进行全面的研究综述,旨在梳理和分析当前情感分析的主要方法、技术及其发展趋势,以期为读者提供一个清晰、系统的认识框架。
本文将简要介绍文本情感分析的研究背景和意义,阐述情感分析在社交媒体分析、舆情监控、产品评价等领域的重要应用。
随后,文章将重点回顾和总结情感分析的发展历程,包括早期的基于词典的方法和规则的方法,以及近年来兴起的基于机器学习和深度学习的情感分析方法。
在详细分析各类情感分析方法时,本文将深入探讨各种方法的原理、优缺点以及适用场景。
文章还将关注情感分析领域的一些前沿研究,如基于深度学习的情感分析模型、多模态情感分析以及情感分析的跨领域应用等。
本文将对未来的研究方向和挑战进行展望,以期为推动文本情感分析技术的发展提供有益的参考和启示。
通过本文的综述,读者可以对文本情感分析方法有一个全面、深入的了解,为相关领域的研究和实践提供有益的借鉴和指导。
二、文本情感分析的发展历程文本情感分析,也称为观点挖掘或情感挖掘,是自然语言处理(NLP)领域的一个重要研究方向。
自20世纪90年代起,随着计算机科学和的飞速发展,文本情感分析逐渐受到了广泛关注,经历了从简单规则到复杂模型的发展历程。
早期的研究主要基于规则或词典的方法。
研究者们通过构建情感词典或情感词汇列表,结合简单的文本处理规则,对文本进行情感倾向的判断。
然而,这种方法受限于情感词典的完备性和规则设计的灵活性,难以处理复杂的语言现象和上下文依赖。
随着机器学习技术的兴起,文本情感分析开始进入新的发展阶段。
研究者们开始尝试使用各种机器学习算法,如朴素贝叶斯、支持向量机(SVM)、最大熵模型等,对文本进行情感分类。
这些算法能够从大量数据中学习出有效的特征表示,从而提高了情感分析的准确性和鲁棒性。
文本情感分析综述目录1. 内容描述 (2)1.1 文本情感分析的定义和重要性 (2)1.2 研究背景和动机 (4)1.3 文档综述的范围和结构 (5)2. 文本情感分析的技术与方法 (6)2.1 传统文本分析方法 (8)2.1.1 语言学角度的分析 (10)2.1.2 心理学角度的分析 (11)2.2 机器学习和人工智能方法 (12)2.2.1 传统的机器学习方法 (14)2.2.2 深度学习方法 (15)2.3 混合和协同方法 (17)2.3.1 数据驱动与问题驱动混合方法 (17)2.3.3 协同过滤与推荐系统 (20)3. 文本情感分析的应用领域 (22)3.1 社交媒体分析 (23)3.2 产品评论分析 (24)3.3 市场策略与消费者行为预测 (26)3.4 医疗健康分析 (27)3.5 情感定向内容生成与推荐系统 (28)4. 存在的问题与挑战 (29)4.1 数据收集与标注的困难 (31)4.2 偏见与多样性问题 (32)4.3 性能评估的标准与方法 (33)4.4 模型复杂性与效率的平衡 (35)5. 未来的研究方向 (36)5.1 跨语言情感分析 (37)5.3 情感识别的道德与隐私问题 (40)5.4 情感分析在边缘计算环境中的应用 (42)1. 内容描述本文深入探討文本情感分析(Text Sentiment Analysis,TSA)的相關概念和技術。
我们将介绍文本情感分析的定义和分类,涵盖情感极性分析、情感細粒度分析以及情感蕴含分析等不同种类,并分析其各自的应用场景和挑战。
我们将系统地综述文本情感分析的关键技术,包括:文本预处理、词特征提取、情感词典、机器学习模型(如Naive Bayes、Support Vector Machines、深度学习模型等)、以及情感分析的评估指标。
本文也将介绍文本情感分析在不同领域的应用,例如市场调查、舆情监测、社交媒体分析、用户体验评估等,并探讨其在推动智慧决策、用户行为洞察和情感识别方面的价值。
使用神经网络进行文本情感分析的实践经验总结近年来,随着人工智能技术的快速发展,情感分析成为了研究的热点之一。
情感分析旨在通过分析文本中的情感色彩,了解人们对特定事物的态度和情绪。
而神经网络作为一种强大的机器学习工具,被广泛应用于文本情感分析领域。
在这篇文章中,我将分享我在使用神经网络进行文本情感分析的实践经验总结。
首先,为了进行文本情感分析,我们需要收集和准备数据集。
数据集的质量直接影响着模型的性能。
在数据收集过程中,我们可以通过爬取社交媒体平台上的用户评论、新闻文章、电影评论等来获取大量的文本数据。
同时,还需要对数据进行预处理,包括去除停用词、标点符号、数字等无关信息,以及进行分词等操作。
这样可以使得数据更加干净和易于处理。
接下来,选择合适的神经网络模型也是非常重要的一步。
在文本情感分析中,常用的神经网络模型包括循环神经网络(RNN)、长短期记忆网络(LSTM)和卷积神经网络(CNN)等。
这些模型在处理文本数据时具有良好的性能。
例如,LSTM模型能够捕捉文本中的长期依赖关系,而CNN模型则可以有效地提取文本中的局部特征。
根据实际情况,我们可以选择合适的模型进行实验。
在进行模型训练之前,我们需要将数据集划分为训练集、验证集和测试集。
训练集用于模型的参数更新,验证集用于调整模型的超参数,而测试集用于评估模型的性能。
通常,我们可以采用交叉验证的方法来评估模型的稳定性和泛化能力。
在训练过程中,我们需要定义适当的损失函数和优化算法。
常用的损失函数包括交叉熵损失函数和均方误差损失函数等,而常用的优化算法包括随机梯度下降(SGD)和Adam等。
在模型训练完成后,我们需要对模型进行评估和测试。
评估模型的性能可以使用准确率、精确率、召回率和F1值等指标。
此外,我们还可以绘制混淆矩阵和ROC曲线来更直观地评估模型的性能。
如果模型的性能不理想,我们可以尝试调整模型的结构、超参数或者增加更多的训练数据来改进模型。
除了模型本身,特征工程也是提高模型性能的关键之一。
文本情感分析赵妍妍,秦兵,刘挺- 软件学报, 2010 - 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。
情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。
一、情感信息抽取(评价词语、评价对象、观点持有者)1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。
2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。
3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。
4.组合评价单元的抽取:主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断)评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。
评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。
二、情感信息分类1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图);2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语特征和词性特征、位置特征、评价词特征)。
三、情感信息的检索与归纳1.情感信息检索2.情感信息归纳基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。
基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。
基于新闻评论的文摘四、情感分析的评测与资源1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析),国内的COAE。
2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料,Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。
3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英文),HowNet评价词词典(简体中文、英文)问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;基于层次结构的多策略中文微博情感分析和特征抽取谢丽星,周明,孙茂松- 中文信息学报, 2012 - 三种情感分析方法的研究:表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。
主题无关的情感分析:不关心情感极性所描述的对象,有基于词典的方法、有监督的机器学习和无监督的方法。
主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。
主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文微博消息句子构成特征:首句、尾句情感极性,正负中情感句数主题相关的句子筛选:包含主题词的句子、零指代情感、主题词相邻的一定范围内。
本文中主题无关的最佳组合方法:单句用一步三分类,特征为表情+词典+短语+上下文,整体为句子组成SVM,特征为首句尾句极性+三种情感极性句子数。
主题相关的特征(本文提供主题词来获取数据):测试三种主题相关句子筛选方法。
本文后续工作:构建网络用语词典;深入研究主题相关的特征;构建图模型。
Cross-Lingual Mixture Model for Sentiment Classification X Meng, F Wei, X Liu, M Zhou, G Xu… - Proceedings of the 50th …, 2012 - 问题:英语的标记数据比其他语言多,很多现存的方法都是直接用机器翻译将源语言翻译为目标语言,以获取标记数据,但是翻译后的词典覆盖率有限,且翻译本身的准确性限制。
解决:提出跨语言混合模型,利用平行语料库,可以提高词典覆盖率,通过在飞标注的平行语料中学习情感词,同时在源语言与目标语言间传递极性标签信息。
思路:把平行语料库中的未标注数据的极性当做隐变量,而语料库中的可观察的词语当做是基于隐变量的词语生成分布来生成的。
给定一个平行语料库,通过最大化生成这个语料库的似然值来fit CLMM模型,通过最大化似然值,CLMM可以估计没在标记数据中出现但是在平行语料中出现的词语的产生概率,进而扩展词典。
另外,CLMM还能利用源语言和目标语言中的词语来判断平行语料中句子的极性。
Cross-Domain Co-Extraction of Sentiment and Topic LexiconsF Li, SJ Pan, O Jin, Q Yang, X Zhu - … of the 50th Annual Meeting of the …, 2012 - 问题:之前的工作表明监督方法的有效性,但是却需要人工标注训练数据。
解决:本文提出一个domain自适应的方法来得到情感和主题词典,不需要任何标注数据,但是需要另外一个相关领域的标注数据。
首先,在目标域中生成一些有高置信度的情感和主题词种子,然后提出一个新的Relational Adaptive bootstraPping算法根据源域中标注数据的情感词和主题词的关系来在目标域中扩展种子,进而得到目标域的情感主题词典。
1.情感词种子生成:源域中的情感词作为候选,用公式(1)得到得分最高的top r 个词汇作为情感词种子2.主题词种子生成:在源域中抽取出情感词与主题词的所有pattern及主题词作为候选,根据公式(2)得到pattern的得分,Acc(Rj)是在源域中pattern Rj的准确率,Freq(Rj)是在目标域中的出现频率。
选取得分最高的top r个pattern作为种子,然后根据公式(3)选取得分最高的top r 个词作为主题词种子。
B是情感词种子集合,A是满足wi,wk的模式集合。
3.种子扩展:Twitter Sentiment Classification using Distant SupervisionA Go, R Bhayani, L Huang - CS224N Project Report, Stanford, 2009 - Tweets出现在新闻标题中或者维基百科中,则认为其为中性。
Tweets的特性:长度,可用数据多,语言模型(数据格式杂乱,错误常出),没有特定领域。
方法:分类器用了NB,最大熵,SVM,特征用了unigrams,bigrams,两个的结合,unigrams结合POS(词性标注) tags。
训练数据:用twitter API检索:)和:(下载包含emotion(分为正负极性两种表情符号)的tweets数据,对数据进行预处理(去掉emotions,删去有两种极性emotion的tweet,删去重复数据等等),最终得到1600000个tweets。
训练数据中要把emotion去掉,引发的问题是由于训练数据没有用emotion特征,因而测试数据中有emotion特征时,对其分类无影响,这是一个需要解决的问题。
测试数据:用不同的领域的query term检索tweets,对其标注形成测试数据。
实验后发现,单独的unigrams比bigrams效果好,因为bigram数据稀疏,两种结合的特征,NB和最大熵正确率提高,但是SVM降低。
而POS特征对分类无明显影响。
以后需要解决的问题:语义问题,特殊领域的情感分类,中性tweets的处理,其他语言的情感分类,测试数据中emotion特征的应用。
Target-dependent Twitter Sentiment ClassificationL Jiang, M Yu, M Zhou, X Liu, T Zhao - ACL, 2011 - 问题:以往的工作大多是target无关的情感分析,即只分析情感,而没有考虑情感对应的对象;由于tweets的特殊性(短小且多歧义,一个tweets中可能涉及多个target,或者同一个tweet中有很多与target无关的说明),情感分析时会造成内容不够,数据稀疏。
所以有必要进行target相关的情感分析,同时扩展相关的tweets,综合分析得到结果。
方法:采用三步进行分析:主客观分类,极性分类,基于图的优化。
前两步采用相同的特征,SVM分类器。
1.数据预处理:tweets标准化,词性标注,词干,句法分析2.target无关的特征:词、标点、表情符号、hashtag、情感词典特征(即句子中有多少正负极性词语)3.Target扩展:首先,包含target的名词短语作为扩展目标;然后,与target有co-reference的也作为扩展目标;用点互信息求出与target最相关的K个名词和名词短语,抽取出所有扩展目标的中心名词,如果其与target的点互信息大于阈值,则也作为扩展目标。
Target有关的特征:依靠句法分析树,得到多种特征,比如,I love iPhone得到love_arg2,Flower is beautiful得到Flower_arg1,等等。
4.基于图的情感优化:相关tweets的获取:retweets(转发的),同一人发的包含target的tweets,对该tweet 的回复。
对于不同扩展,将其用不同的连线与原本的tweet连接,形成图。
进而:对于图中的每个tweet,计算出p(c|t,G),输出其中p最大的一个。
5.实验:实验的训练和测试数据用不同的query term(Obama,Google,iPad,Lakers,Lady Gaga)从twitter上获取,人工标注其极性,得到459个+,268个-,1212个中性tweets。
Future work:探索target与扩展target的关系,哪些情感有相关,哪些不会。