文本情感分析研究现状
- 格式:docx
- 大小:259.09 KB
- 文档页数:16
《基于大数据的评论文本情感分析方法研究》篇一一、引言随着互联网的迅猛发展,用户在线上平台产生的评论文本数量呈爆炸性增长。
这些评论文本包含了丰富的情感信息,对于企业了解用户需求、产品改进以及市场趋势预测具有重要意义。
因此,如何有效地进行评论文本情感分析成为了一个亟待解决的问题。
本文将针对基于大数据的评论文本情感分析方法进行研究。
二、评论文本情感分析的重要性评论文本情感分析是指通过自然语言处理技术,对文本中表达的情感进行识别和分类。
这种分析可以帮助企业了解用户对产品、服务、品牌等的态度和观点,从而更好地制定营销策略、优化产品服务。
此外,情感分析还有助于舆情监测、市场调研等领域。
三、基于大数据的评论文本情感分析方法1. 数据收集与预处理在进行情感分析之前,需要收集大量的评论文本数据。
这些数据可以来自于社交媒体、电商平台、新闻媒体等。
收集到的数据需要进行预处理,包括去除无关信息、文本清洗、分词等。
2. 特征提取特征提取是情感分析的关键步骤。
通过提取评论文本中的关键词、短语、情感词等,可以形成文本的特征向量。
这些特征向量可以反映文本的情感倾向。
3. 情感词典构建情感词典是情感分析的基础。
通过构建包含情感词、情感强度等信息的词典,可以辅助判断文本的情感极性。
此外,还可以利用机器学习算法训练情感分类模型。
4. 机器学习算法应用在情感分析中,常用的机器学习算法包括支持向量机(SVM)、朴素贝叶斯(NB)、循环神经网络(RNN)等。
这些算法可以通过训练大量数据,学习文本的情感分类规则,提高情感分析的准确率。
四、研究现状与展望目前,基于大数据的评论文本情感分析方法已经取得了显著的成果。
然而,仍存在一些挑战和问题。
例如,如何提高情感分析的准确率、如何处理不同领域的评论文本、如何应对虚假评论等问题。
未来,可以进一步研究深度学习、强化学习等技术在情感分析中的应用,以提高情感分析的准确性和效率。
此外,还可以结合语义理解、知识图谱等技术,提高评论文本情感分析的智能水平。
基于深度学习的文本情感分析方法研究随着社交媒体的兴起以及用户生成内容的爆炸增长,对大规模文本数据进行情感分析的需求与日俱增。
文本情感分析是一种将自然语言处理和机器学习相结合的技术,旨在自动识别和理解文本中的情感倾向。
近年来,深度学习模型在文本情感分析领域取得了显著的进展,并且成为了研究和应用的热点之一。
本文将就基于深度学习的文本情感分析方法进行综述,并对其研究现状和未来发展进行讨论。
一、基础知识介绍1.1 文本情感分析概述文本情感分析,又称为情感倾向分析,是指通过计算机技术对文本进行情感判断和分类的过程。
其目标是将文本分类为积极、消极或中性等情感类型。
情感分析可应用于情感监测、品牌舆情分析、用户评论情感分析等领域,对于企业决策和社会舆情分析起着重要作用。
1.2 深度学习简介深度学习是一种基于神经网络模型的机器学习方法,通过多层神经网络的构建和训练来解决复杂的模式识别和数据分析问题。
与传统机器学习方法相比,深度学习模型以其强大的非线性拟合能力和自动特征学习能力在文本情感分析任务中表现出色。
二、基于深度学习的文本情感分析方法2.1 卷积神经网络(CNN)卷积神经网络是一种常用的深度学习模型,具有一定的自然语言处理能力。
在文本情感分析领域,卷积神经网络通过卷积操作来捕捉文本中的局部特征,进而通过全连接层进行分类。
该方法在文本分类任务中取得了很好的效果。
2.2 循环神经网络(RNN)循环神经网络是一类具有记忆能力的神经网络,对于处理序列数据的任务特别有效。
在文本情感分析中,循环神经网络通过序列建模,能够较好地捕捉上下文信息,对于理解文本中的情感趋势非常有帮助。
然而,长时依赖问题限制了RNN模型的准确性。
2.3 长短期记忆网络(LSTM)为了解决长时依赖问题,研究者提出了长短期记忆网络。
LSTM模型通过引入记忆单元和门控机制,能够有效地记忆长期依赖关系,并且在文本情感分析中取得了较好的效果。
LSTM模型在多层结构的基础上,能够更好地处理文本中的复杂情感信息。
面向文本的情感分析研究一、引言随着社交媒体、新闻网站等文本源不断涌现,如何从众多的文本数据中获取有用的情感信息成为了重要的课题之一。
面向文本的情感分析通过计算机技术的手段对文本的情感进行分析,为企业、政府等提供可靠的决策参考。
本文将从文本情感分析的定义、研究现状以及未来发展等方面进行阐述。
二、文本情感分析的定义文本情感分析(Text Emotion Analysis,TEA)指对文本中表达出来的情感进行自动化的检测、抽取和分析的技术。
TEA的主要任务是为文本打上与情感相关的标签或者分类,并根据标签或分类结果,进一步抽取文本情感的相关特征,从而实现对文本情感的精细化分析。
三、文本情感分析的研究现状1. 情感分类情感分类是文本情感分析的核心任务之一,该任务旨在将文本分为不同的情感类别。
情感分类的方法主要分为传统机器学习方法和深度学习方法两种。
传统机器学习方法采用特征工程对文本进行处理,再使用SVM、NB等算法进行分类。
深度学习方法则采用神经网络进行情感分类,该方法不需要进行特征工程,可以自动学习文本中的特征,因此该方法在文本情感分析领域取得了很大的成功。
2. 情感词典情感词典是一种基于词典的情感分类方法,它对情感词和文本情感进行匹配,从而实现情感分类。
情感词典的优点是不依赖于训练样本,可以快速实现情感分析。
目前常用的情感词典有SentiWordNet、AFINN等。
3. 情感预测情感预测是文本情感分析的另一项任务,旨在在新闻资讯、社交媒体等文本源中预测特定事件或话题的情感倾向。
情感预测的主要方法有监督学习和半监督学习等。
四、文本情感分析的应用1. 品牌形象管理文本情感分析可以用于对企业品牌形象进行管理,根据消费者在社交媒体上对品牌的评价进行情感分析,及时发现消费者对品牌的不满意之处,并做出相应的调整,提高品牌的信誉度。
2. 舆情监测文本情感分析可以用于对热点话题、事件等的舆情监测,对社交媒体上的事件进行情感分析,快速了解公众对事件的态度,从而为政府、媒体等机构提供情感倾向分析。
文本情感分析技术的现状与未来随着现代社会的发展,人们的文字表达方式变得越来越多样化,人们分享和发布的信息日益增多。
这种信息中包含了大量的情感信息,如情感态度、情感倾向等,而情感分析技术,则是能够搜集、处理和分析这些情感信息的技术。
本文将从现状和未来两个方面分析情感分析技术的发展。
现状目前,情感分析技术已经成为自然语言处理领域中的重要分支。
通过文本挖掘和机器学习技术,情感分析技术能够将一段文本中的情感信息提取出来,并作出对应的情感分类。
情感分析技术被广泛应用于社交网络分析、舆情分析和市场调研等领域。
在社交网络分析中,情感分析技术能够从社交媒体等平台中收集用户发布的信息,分析出用户的情感态度,为企业和政府等机构做出决策提供参考。
在舆情分析领域,情感分析技术则可以从新闻、博客等公开媒体渠道中挖掘出民众对某一事件的态度倾向,进而为政策制定提供参考。
在市场调研领域,情感分析技术则可以帮助企业分析用户对产品的好恶程度、对营销活动的反应等,从而更好地制定营销策略。
未来尽管情感分析技术已经得到了相当程度的发展,但这项技术仍然面临着许多挑战和机遇。
其中最突出的挑战包括:多语言情感分析、情感词典的建立和情感元素自动提取等。
多语言情感分析是情感分析技术未来发展的重要领域之一。
当前多种语言环境下的混合文本数据非常常见,如何有效地处理这些多语言文本数据,并在不同的语言环境下实现情感分析,将成为情感分析技术未来发展的重要内容之一。
情感词典是情感分析技术的关键组成部分,它决定了情感分析的精度和效果。
目前已经有许多情感词典开源在线,但是情感词典的质量参差不齐,如何建立一套高质量的情感词典,将成为未来情感分析技术发展的关键所在。
情感元素自动提取是情感分析技术未来的发展方向之一。
情感分析精度的提高往往需要更多的语言规则和语言知识,但是这些规则和知识需要人工提取,代价高昂、效率低下。
因此,情感元素自动提取引起了大量研究者的兴趣。
未来情感分析技术将更多地采用机器学习和深度学习等技术,实现情感元素自动提取,提高情感分析的自动化程度。
文本情感分析研究现状机器之心专栏作者:李明磊作为NLP领域重要的研究方向之一,情感分析在实际业务场景中存在巨大的应用价值。
在此文中,华为云NLP算法专家李明磊为我们介绍了情感分析的概念以及华为云在情感分析方面的实践和进展。
基本概念为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。
这些评价中都蕴含着巨大的商业价值。
比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。
而这种正负面评价的分析就是情感分析的主要应用场景。
是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。
情感分析主要有五个要素,(entity/实体, aspect/属性,opinio n/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。
情感分析的目标就是从非结构化的文本评论中抽取出这五个要素、(entity 体, 输入文木holder/®点持有者,time/ 时|i图i情感分析五要素举例如下图:我觉得华为手机非常牛逼。
(华为手机*图2情感分析五要素例子上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。
其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。
评价对象又可细分为评价对象词抽取和评价对象类别识别。
如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。
实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。
词和类别分别对应了不同的任务。
观点的取值范围一般是 {正面,负面,中性}。
类似的,可以把观点看做 是对描述词的抽象和归类,如「好看」归为「正面」。
《基于语音和文本的情感识别研究》篇一一、引言情感识别是人工智能领域中一个重要的研究方向,它涉及到对人类情感的理解和识别。
随着语音和文本技术的发展,基于语音和文本的情感识别研究逐渐成为研究的热点。
本文旨在探讨基于语音和文本的情感识别研究的重要性和现状,并分析其应用前景。
二、情感识别的背景和意义情感识别是指通过计算机技术对人类情感进行自动识别和解析的过程。
随着人工智能技术的不断发展,情感识别在许多领域都有着广泛的应用前景,如智能客服、社交媒体分析、心理疾病诊断等。
基于语音和文本的情感识别研究是情感识别领域的重要分支,它通过对人类语音和文本信息进行分析和解读,来理解人们的情感状态,对于提升人机交互体验、促进人类心理健康等方面都具有重要意义。
三、语音情感识别的研究现状语音情感识别是通过对人的语音信号进行处理和分析,提取出反映情感的特征信息,从而判断出人的情感状态。
目前,基于语音的情感识别研究已经取得了一定的成果。
一方面,通过使用深度学习等先进的算法技术,可以从语音信号中提取出更多的特征信息;另一方面,研究人员也在不断改进和优化情感词典等工具,提高语音情感识别的准确性和可靠性。
然而,由于语音信号的复杂性和多样性,以及不同人的语音特征差异等因素的影响,语音情感识别的准确率仍需进一步提高。
四、文本情感识别的研究现状文本情感识别是通过分析文本信息来理解作者的情感状态。
在文本情感识别的研究中,主要是通过对大量文本数据的训练和学习,建立情感词典和情感分析模型等工具,从而实现情感的自动识别和分析。
目前,基于文本的情感识别技术已经得到了广泛的应用,如社交媒体分析、产品评论分析等。
然而,由于文本信息的复杂性和多样性,以及不同人的语言表达方式和语境差异等因素的影响,文本情感识别的准确率仍需进一步提高。
五、基于语音和文本的情感识别的结合研究结合语音和文本的信息进行情感识别可以提高准确性和可靠性。
在这方面,研究人员提出了多种方法,如融合语音和文本特征的方法、基于多模态情感识别的方法等。
中文文本情感分析发布时间:2022-07-08T01:25:46.300Z 来源:《科技新时代》2022年6期作者:李昱[导读] 从海量的评论文本数据中获取有用的情感信息对各行各业的发展有着重要作用。
中国传媒大学100024;摘要:从海量的评论文本数据中获取有用的情感信息对各行各业的发展有着重要作用。
传统的情感分析方法存在局限性。
情感词典的方法中,词典构建不完善且不能及时更新;机器学习的方法不能结合上下文;深度学习的方法可以结合语义信息,但不同神经网络也存在不足,因此常用混合模型扬长避短。
本文针对中文文本的情感分析任务,将不同方法进行对比,其中本文构建的基于LSTM和CNN的混合神经网络的情感分析模型表现最佳,准确率达92.5%。
关键词:自然语言处理;卷积神经网络;情感分析;深度学习;循环神经网络人工智能和大数据的兴起给互联网产业带来了新兴力量,数字化社会逐渐形成。
网民们可以通过网络进行社交、学习、购物、娱乐、订购生活服务等各种各样的活动,同时也会在各种社交软件上发表自己的观点,这些看法和评价往往带有开心、愤怒、悲伤、赞美、批评等各种情感倾向。
这些评论文本信息的发布具有及时性、自由性和便捷性,造成了网络评论文本数据呈指数型增长。
从海量的文本数据中获取有价值有意义的情感信息是自然语言处理的重要研究内容。
一、文本情感分析的研究背景及意义对评论文本的情感分析研究是NLP领域近年来的热点,在商业规划、电商销售、舆论引导等各个方面都发挥着重要作用。
通过挖掘评论背后的情感倾向,政府和媒体等能够了解大众的情感需求,及时进行监管和正面引导,帮助大众树立正确的价值观,避免重大舆情事故;电子商务的从业人员能够了解用户真实的消费需求,从而做出正确的商业决策,进行个性化推荐,创造更多经济效益;网民个人能够根据他人评论更加细致地了解产品的优劣,从而决定是否购买等。
因此,对评论文本进行情感分析,掌握情感倾向,有着重要商业价值和社会价值。
文本情绪分析综述随着社交媒体和在线交流的普及,人们产生和接触到的文本信息越来越丰富。
这些文本信息中蕴含着大量的情感信息,对于理解人们的需求、意见和态度具有重要意义。
文本情绪分析正是一种用于提取和处理这些情感信息的技术。
本文将综述文本情绪分析的基本概念、现状、趋势以及未来研究方向。
一、引言文本情绪分析是一种自然语言处理技术,通过计算机算法自动识别和分析文本中的情感倾向。
这种技术可以应用于诸多领域,如智能客服、广告效果评估、新闻报道分析等。
准确、高效的文本情绪分析技术对于企业、政府和社会各界具有重要意义。
二、情感分析文本情绪分析的核心是情感词典和机器学习算法。
情感词典是一种包含情感词汇及其权重的词典,用于表示文本中的情感倾向。
机器学习算法则是通过训练大量样本学习文本情感倾向的模型,并对新文本进行情感预测。
在情感分析过程中,特征选择和模型训练是两个关键环节。
特征选择涉及到从文本中提取有意义的信息,如词频、词性、句法等,用于判断文本的情感倾向。
模型训练则是通过机器学习算法,将提取的特征输入到模型中进行训练,以得到更准确的情感预测结果。
三、应用领域文本情绪分析在各个领域都有广泛的应用。
例如,在智能客服领域,文本情绪分析可以帮助企业快速了解客户需求和意见,提高客户满意度;在广告文案领域,文本情绪分析可以评估广告效果,为广告制作提供参考;在新闻报道领域,文本情绪分析可以分析作者的情感倾向,帮助读者更好地理解报道内容。
然而,文本情绪分析在实际应用中仍面临一些挑战,如情感词典的不完善、不同文化背景下的情感差异等。
因此,提高文本情绪分析的准确性和普适性仍是未来的重要研究方向。
四、未来展望随着深度学习和自然语言处理技术的不断发展,文本情绪分析的准确性和应用范围也将得到进一步提升。
未来,文本情绪分析有望实现以下发展:1、算法优化:结合深度学习和传统机器学习算法的优点,提高情感分析的准确性。
例如,使用预训练的深度学习模型进行情感预测,以及结合多种特征进行模型训练等。
文本情感分析方法研究综述一、本文概述随着信息技术的飞速发展和大数据时代的到来,文本情感分析作为自然语言处理领域的一个热门研究方向,正受到越来越多的关注。
本文旨在对文本情感分析方法进行全面的研究综述,旨在梳理和分析当前情感分析的主要方法、技术及其发展趋势,以期为读者提供一个清晰、系统的认识框架。
本文将简要介绍文本情感分析的研究背景和意义,阐述情感分析在社交媒体分析、舆情监控、产品评价等领域的重要应用。
随后,文章将重点回顾和总结情感分析的发展历程,包括早期的基于词典的方法和规则的方法,以及近年来兴起的基于机器学习和深度学习的情感分析方法。
在详细分析各类情感分析方法时,本文将深入探讨各种方法的原理、优缺点以及适用场景。
文章还将关注情感分析领域的一些前沿研究,如基于深度学习的情感分析模型、多模态情感分析以及情感分析的跨领域应用等。
本文将对未来的研究方向和挑战进行展望,以期为推动文本情感分析技术的发展提供有益的参考和启示。
通过本文的综述,读者可以对文本情感分析方法有一个全面、深入的了解,为相关领域的研究和实践提供有益的借鉴和指导。
二、文本情感分析的发展历程文本情感分析,也称为观点挖掘或情感挖掘,是自然语言处理(NLP)领域的一个重要研究方向。
自20世纪90年代起,随着计算机科学和的飞速发展,文本情感分析逐渐受到了广泛关注,经历了从简单规则到复杂模型的发展历程。
早期的研究主要基于规则或词典的方法。
研究者们通过构建情感词典或情感词汇列表,结合简单的文本处理规则,对文本进行情感倾向的判断。
然而,这种方法受限于情感词典的完备性和规则设计的灵活性,难以处理复杂的语言现象和上下文依赖。
随着机器学习技术的兴起,文本情感分析开始进入新的发展阶段。
研究者们开始尝试使用各种机器学习算法,如朴素贝叶斯、支持向量机(SVM)、最大熵模型等,对文本进行情感分类。
这些算法能够从大量数据中学习出有效的特征表示,从而提高了情感分析的准确性和鲁棒性。
文本情感分析研究现状机器之心专栏作者:李明磊作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中存在巨大的应用价值。
在此文中,华为云NLP 算法专家李明磊为我们介绍了情感分析的概念以及华为云在情感分析方面的实践和进展。
基本概念为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。
这些评价中都蕴含着巨大的商业价值。
比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。
而这种正负面评价的分析就是情感分析的主要应用场景。
是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。
情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。
情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。
图1 情感分析五要素举例如下图:图2 情感分析五要素例子上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。
其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。
评价对象又可细分为评价对象词抽取和评价对象类别识别。
如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。
实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。
词和类别分别对应了不同的任务。
观点的取值范围一般是{正面,负面,中性}。
类似的,可以把观点看做是对描述词的抽象和归类,如「好看」归为「正面」。
任务类型当前研究中一般都不考虑情感分析五要素中的观点持有者和时间,故后文中的讨论都不考虑这两个因素。
根据对剩下三个要素的简化,当前情感分析的主要任务包括可按照图3 所示:词级别情感分析、句子/文档级情感分析、目标级情感分析。
图3 情感分析任务体系其中词级别和句子级别的分析对象分别是一个词和整个句子的情感正负向,不区分句子中具体的目标,如实体或属性,相当于忽略了五要素中的实体和属性这两个要素。
词级别情感分析,即情感词典构建,研究的是如何给词赋予情感信息,如「生日」对应的情感标签是「正面」。
句子级/篇章级情感分析研究的是如何给整个句子或篇章打情感标签,如「今天天气非常好」对应的情感标签是「正面」。
而目标级情感分析是考虑了具体的目标,该目标可以是实体、某个实体的属性或实体加属性的组合。
具体可分为三种:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中TG-ABSA 的分析对象是给定某一个实体的情况下该实体给定属性集合下的各个属性的情感分析,如图4 中的实体是汽车,属性集合是动力、外观、空间和油耗。
图4 TG-ABSA 例子TN-ABSA 的分析对象是文本中出现的实体的情感正负向,如图5 中,实体华为和XX 的情感正负向分别为正面和负面。
这种情况下没有属性的概念,只有实体。
图5 TN-ABSA 例子T-ABSA 的分析对象是文本中出现的实体和属性组合,如图6 所示,评价对象是实体+属性的组合,如华为+拍照和XX+性价比。
图6 TG-ABSA 例子在清楚了目标级情感分析的分类之后,每个类别又都可以包含为两大类任务:第一个是评价对象的识别,第二个是情感识别。
评价对象识别包括评价对象词抽取和评价对象词分类,情感识别包括评价词抽取和评价正负面分类。
具体例子如图7 所示。
之所以要识别出对象词和评价词,是为了能够基于属性正负面过滤的时候可以高亮相应的评价文本片段。
图7 评价对象和评价词和类别识别例子本文主要介绍词级别情感分析、句子级情感分析和目标级情感分析中的T-ABSA 的内容、方法和华为云语音语义团队在该领域实践中的一些成果。
这里首先区分一些概念,本文所说的情感,包括emotion 和sentiment 两种。
严格意义上来说sentiment 属于emotion 的一种,但是本文中不做区分。
词级文本情感分析任务介绍词级别的情感分析,即构建情感词典(sentiment lexicon),旨在给词赋予情感信息。
这里首先要确定的是情感怎么表示,常见的表示方法有离散表示法和多维度表示法。
离散表示法如情感分析领域常用的{正面,负面,中性} 的表示方法,或者如表图8 离散情感模型,引用自「1」用离散表示法表示的情感词典如:高兴-正面,生日-正面,车祸-负面,灾难-负面多维度表示法也有多种,如Valence-Arousal-Dominance(VAD)模型,Evaluation-Potency-Activity(EPA)模型等。
Valence 和Evaluation 表示好坏,arousal 和activity 表示人的唤起度,dominance 和potency 表示控制力。
图9 Valence-Arousal 模型用连续多维表示方法的情感词典例子如:VAD 模型在[1,9] 取值范围下:车祸可表示为(2.05, 6.26, 3.76)常见的方法构建情感词典常见的方法如图10 所示:图10 常见情感词典构建方法人工标注优点是准确,缺点是成本太高。
自动化方法中,都是先有人工标注一些种子词,然后通过不同的方法把种子词的标签信息扩展到其他词。
基于点互信息的方法会基于大规模语料库统计新词和种子词之间的统计信息,然后基于该信息对种子词做加权求和得到信息的情感标签。
基于标签传播的方法会先构建词和种子词的一个图,图上的边是基于词和词之间的统计信息获得。
然后用标签传播的算法获得新词的情感信息。
基于回归的方法先构建词的特征向量表示,然后基于种子词的标签信息训练一个回归或分类模型,得到该模型后再对新词做预测,获得新词的情感标签信息。
我们的进展我们团队基于已经标注的情感词典,通过自动化的方法,构建了当前业界最大规模的多维度情感词典。
图11 情感词典构建流程基于该方法,我们构建了业界最大规模的情感词典库,采用了Valence-Arousal 的二维情感表示模型,情感值取值范围为[-1,.1](-1 表示不好(对应Valence 维度)或无唤醒(对应Arousal 维度),1 表示好或高唤醒度), 词典包含六百万词,例子如下:图12 构建的情感词典例子句子文本情感分析任务介绍句子级和篇章级文本情感分析旨在整个句子或文章表达的情感倾向性,如下例子:•买没几天就降价一点都不开心,闪存跑分就五百多点点---••外观漂亮音质不错,现在电子产品基本上都是华为的了---••汽车不错,省油,性价比高---••这个政策好啊,利国利民---•当前各友商推出的情感分析服务大部分都是这种整体文本的正负向预测。
句子级情感分析服务在互联网时代的电商评论、政策评价中有着广泛的应用价值。
句子级情感分析是一个典型的文本分类任务,我们团队也采用了当前比较有效的预训练模型+微调的方案,如下图所示:图13 句子级情感分析方案我们的进展当前我们已经上线了电商、汽车和社交领域的情感分析模型,主要支持中文语言,标签是正面和负面,带有标签置信度。
如下图的例子所示,分别是手机、汽车和社交领域。
图14 EI 体验空间电商领域、汽车领域和社交领域例子目标级文本情感分析任务介绍前面介绍的句子级或篇章级的情感分析只关注整个文本的正负面,没有区分文本中具体的评价对象。
所以就处理不了如下的例子:该例子对汽车的各个属性的评价正负面是不一样的,如对动力和外观来说是正面,对空间和油耗来说是负面,所以就不能简单的分析整体文本的正负面。
本节介绍的目标情感分析中的TG-ABSA 任务,即固定实体下的给定属性集合的评价正负面的预测。
我们的进展传统的属性级情感分析可以采用每个属性训练一个情感分类模型。
但是这种方法需要训练多个分类模型,成本比较高。
我们提出了基于单模型多属性标签输出的方法,即一个模型同时输出N 个属性的情感标签。
图15 是当前在汽车领域结果,其中Attribute Hit Rate 是属性的命中率,即预测出的属性占评论中实际出现的比率。
Hit Attribute Accuracy 是命中的属性标签预测的准确率,即在所有命中的属性中,标签预测正确属性的占比。
因为我们的模型可以输出每个属性标签的置信度,所以可以基于置信度过滤来调节模型最终的输出标签,图中是个曲线。
图16 是汽车领域属性级情感分析的例子,可以同时预测出评论中出现的动力和外观两个属性对应的正负面。
该功能支持汽车领域的八个属性的评价预测,包括:内饰、动力、外观、性价比、操控、能耗、空间、舒适性。
图15 属性级情感分析的效果图16 汽车领域属性情感分析例子最后,打个小广告。
本文前面主要介绍了情感分析的概念以及华为云在情感分析方面的实践和进展,部分服务已经可以在我们的「EI 体验空间」小程序体验,欢迎大家体验并提出宝贵的意见。
情感分析服务可以用于商品评价智能化分析、智能评分等,欢迎大家体验。
关于作者李明磊,华为云NLP 算法专家,博士毕业于香港理工大学,从事文本情感分析和情绪识别的研究,在TAC 发表论文多篇,多次获得最佳论文奖。
目前在华为云主要负责华为云文本分类、情感分析、舆情监控平台等业务。
主导的文本分类平台在汽车、电商、社交等领域的情感分析达到了业界领先的水平。
汽车领域属性级细粒度情感分析8 属性准确率均达到90% 以上.。