基于视觉的情感分析研究综述
- 格式:pdf
- 大小:1.05 MB
- 文档页数:6
视频内容分析技术研究综述随着互联网的不断普及,视频内容逐渐成为人们获取信息和娱乐的主要形式之一。
然而,仅仅拥有视频并不足够,如何对视频进行有效的分析和处理就成为了一个重要的研究方向。
本文将对视频内容分析技术进行综述,探讨其发展现状和未来发展方向。
一、视频内容分析技术概述视频内容分析技术是对视频数据进行处理、分析和理解的过程,目的是从视频中提取出可用信息。
这些信息可以是物体、场景、动作,也可以是视频的音频等根据需求而异。
视频内容分析技术经过多年的发展和研究,已经具有较为完善的理论和方法体系。
目前,视频内容分析技术广泛应用于视频监控、视频搜索、视频剪辑等诸多领域。
视频监控是其中的一个重要应用,其通过对视频数据的实时处理,实现对目标物体的跟踪、识别等功能,为公共安全提供了强有力的支持。
除了在安全领域的应用,视频内容分析技术在多媒体领域的应用也越来越广泛。
视频搜索和检索系统,旨在从大量的视频数据中快速搜索、匹配出用户需要的视频,并提供相关功能如查询、分类和排序等。
视频剪辑系统则是基于视频内容分析技术,对视频进行分割、合并、特效处理等,以实现个性化的视频制作。
二、视频内容分析技术的研究现状1.视频物体识别视频物体识别是视频内容分析领域中的一个重要问题之一。
其目的在于从视频中提取出物体的轮廓、特征等信息,进行分类、跟踪等操作。
视频物体识别中涉及多个领域的知识,如计算机视觉、模式识别等。
目前,视频物体识别领域的研究主要集中在基于深度学习的方法上,如基于卷积神经网络(CNN)的物体识别方法等。
2.视频场景分析视频场景分析旨在对视频图像所处的场景进行理解和推断,以识别出场景中的重要元素,提取出相关信息。
视频场景分析是视频内容分析的一个重要问题,涉及到多领域的知识,如计算机视觉、自然语言处理等。
目前,视频场景分析领域的研究主要集中在基于深度学习的方法上,如基于循环神经网络的场景识别方法等。
3.视频情感分析视频情感分析的研究目标是对视频中所表达出的情感进行分析,并实现相应的情感分类、情感转换等功能。
人工智能相关研究领域引用文献综述随着科技的飞速发展,人工智能(AI)已经成为了当今世界最具影响力和变革性的技术之一。
AI 的研究领域广泛,涵盖了机器学习、计算机视觉、自然语言处理、智能机器人等多个方面。
为了更深入地了解人工智能的发展现状和未来趋势,对相关研究领域的引用文献进行综述具有重要的意义。
在机器学习领域,许多研究致力于改进算法和提高模型的性能。
例如,深度学习中的卷积神经网络(CNN)在图像识别和分类任务中取得了显著的成果。
研究者们通过不断调整网络结构、优化训练参数等方法,提高了模型的准确性和泛化能力。
相关文献如1提出了一种新颖的卷积核设计方法,有效地提升了图像特征提取的效果。
计算机视觉是人工智能的一个重要分支,其目标是使计算机能够理解和解释图像和视频中的内容。
文献2中介绍了一种基于生成对抗网络(GAN)的图像生成技术,能够生成逼真的新图像。
此外,目标检测和跟踪也是计算机视觉中的关键问题,相关研究如3提出了一种高效的目标检测算法,在准确性和速度方面都有较好的表现。
自然语言处理旨在让计算机理解和处理人类语言。
机器翻译是其中的一个重要应用,文献4中介绍了一种基于神经机器翻译的模型,大大提高了翻译的质量和流畅度。
情感分析也是自然语言处理的热门研究方向,通过分析文本中的情感倾向,为商业决策、舆情监测等提供支持。
例如5提出了一种基于深度学习的情感分析方法,具有较高的准确性。
智能机器人领域的研究则主要集中在机器人的感知、决策和控制方面。
文献6介绍了一种基于多传感器融合的机器人环境感知技术,使机器人能够更准确地感知周围环境。
在机器人的决策和控制方面,7提出了一种基于强化学习的算法,提高了机器人的自主决策能力和动作执行的准确性。
然而,人工智能的发展也面临着一些挑战。
数据隐私和安全问题是其中之一。
随着大量个人数据被用于训练人工智能模型,如何保护用户的隐私成为了一个亟待解决的问题。
相关文献8探讨了数据加密和匿名化技术在保护数据隐私方面的应用。
心理学文献综述心理学作为一门研究人类心理现象及其影响下的精神功能和行为活动的科学,涵盖了众多的分支领域和研究方向。
通过对相关文献的综合梳理,可以更全面地了解这一学科的发展脉络、研究现状以及未来趋势。
在认知心理学领域,研究者们一直致力于探索人类的思维、感知、记忆和决策等过程。
大量实验研究表明,人类的感知并非完全客观准确,而是受到先入为主的观念、情绪和经验的影响。
例如,在视觉感知实验中,当被试者处于不同的情绪状态时,对相同的视觉刺激会产生不同的解读。
记忆方面的研究也揭示了记忆并非是对过去事件的精确复制,而是一个不断重构和受干扰的过程。
发展心理学关注个体从出生到衰老的整个生命历程中的心理发展变化。
研究发现,早期的亲子关系对儿童的情感和社会发展具有深远影响。
安全型依恋的儿童在日后往往具有更好的情绪调节能力和人际关系处理能力。
而在青少年时期,个体面临着身份认同的挑战,同伴关系在这个阶段的影响力逐渐增大。
老年阶段,认知能力的下降并非完全不可避免,积极的生活方式和持续的学习可以在一定程度上减缓认知衰退的速度。
社会心理学则着重研究个体在社会环境中的行为和心理。
从众现象是社会心理学中的一个经典研究主题,个体在群体压力下往往会改变自己的行为或观点。
此外,社会认知偏差也普遍存在,如首因效应和近因效应会影响我们对他人的评价和印象形成。
在网络时代,虚拟社交环境对个体的自我呈现和社会互动产生了新的影响,引发了一系列关于网络社交行为和心理的研究。
人格心理学试图揭示个体差异的本质和根源。
不同的人格理论从不同的角度对此进行了解释,如特质理论强调个体稳定的特质特征,而精神分析理论则关注潜意识和早期经历对人格的塑造。
近年来,基于基因和环境交互作用的研究为理解人格的形成机制提供了新的视角。
临床心理学主要关注心理障碍的评估、诊断和治疗。
对于常见的心理障碍如抑郁症、焦虑症等,认知行为疗法被证明是一种有效的治疗方法。
同时,心理治疗与药物治疗相结合的综合干预模式在许多情况下能取得更好的治疗效果。
跨性别代言广告的视觉叙事研究综述作者:程婷来源:《广告大观》2019年第05期摘要:以往的广告中,具有明确性别特征的商品往往是由对应性别的人代言,如女性代言化妆品,男性代言剃须刀等产品。
但近年来,跨性别代言的广告日渐兴盛。
笔者在阅读相关文献的基础上,对其研究现状进行了归纳,并分析了近年来跨性别代言广告的视觉叙事。
关键词:跨性别代言;广告代言;视觉叙事自1996年,木村拓哉代言日本品牌Kanebo的口红广告取得重大成功后,跨性别代言这一广告模式迅速在各地风靡。
1999年,卫生巾品牌“安乃诗” 首次在中国大陆地区采用了跨性别代言的方式;2011年,台湾男艺人明道代言“蕾黛丝”女性内衣;2015年,护肤品牌SKII启用男艺人霍建华代言旗下的明星产品神仙水;近年来,男星代言彩妆的案例更是不胜枚举…广告界兴起了一股跨性别代言的热潮。
基于上述背景,笔者对相关研究进行了归纳,并结合人的性别角色与产品的性别特征探讨了跨性别代言广告中的视觉叙事。
一、人的性别角色性别角色是个体的的思维及行为模式,包括个体性格、穿着习惯、行为表现、兴趣等。
性别角色可能与生理性别不一致,更多的被认为是主体的心理性别。
男性化气质与女性化气质通常被认为是性别角色的两极。
以张劲梅、孙小枝的《代言人性别表征与产品性别匹配对广告心理效果的影响研究》及银成钺、陈艺妮的《反性别刻板印象代言人广告效果的实验研究——消费者性别表征和产品性别特质的影响》为代表,国内关于跨性别代言的文献通常将性别角色按照个体在男性气质、女性气质得分的强弱不同组合分为男性化气质、女性化气质、双性化气质以及性别未分化四大类别。
其中,男性化气质通常为“工具性特质”,包括典型男性所具有的工具性导向、任务导向和成就导向的特性,其核心在于“把工作完成”,相关的气质如独立、独断等被认为更适合男性;而女性化气质则主要为“表达性气质”,包含典型女性所具有的以生活中的情感和表达为中心的相关特质,比如易于了解他人、温和等特质被认为更适合女性。
高中美术鉴赏课教学研究国内外文献综述一、前言我国的美术教育诞生之初强调美术的实用性和技术性。
如1904年《奏定初等小学堂章程》规定图画课的教学目的是“练习手眼,并养成其见物留心,记其实象之性情”。
《奏定中等学堂章程》提出图画课的目的是“习画者,当就实物模型画谱,教自在画,俾的练习意匠,兼讲用器画之大要,以备他日绘画地图、机器图,及讲求各项实业之初基”。
在1923年民国时期颁布的《小学形象艺术科要旨》中提出:“启发儿童艺术的本性,增进美的欣赏和识别的程度,陶冶美的发表和创造的能力,并涵养感情,引起乐趣。
”这一要求把美术课程界定为“兼具人文性和工具性”的学科。
新中国成立之初,百废待兴。
1956年教育部颁布了《初级中学图画教学大纲(草案)》、《小学图画教学大纲(草案)》这是新中国成立以来第一套完整的中小学图画教学大纲。
在大纲中规定了要教会学生掌握绘画的基本知识技能和技巧,使他们正确地真实的描绘物体的形象、颜色和空间位置,培养学生初步的审美能力及对美术的兴趣和爱好,发展学生的审美能力。
文革期间受极“左”思潮的影响,学校美术教育受到严重的摧残。
1978年党的十一届三中全会之后,美术教育迎来了蓬勃发展的春天。
从1979年《全日制时年制学校中小学美术教学大纲(试行草案)》。
提出重视“欣赏”教育,提高学生对美的感受力。
新中国成立之后,高中一直没有开设美术课程,1995年国家教育部颁布了《全日制普通高级中学艺术欣赏课教学大纲(初审稿)》,普通高中也有了美术课,其中规定了美术欣赏课的教学目的是:以审美教育为核心,培养学生健康的审美情趣和感受、体验、鉴赏艺术美的能力,树立正确的审美观念。
突出艺术学科的特点,寓思想品德教育于美术教育之中,陶冶情操,提高修养。
在九年义务教育的基础上,进一步增强学生对美术的兴趣和爱好,引导学生学习必要的美术知识,掌握必要的美术欣赏方法,开阔视野,启迪智慧,促进学生身心全面健康的发展。
目前,美术鉴赏作为教学内容和模块设置在义务教育阶段和普通高中美术课程中都得到重要体现,普通高中美术课程标准更是把美术鉴赏模块放到了非常重要的地位。
《数据标注研究综述》篇一一、引言随着人工智能()和机器学习(ML)技术的飞速发展,数据标注在和ML的模型训练中起着越来越重要的作用。
本文将围绕数据标注展开综述,首先探讨数据标注的基本概念,再对其研究历程进行回顾,接着介绍不同类型的数据标注及其应用场景,并最后讨论数据标注的现状及面临的挑战与未来发展。
二、数据标注的基本概念数据标注指的是将原始数据进行人工处理、转化,以符合算法模型对输入数据格式的需求。
在机器学习中,高质量的标注数据对于模型性能的优劣起着决定性作用。
标注任务主要包括文本标注、图像标注、语音标注和视频标注等。
其中,文本和图像是人工智能应用最为广泛的两个领域。
三、数据标注研究历程数据标注的发展历程可以追溯到机器学习的初期。
随着和ML技术的进步,对数据标注的需求和要求也不断提高。
在早期阶段,人们主要依赖手工标注方法进行数据处理。
随着技术的进步,一些自动化和半自动化的标注工具和方法逐渐被开发出来,提高了标注的效率和准确性。
四、不同类型的数据标注及应用场景(一)文本数据标注文本数据标注广泛应用于自然语言处理(NLP)等领域,主要涉及实体识别、关键词提取、句法分析、语义分析等任务。
常见的文本标注方法包括人工转写、关键信息提取等。
(二)图像数据标注图像数据标注主要用于计算机视觉任务,包括目标检测、图像分类、图像分割等。
常见的图像标注方法包括矩形框标定、点选标定、语义分割等。
在自动驾驶、安防监控等领域,图像数据标注具有广泛的应用。
(三)语音及视频数据标注语音及视频数据标注主要应用于语音识别、语音合成、视频分析等领域。
这些任务需要针对语音和视频内容进行详细的标注,如语音转文字、情感分析等。
五、数据标注的现状及挑战(一)现状目前,随着和ML技术的发展,数据标注行业得到了快速发展。
许多企业开始投入大量资源进行数据标注工具的研发,以提高标注的效率和准确性。
同时,一些高校和研究机构也开始关注数据标注的研究,推动其在各个领域的应用。
人脸微表情识别综述人脸微表情识别综述近年来,随着计算机视觉和人工智能技术的快速发展,人脸微表情识别成为了一个备受关注的研究领域。
通过对人脸微表情的识别和分析,可以揭示人们内心情绪的真实状态,对于心理健康评估、情感识别、虚拟现实等应用具有重要意义。
本文将对人脸微表情识别的研究进展进行综述,包括人脸微表情的定义、产生机制、特征提取方法、识别算法和应用现状等方面。
一、人脸微表情的定义和产生机制人脸微表情是指瞬间出现在人脸上的极短暂、微小的表情变化,通常持续时间不超过1/25秒。
与表情持续时间较长的宏观表情相比,微表情更加微妙、难以察觉,传递的情感更加真实、原始。
产生微表情的机制主要包括情感激发、情感流露和情感遮掩三个阶段。
情感激发发生后,个体的真实情绪会通过微表情在面部上流露出来,然而由于社会化因素或个人心理抑制作用,面部表情会被遮掩或掩饰。
二、人脸微表情的特征提取方法为了准确识别和表达微表情,研究者们提出了多种特征提取方法。
一般而言,人脸微表情的特征可以分为几个方面:面部区域的形状、运动、强度等。
对于面部形状特征,常使用主成分分析、局部二值模式等方法进行提取。
对于面部运动特征,可以使用光流法进行计算和提取。
而对于面部表情强度特征,可以通过面部运动量的变化等方式进行提取。
三、人脸微表情的识别算法人脸微表情的识别算法是实现微表情识别的关键之一。
目前常用的识别算法主要包括基于特征值的算法和基于机器学习的算法。
基于特征值的算法是通过对人脸微表情的特征进行分析和比较,通过设置一定的阈值判断是否为微表情。
而基于机器学习的算法则是通过训练和学习一定量的已标注数据,构建出一个能够自动识别微表情的模型。
四、人脸微表情识别的应用现状人脸微表情识别技术在多个领域有着广泛的应用前景。
首先,它可以用于心理健康评估和心理疾病诊断。
通过分析和识别个体微表情的变化,可以推测出个体的真实情绪状态,从而评估个体的心理健康水平。
此外,在情感识别和社交交互方面也具有潜在应用。
《面向深度学习的多模态融合技术研究综述》篇一一、引言随着人工智能技术的快速发展,深度学习已经成为众多领域的重要研究手段。
在多模态信息处理方面,深度学习技术以其强大的特征提取和融合能力,在图像、文本、语音等多种模态数据融合方面取得了显著的成果。
本文旨在全面综述面向深度学习的多模态融合技术的研究现状、方法及挑战,为相关领域的研究者提供参考。
二、多模态融合技术概述多模态融合技术是指将来自不同模态的数据进行融合,以提取更丰富的信息,提高模型的表达能力和泛化能力。
在深度学习框架下,多模态融合技术主要涉及图像、文本、语音等多种模态数据的融合。
这些模态数据在各自的领域内具有独特的优势,通过多模态融合技术,可以实现信息互补,提高模型的准确性和鲁棒性。
三、多模态融合技术研究现状1. 图像与文本融合:图像和文本是两种常见的模态数据。
在深度学习框架下,通过卷积神经网络和循环神经网络的结合,可以实现图像和文本的融合。
这种方法在图像描述、问答系统等领域取得了显著的成果。
2. 语音与文本融合:语音和文本的融合主要涉及语音识别、语音合成和情感分析等领域。
通过深度学习技术,可以将语音数据转化为文本数据,实现语音和文本的融合。
这种方法在智能语音助手、情感分析等方面具有广泛的应用。
3. 多模态联合学习:多模态联合学习是指将不同模态的数据在同一模型中进行联合学习和优化。
这种方法可以充分利用不同模态数据之间的互补性,提高模型的性能。
在深度学习框架下,多模态联合学习主要通过多任务学习、注意力机制等方法实现。
四、多模态融合技术方法及挑战1. 方法:多模态融合技术的方法主要包括早期融合、中期融合和晚期融合。
早期融合主要在数据预处理阶段进行特征提取和融合;中期融合主要在模型中间层进行特征融合;晚期融合则是在模型输出层进行结果融合。
此外,还有基于注意力机制的多模态融合方法,通过给不同模态的数据分配不同的权重,实现信息的有效融合。
2. 挑战:多模态融合技术面临的挑战主要包括数据获取、数据对齐、模型复杂度等问题。
当代网络表情符号的视觉内涵与情感表达网络表情是人们在网络这个虚拟环境中进行交流时用来表达自身情绪的一种符号,从它诞生开始,就因为具有简洁生动和易于传播的特性,在网络中广泛流行,特别是在即时通讯软件中占有举足轻重的地位。
当下,人们的日常生活越来越依赖视觉,现代文化越来越以视觉为中心,形成了一种新的视觉文化,网络上各种新兴媒介的兴起拓展了视觉文化传播的空间,而网络表情作为一种新型的视觉符号,符合当下读图时代和视觉文化发展的趋势,也成为了视觉文化传播的一个新领域。
另外,网络表情的创生本身是为了情绪传递和情感表达,因此本文将视觉文化与网络表情符号联合起来,从视觉传播角度研究网络表情及其情感表达。
本研究分为五个部分,第一部分对选题目的和意义、国内外关于视觉文化和网络表情的研究综述以及视觉文化基本理论进行简单介绍;第二部分是对网络表情的视觉特性分析,通过网络表情的视觉形式变化,总结出三点视觉传播特性:动态逼真、图文结合、去中心化和碎片化;第三部分运用视觉文化理论进行网络表情传播的视觉内涵阐释,分析网络表情的传播意义;第四部分主要从文字、色彩、图像、声音及动画四个方面研究网络表情如何用各种视觉信息来进行情感表达,总结网络表情的情感暗示方式;最后一部分总结网络表情在视觉传播中的一系列问题,并提出规范化使用的建议。
基于CV和DL的视频内容分析技术综述随着数字技术的不断进步和人们对内容的需求不断增加,视频内容分析技术成为了一个备受关注的领域。
视频内容分析可以从视频中自动提取有用的信息,如对象、事件、情感等,这些信息可以用于视频搜索、视频摘要、视频分类、视频监控等领域。
因此,基于CV和DL的视频内容分析技术逐渐成为了一个新的研究方向。
本文将探讨这些技术的基本原理、现有研究、以及未来的发展。
一、概述基于CV和DL的视频内容分析技术是利用计算机视觉和深度学习技术对视频进行分析和处理的一种方法。
它可以从视频中提取各种信息。
例如,对于视觉内容,它可以用许多不同的特征描述符来提取图像中的内容,如颜色、纹理、形状等等。
此外,还可以对视频进行动态分析,例如对图像进行运动追踪或动态人脸检测。
通过这些技术,可以实现自动化的视频分析操作,大大提高了视频内容的处理效率和准确度。
二、对视频进行分类视频分类是基于CV和DL的视频内容分析的一种基本应用。
这种技术可以自动地对大规模的视频集合进行分类和标注,使得用户可以更方便地查找和访问他们所需的视频内容。
目前,这种技术一般分为两种。
第一种是基于图像处理技术的视频分类,第二种是基于模型学习的视频分类。
基于图像处理技术的视频分类方法,通常是通过自动地提取视频中的关键帧然后分类这些帧来实现的。
在这个过程中,需要使用图像处理技术来提取帧的特征,从而进行分类操作。
而基于模型学习的视频分类方法,则是通过深度学习等技术来建模视频,并提取其中的特征,从而进行分类操作。
这种技术可以自适应地学习视频内容,从而更准确地进行分类操作。
三、视频中的对象识别视频中的对象识别是基于CV和DL的视频内容分析中的另一种重要应用。
这种技术可以自动地从视频中识别出各种物体和场景,从而用于视频搜索、视频监控等领域。
常见的算法包括基于颜色直方图、HoG、SIFT、SURF等算法。
另外,还可以通过深度学习等技术来进行对象识别。
这种技术利用深度神经网络来学习视频中不同物体的特征,并从中提取出不同的特征表示。
视觉语言在纪录片中的运用研究一、综述视觉语言在纪录片中的运用研究,是影视艺术领域的一个重要课题。
纪录片作为非虚构的影视艺术形式,通过真实记录生活、社会现象及自然风貌,传递着深刻的思想内涵和审美价值。
而视觉语言作为纪录片表达的核心元素,其运用水平直接关系到纪录片的质量和观众的接受度。
随着影视技术的不断发展和观众审美需求的日益提高,视觉语言在纪录片中的运用也越来越受到重视。
从早期的静态画面、简单剪辑,到如今的动态特效、三维动画等先进技术的应用,视觉语言在纪录片中的表现形式愈发丰富多样。
随着跨文化交流的深入,不同国家和地区的纪录片在视觉语言的运用上也呈现出各自独特的风格和特点。
关于视觉语言在纪录片中的运用研究,已经取得了一定的成果。
学者们从不同角度对视觉语言在纪录片中的作用、特点、发展趋势等方面进行了深入探讨。
仍有一些问题需要进一步研究和解决,如如何更好地将视觉语言与纪录片的内容相结合,如何运用视觉语言提升纪录片的艺术性和观赏性,以及如何借鉴其他艺术形式的视觉语言创新纪录片的表现手法等。
1. 纪录片概述与视觉语言的重要性作为一种特殊的电影形式,以其真实、客观的特性,深入生活、记录时代,成为了大众了解世界、认识社会的重要窗口。
它不同于故事片的虚构与演绎,而是通过对现实生活的观察、拍摄与编辑,呈现出一个真实可信的世界。
纪录片的制作涉及多个方面,视觉语言的运用尤为关键。
视觉语言是纪录片的核心表达手段,它通过镜头、画面、色彩、光影等元素的组合与运用,构建起纪录片的视觉体系。
视觉语言不仅能够直观地展示事物的外貌与形态,更能够通过特定的构图、色彩与光影处理,传达出深层的情感与意义。
在纪录片中,视觉语言的运用不仅影响着观众对内容的理解与接受,更直接关系到纪录片的艺术价值与传播效果。
深入研究视觉语言在纪录片中的运用,对于提升纪录片的制作水平、增强其艺术感染力与传播力具有重要意义。
通过对视觉语言的分析与探讨,我们可以更好地理解纪录片如何通过视觉元素来表达与传递信息,进而探索出更为有效的纪录片制作与表达方式。
第32卷第12期 2015年12月 计算机应用研究 Application Research of Computers Vol|32 No.12
Dec.2015
基于视觉的情感分析研究综述术 李祖贺 ,樊养余 (1.西北工业大学电子信息学院,西安710072;2.郑州轻工业学院计算机与通信工程学院,郑州450002)
摘要:视觉情感分析的目的是使用带有主观感情色彩的方式表述图像和视频,并使计算机能够检测和表达这 些信息。伴随着社会化媒体的兴盛和充沛训练数据的出现,深度学习之类的技术革命给该领域带来新的机遇和 挑战。从视觉情感语义提取框架出发,对传统视觉情感分析中视觉特征提取、情感空间建立和特征与情感的映 射等关键技术进行综述;并对基于中间表达层、目标对象检测的视觉情感分析以及大数据背景下深度学习技术 在该领域的应用进行论述;最后对视觉情感分析存在的问题进行总结并对未来有前景的研究方向进行展望。 关键词:视觉情感;情感预测;深度学习;计算机视觉;社会化媒体 中图分类号:TP391.41 文献标志码:A 文章编号:1001-3695(2015)12—3521-06 doi:10.3969/j.issn.1001—3695.2015.12.001
Survey on visual sentiment analysis Li Zuhe r.Fan Yangyu (1.School ofElectronics&Information,Northwestern echnical University, ’an 710072,China;2.School ofComputer&Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,China)
Abstract:Visual sentiment analysis intends to describe images and videos in a snbjective and emotional way and to detect and express the information with computers.With the emergence of social media and the rise of plenty of training data,technologi— cal revolution like deep learning has brought uew opportunities and challenges into this field.This paper reviewed the key technologies including visual feature extraction,emotional space construction and mapping from visual features to emotion in traditional visual sentiment analysis on the basis of the framework for visual emotional semantic extraction.Then it discussed visual sentiment analysis based on middle representation and object detection and the application of deep learning in visual sentiment analysis under the background of big data.Finally it summarized the existing problems of visual sentiment analysis and gave inspirational future research directions. Key words:visual sentiment;sentiment prediction;deep learning;computer vision;social media
0引言 伴随着信息技术的迅速发展和互联网媒体的革命性转变, 作为人们在现代社会进行信息交流的重要途径,互联网俨然已 经成为涉及广泛主题的意见和情绪资源库。在发帖评论、浏览 行为以及分享的媒体对象中处处可见操作、发布者的情感信 息…。对这些信息的分析称为意见挖掘、情感计算或者情感 分析,而情感研究在人类感知、推理、决策、计划、创造和社交等 诸多活动中都起着不可或缺的作用 ’ ,因此该研究在行为分 析科学中具有十分重要的意义。 这些情感计算分析工作主要集中在文本内容,并且取得了 长足进展 ,但是基于视觉的研究却滞后了很多。在社会化 媒体时代,随着带有摄像功能的移动终端的普及化,像微博、微 信这些以图片分享为主、文字为辅的新媒体已经成了人们进行 自我表达的重要新途径。在博客、秒拍和播客等自媒体网站 上,用户只需要通过简单的注册申请,就可以在网络上发布图 片、视频等信息。这些图像和视频已经如同潮水一般涌向网 络,但是基于视觉的情感分析研究还很有限。因此视觉情感语 义研究的目的就是基于图像及视频对人心理和情感的影响,以 适当的模型描述和表达图像及视频所携带的情感、情绪信 息 。目前最接近该领域的研究就是基于视觉的美学分析、 兴趣度分析和感情或心理分析 。 挖掘和分析这些情感、情绪信息,不管是对经济、社会还是 科学技术本身都有重要意义。在经济领域,世界首家基于社交 媒体的对冲基金Derwent Capital Markets已经开始利用Twitter 中的公众情绪信息来指导投资,发现公众情绪与股市存在关 联 。除此之外,公众情绪辅助判断还在消费者购买决策、 网络口碑营销以及竞争情报工作和电影票房预测等方面都有 不俗的表现 ’ ;另外,情感分析还被广泛应用到各类美术、 广告、产品设计和环境设计领域,具有很大应用前景和潜在的 经济价值。在社会领域,视觉情感分析在网络舆情监测、人类 行为数据挖掘等多个领域均有着巨大的现实意义。据统计,在 2010年舆情热度靠前的50起重大舆情案例中,微博首发的有 11起,占到了22% 19j。因此挖掘公众情绪、情感信息也能在 社会舆论监督和反映社情民意上有所应用,为重大舆情预警、 维护社会稳定作出贡献。在科技领域,图像的情感分析技术将 极大地提高图像检索的精准度,对实现海量图像和视频的情感 语义分类以及基于情感语义的图像和视频检索产生至关重要 的影响;并且情感分析是情感计算、生理学和心理学等多个学 科的交叉技术,该领域的研究成果可以为这些学科提供珍贵的
收稿日期:2015 02 11;修回日期:2015—03 28 基金项目:陕西省科技统筹创新工程重点实验室项目(2013SZS15-K02) 作者简介:李祖贺(1983一),男,河南南召人,讲师,博士研究生,主要研究方向为计算机视觉、机器学习(zuheli@126.eom);樊养余(1960-),男 教授,博导,主要研究方向为虚拟现实及可视化技术、图像处理及其应用信号、栓测与估计. ・3522・ 计算机应用研究 第32卷 数据资料。因此从科学技术自身发展来看,该研究也具有十分 重要的意义。 目前,国内外已经有人开始对基于视觉的情感识别和计算 进行了研究和探索 。现有的大部分研究主要是基于低级 视觉特征进行情感分析,这些算法虽然在一定程度上能够弥合 底层视觉特征和高层语义之问的语义鸿沟,但是分类效果却并 不理想。原因在于图像的情感语义是通过人的感知获得的,因 此忽略视觉和心理学效应,单纯地通过统计的方式获取情感语 义显然是不合适的 J。随着社会化媒体时代的来临,在海量图 像和视频充斥网络的背景下,视觉情感语义研究面临新的机遇 和挑战。伴随着这场席卷而来的视觉风暴,在特征提取以及语 义识别领域也出现了新的技术革命,像基于无监督训练的自学 习特征和深度学习技术就成为了当前研究的热点。在视觉情感 语义研究方面,哥伦比亚大学的Chang教授所在团队在2013年 建立了具有情感语义标注的大型图片数据库,它由从互联网中 抓取的50多万张图片组成 J。该数据库的诞生为深度学习技 术在视觉情感领域的应用研究提供了有力的数据保障,因此将 这些新技术引入该领域就具有了理论和实践上的可行性。 1 传统视觉情感分析技术 结合目前的国内外研究现状,传统的情感语义提取基本框 架如图1所示。从图中可见,情感语义的提取系统主要包括 视觉特征提取、情感空间建模和视觉特征与情感空间的映射三 大部分 。 图1视觉情感语义提取框架 1.1视觉特征提取 特征提取是指采用数字图像处理和计算机视觉技术,直接 从图像和视频数据中抽取底层客观视觉内容特征。该部分对于 研究基于视觉的情感语义非常重要,它需要从人类的心理、生理 特点出发,选取和人的情感、情绪密切相关的视觉特征,并选择 合适的描述方式。在目前的视觉情感语义研究中选择最多的特 征包括颜色、纹理、形状和轮廓等 J。在哥伦比亚大学最新的 研究中,就有提取颜色直方图和纹理这些基础视觉特征 。 1.1.1颜色特征 作为图像和视频的一种重要特征,色彩能够引发联想,触 动情感,不同的色彩具备唤醒不同情绪、情感的能力,或者说色 彩具有情绪性 。尽管文化差异、不同经历和心理因素会导 致颜色所引发的情感反应因人而异,但是这些反应还是存在着 共性,因此颜色是一种反映情感、情绪信息的关键特征,在视觉 情感语义研究中被广泛采用。 现有的研究中常用的颜色特征表达方法有颜色直方图、颜 色矩、颜色集和颜色相关图等 J。颜色直方图描述不同的颜 色在图像中占据的比例,该特征具有平移、缩放和旋转不变性, 但是没有反映关于空间位置的信息。而颜色矩是另一种颜色 特征,它用矩来简单有效地表示颜色分布,通常只需利用均值、 方差和协方差这些低阶矩就足以对图像的颜色分布进行抽象 描述。该方法与直方图相比的优点是避免了对提取特征的量 化操作 。而提取颜色集特征的做法是将颜色空间从RGB 转换到HSV,把图像自动分割为若干子区域,然后用颜色分量 对子区域进行索引,从而实现用二进制颜色索引表来表达图 像。该方法高效易行,特别适用于海量图像检索 。 1.1.2纹理特征 纹理在设计学上也称做肌理,也是一种重要的图像特征, 它呈现的是图像中在局部上不规则却在整体上有规则的特征。 在视觉上,不同的表面纹理、组织构造也能够让人产生不同的 感觉。虽然纹理特征对人情感、情绪的影响不像色彩那样直观 和强烈,但是其作用也不容忽视 。在视觉上,纹理特征是指 图像中的基本纹理及其排列组合方式,主要的描述方法有统计 法、结构法、频谱法、模型法以及对这些方法的综合 J。已 经有人开始将纹理特征应用于情感分析,比如经常被使用的 Tamura纹理特征 。文献[30]中作者在提取纹理特征的基 础上,使用词组短语对纹理特征进行了简单的语义描述 ;文 献[31]中作者尝试基于人类感知来定性描述纹理,提取12个 最经常被使用且与Tamura纹理特征密切相关的形容词,并通 过训练神经网络建立了纹理和这些描述形容词之间的关 联 。在文献[11]中,作者已经将Tamura纹理特征和基于小 波变换的纹理特征成功地应用到了情感图像分类中 。 1.1.3形状轮廓特征 形状是指一条封闭的轮廓曲线所包围的区域,这些形状特 征可以刺激人产生感性认识。不同的形状具有不同的视觉效 果,从而能够表达、传递不同的情感信息。边界和区域是常用 的形状轮廓特征描述方法,而傅里叶描述子和不变矩具有较好 的描述效果,有限元匹配和小波变换描述是近年来出现的一些 新方法 。人们也开始把形状和轮廓特征应用在视觉情感 语义研究。比如有文献在对图像进行Hough变换的基础上,绘 制出直方图来描述线条斜率分布,结合直线斜率与情感互相映 射的理论,融合其他特征进行图像情感语义辨别 。而Iqbal 等人 提取摄影图像中的形状结构特征并组成特征向量,从 而在训练后将含有人造建筑物的图像与自然风景图像进行区 分。可以考虑结合形状轮廓与情感语义的联系,将该方法应用 于视觉情感语义分析中。 1.2-隋感空间模型 目前关于情感建模的研究还处在初级阶段,但是已经取得 了一些成果。根据建模主要依据,这些情感模型主要包括基于 认知的情感模型、基于概率的模型和其他情感模型。 针对人类复杂的情感,出现了许多不同的划分方法。我国 有“七情”“六情”之说,西方思想家Desca ̄es也曾经提出过六 种原始情感。在此基础上,心理学家提出了不同的情感分类模 型 l3 。Plutchik 3刮提出八种基本情感:悲痛、恐惧、惊奇、接 受、狂喜、狂怒、警惕和憎恨,并结合三种不同情感强度生成了 24种情感。该空间也在哥伦比亚大学最新的研究中被采用, 用于从网络数据中抽取带有情感标记的图像。而Izard_3 提 出了8~11种基本情感:痛苦、厌恶、愤怒、恐惧、悲伤、愉快、兴 趣和惊奇以及轻蔑、害羞和负罪感。Ekman等人 ” 把情感 分为六类:愤怒、厌恶、恐惧、悲伤、高兴和惊奇,该分类也被研 究人员广泛采用。