当前位置：文档之家› 语音情感特征提取方法和情感识别研究

语音情感特征提取方法和情感识别研究

西北丁业人学硕十论文第＿章语音信号前端处理

寸不同，发出的音的音色不同。音调是指声音的高低，它取决于声波的频率，而声波频率又与发音体长短、厚薄以及松紧程度有关。声音的强弱叫做音强，它是由声波振动幅度决定的。声音的长短叫音长，它取决于发音时间的长短，一个多音节的词，各个音节的轻重不同，其长短就不一样，此外不同音长还可以表达不同的语气和情态。

说话的时候，很自然地一次发出来的、有一个响亮的重心的、听的时候也很自然地感到是一个小的语音片段的，叫做音节。一个音节可以由一个音素构成，也可以由几个音素构成。音素是语音的最小单位。

任何语言的语音都有元音和辅音两种音素。元音是由声带振动发出来的乐音。每个元音的特点是由声道的形状和尺寸决定的。辅音是由呼出的声流克服发音器官的阻碍而产生的。发辅音时，如果声带不振动，发出的辅音就叫清辅音，简称清音。声带振动发出的辅音叫做浊辅音也叫浊音，它是乐音和清音的混合物。形成障碍的发音部位和发音的方法不同，发出的辅音就不同。

语音除了具有上述的声音的物理属性外，它还具有另外一个重要的性质，语音总是和一定的意义相联系着。语音不仅表达了一定的意义和思想内容，而且还能表达出一定的语气、情感，甚至表达许多“言外之意”。因此，语音中所包含的信息是十分丰富和多种多样的。

２．１．２语音的时间波形和频谱特性

语音信号首先是一个时间序列，进行语音分析时，最直观的就是它的时域波形。图２．２为单词ｓ廿ｅｅｔ中音素［ｓ】、【ｉ：】的时域波形。

【ｓ】的时域波形

【Ｉ】的时域玻形

图２．２音素【ｓ】、【ｉ：】的信号波形

西北工业人学硕Ｉ论文第一章语音信号前端处理

从图２．２上可以看出，清音和浊音（包括元音）的波形有很大的不同。清音的波形类似于白噪声，且具有很弱的振幅。元音具有明显的周期性，并且具有较强的振幅，它的周期对应的频率就是基音频率。

语音波形是时间的连续函数，语音信号的特性是随时间而变化的。浊音和清音的激励不同，从浊音改变到清音，相应地要改变激励，语音信号的幅值随时间有明显的变化。语音信号的这些时变特性在波形图中能明显地观察出来。但是，语音的特性随时间的变化是比较缓慢的，大致可以认为在ｌＯｏｏＩ璐短时间隔内语音信号的特性基本上是不变的。这是进行短时处理的理论基础。

下面对【ｓ】、［ｉ：】两个音素信号进行傅里叶变换，在进行傅里叶变换之前，为了移去直流分量和加重高频分量，采用了汉明窗对信号进行了加权，变换后得到的振幅谱如图２３所示：

ａ．【ｓ】音素信号ＦＦＴ变换后的振幅谱

ｂ．【Ｉ：】音素信号Ｈ呵变换后的振幅谱

图２．３语音信号振幅谱，

从图２．３上可以看出在４ＫＨｚ以后，【ｓ］的频谱上升，【ｉ：】的频谱下降。一般来说，清音的频谱能量主要集中在高频区域，即使超过了８ＫＨｚ，频谱也没有显著地下降，浊音频谱超过４ＫＨＺ以后便迅速下降。

２．２语音信号的预处理

在对语音信号提取特征参数时，首先要对输入的语音信号作前端处理，流程图２．４

西北下业人学硕Ｌ论文第一二章语音信号前端处理其中ｗ（＂）为矩形窗函数，

短时过零率ｚ。定义为：Ｏ≤”≤Ⅳ一ｌ

其他

（２—３）

ｚ。＝∑ｌｓｇｌｌ【ｘ（ｍ）卜ｓ鲫【ｘ∽一１）１ｗ∽一ｍ）＝Ｉｓ印【ｘ（，１）】一ｓ印【ｘ如一１）Ｉ＋ｗ（Ｈ）（２—４）㈣

式中ｓ印【】是符号函数：

ｓ蝴肛｛二，浆：ｗ（月）是窗函数，这里取矩形窗，为了平均，窗的幅度为专，率”的概念理解，窗的幅度再除以２，即：

，、ｆ—二Ｏ≤疗≤Ⅳ一１

ｗ【川２’２Ⅳ

【ｏ其他

这里Ｅ．、Ｚ。的下脚注”是指窗的位置。

（２—５）为了使过零率作为“频

（２—６）

图２．５分别为端点检测前语音信号的时域波形，平均幅度和过零率图，端点检测后的语音波形。

图２．５端点检测图

２．３语音信号的基音周期估计

基音是指发浊音时声带振动所引起的周期性，基音周期是指声带振动频率的僻

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下，互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术，Google语音翻译等； –iPhone4S 上的Siri软件； –百度、腾讯、盛大、华为等都进军语音识别领域； –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告：

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术，包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用，而语音识别有望在2-5年内获得大幅利用；

三十年语音识别技术发展 ---特征提取与知识方面?MFCC，PLP，CMS，RASTA，VTLN；?HLDA, fMPE，neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等） ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示，把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

情感特征提取及分析

语音信号中情感特征的分析和识别本文Tag标签： 1.引言随着信息技术的高速发展和人类对计算机的依赖性的不断增强，人机的交互能力越来越受到研究者的重视。如何实现计算机的拟人化，使其能感知周围的环境、气氛，对象的态度、情感等内容，自适应地为对话对象提供最舒适的对话环境，尽量消除操作者和机器之间的障碍，已经成为下一代计算机发展的目标。斯坦福大学的Reeves和Nass的通过研究发现[1]，在人机交互中所需要解决的问题同人和人交流中的是一致的，最关键的都是“情感智能”的能力。因此计算机要能够更加主动的适应操作者的需要，首先必须能够识别操作者的情感，而后再根据情感的判断来调整对话的方式。对于情感识别研究包括多个方面，如情感特征分析、肢体情感识别、面部情感识别和语音情感识别。各国在这些方面都投入了大量的资金进行研究。美国的MIT媒体实验室的情感计算研究小组（Affective Computing Research Group）就在专门研究机器如何通过对外界信号的采样，如人体的生理信号（血压，脉搏，皮肤电阻等）、面部快照、语音信号来识别人的各种情感，并让机器对这些情感作出适当的反应[2]。目前，关于情感信息处理的研究正处在不断的深入之中，而其中语音的情感识别因为涉及到不同语种之间的差异，发展也不尽相同。英语、日语、德语、西班牙语的语音情感分析处理都有较多的研究，而汉语语音的情感分析还处在刚刚起步的阶段。日常通过听觉获得的语音信息是一种模式信息，这种模式信息包含符号信息和非符号信息。传统的语音信号处理把模式的变动和差异作为噪声通过规则化处理予以去除，然而这种非符号信息是人们感知模式的重要的必不可少的部分。例如同样的一句话，由于说话人表现的情感不同，在听者的感知上就可能会有较大的差别，所以情感信息处理的目的之一可以说是一种传统的被去掉的有用信息的复权。实际上，人们利用各种感觉器官同时接受各种形式的信息，如何有效地利用各种形式的信息以达到最佳的信息传递效果，是今后信息处理研究的发展方向。所以包含在语音信号中的情感信息的计算机处理研究是一个意义重大的研究课题。分析和处理语音信号中的情感特征，判断和模拟说话人的喜怒哀乐等方面的研究具有理论和应用两方面的重要意义。 2.情感分类和情感特征分析 2.1情感的分类要研究语音信号的情感，首先需要根据某些特性标准对情感做一个有效合理的分类，然后在不同类别的基础上研究特征参数的性质。经过Plutchik等人的多年研究[3]，通过在激活评价空间上对情感进行分析，认为情感分布在一个圆形的结构上，结构的中心是自然原点。对于自然原点，认为它是一种具有各种情感因素的状态，但是由于这些情感因素在该点的强度太弱而得不到体现。通过向周围不同方向的扩展，表现为不同的情感。情感点同自然原点之间的距离体现了情感的强度。由于各种情感在自然原点的周围排成了一个圆形，所以这种对情感进行分类的方法叫做“情感轮(Emotion wheel)”。对于任何一个情感语句，可以根据其情感强度和情感方向来在情感轮所组成的二维平面中用唯一的一个情感矢量来表示。其中情感强度表现为这个情感矢量的幅度值，而情感方向则表现为该情感矢量的角度。

情感分析简述

情感分析简述分类：NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析，我研究了也有半年有余了，ACL Anthology上关于情感分析的论文也基本看过了一遍，但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述，引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文，本文应该学术性比较强一点，本文虽不打算发表，但由于将来可能还有用，以及关于学术上的原因，请大家如果要引用请务必标明出处（https://www.doczj.com/doc/bc9299692.html,/s/blog_48f3f8b10100irhl.html）。概述情感分析自从2002年由Bo Pang提出之后，获得了很大程度的研究的，特别是在在线评论的情感倾向性分析上获得了很大的发展，目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上，但是由于深层情感分析必然涉及到语义的分析，以及文本中情感转移现象的经常出现，所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库，虽然Bo Pang实验用的电影评论数据集（https://www.doczj.com/doc/bc9299692.html,/people/pabo/movie-review-data/）以及Theresa Wilson等建立的MPQA（https://www.doczj.com/doc/bc9299692.html,/mpqa/）是目前广泛使用的两类情感分析数据集，但是并没有公认的标准加以确认。目前情感分析的研究基本借鉴文本分类等机器学习的方法，还没有根据自身的特点形成一套独立的研究方法，当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法，半监督学习和无监督学习目前的研究不是很多，单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习，那么特征选择就是一个很重要的问题，N元语法等句法特征是使用最多的一类特征，而语义特征（语义计算）和结构特征（树核函数）从文本分类的角度看效果远没有句法特征效果好，所以目前的研究不是很多的。由于基于监督学习情感分析的研究已经很成熟了，而且在真实世界中由于测试集的数量要远远多于训练集的数量，并且测试集的领域也不像在监督学习中被限制为和训练集一致，也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的，为了和真实世界相一致，基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视，但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功，目前关于这方面的研究以及很少了，但是事实上，语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处，所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。以下将分别对情感分析的起源，目前基于监督学习，无监督学习，基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。起源虽然之前也有一些相关工作，但目前公认的情感分析比较系统的研究工作开始于（Pang et al., 2002）基于监督学习（supervised learning）方法对电影评论文本进行情感倾向性分类和（Turney,2002）基于无监督学习（unsupervised learning）对文本情感情感倾向性分类的研究。（Pang et al., 2002）基于文本的N元语法（ngram）和词类（POS）等特征分别使用朴素贝叶斯（Naive Bayes），最大熵（Maximum Entropy）和支持向量机（Support Vector Machine，SVM）将文本情感倾向性分为正向和负向两类，将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。（Turney ,2002）基于点互信息（Pointwise Mutual Information，PMI）计算文本中抽取的关键词和种子词（excellent,poor）的相似度来对文本的情感倾向性进行判别（SO-PMI算法）。在此之后的大部分都是基于（Pang et al., 2002）的研究。而相对来说，（Turney et al.,2002）提出的无监督学习的方法虽然在实现上更加简单，但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定，继续在无监督学习方向的研究并不是很多的，但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。监督学习目前，基于监督学习的情感分析仍然是主流，除了（Li et al.,2009）基于非负矩阵三分解（Non-negative Matrix Tri-factorization），（Abbasi et al.,2008）基于遗传算法（Genetic Algorithm）的情感分析之外，使用的最多的监督学习算法是朴素贝叶斯，k最近邻（k-Nearest Neighbor，k-NN），最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。（Pang et al., 2004）基于文本中的主观句的选择和（Wilson el al.,2009）基于文本中的中性实例（neutral instances）的分析，都是为了能够尽量获得文本中真正表达情感的句子。（Abbasi et al.,2008）提出通过信息增益（Information Gain，IG）的方法来选择大量特征集中对于情感分析有益的特征。而对于特征选择，除了N元语法和词类特征之外，（Wilson el al.,2009）提出混合单词特征，否定词特征，情感修饰特征，情感转移特征等各类句法特征的情感分析，（Abbasi et al.,2008）提出混合句子的句法（N元语法，词类，标点）和结构特征（单词的长度，词类中单词的个数，文本的结构特征等）的情感分析。除了对于文本的预处理，对于监督学习中情感分析还进行了以下方面的研究的。（Melville et al., 2009）和（Li et al.,2009）提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。（Taboada et al.,2009）提出结合文本的题材（描述，评论，背景，解释等）和文本本身的特征共同判断文本的情感倾向性。（Tsutsumi et al.,2007）提出利用多分类器融合技术来对文本情感分类。（Wan, 2008）和（Wan, 2009）提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。基于规则/无监督学习

语音信号特征的提取

语音信号特征的提取摘要随着计算机技术的发展，语音交互已经成为人机交互的必要手段,语音特征参数的精确度直接影响着语音合成的音质和语音识别的准确率。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。本文采用Matlab软件提取语音信号特征参数，首先对语音信号进行数字化处理，其次，进行预处理，包括预加重、加窗和分帧，本文讨论了预处理中各种参数的选择，以使信号特征提取更加准确。第三，讨论了各种时域特征参数的算法，包括短时能量、短时过零率等。关键词：语音信号, 特征参数, 提取, Matlab 目录第一章绪论 1.1语音信号特征提取概况 1.1.1研究意义语音处理技术广泛应用于语音通信系统、声控电话交换、数据查询、计算机控制、工业控制等领域，带有语音功能的计算机也将很快成为大众化产品，语音将可能取代键盘和鼠标成为计算机的主要输入手段，为用户界面带来一次飞跃。语音信号特征的提取是语音信号处理的前提和基础，只有分析出可表示语音信号本质特征的参数，才有可能利用这些参数进行高效的语音通信和准确的语音识别，才能建立语音合成的语音库。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 1.1.2 发展现状语音信号处理是一门综合性的学科，包括计算机科学、语音学、语言学、声学和数学等诸多领域的内容。它的发展过程中，有过两次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的出现，电子管放大器使很微弱的声

音也可以放大和定量测量，从而使电声学和语言声学的一些研究成果扩展到通信和广播部门；第二次飞跃是在20世纪70年代初，电子计算机和数字信号处理的发展使声音信号特别是语音信号，可以通过模数转换器（A/D）采样和量化转换为数字信号，这样就可以用数字计算方法对语音信号进行处理和加工，提高了语音信号处理的准确性和高效性。语音信号处理在现代信息科学中的地位举足轻重，但它仍有些基础的理论问题和技术问题有待解决，这些难题如听觉器官的物理模型和数学表示及语音增强的技术理论等，目前还有待发展。 1.2 本课题研究内容本文主要介绍语音信号处理的理论及Matlab的相关内容，然后从Matlab仿真角度验证了录音、预处理、提取语音信号时域特征参数，主要讨论了预处理中各种参数的选择，以使信号特征提取更加准确。再次讨论了各种时域特征参数的算法，包括短时能量、短时过零率等，介绍了各环节的不同软件实现方法。最后对基于Matlab的语音信号特征参数提取进行总结。第二章Matlab简介 MATLAB是国际上仿真领域最权威、最实用的计算机工具。它是MathWork 公司于1984年推出，它以强大的科学计算与可视化功能、简单易用、开放式可扩展环境，特别是所附带的30多种面向不同领域的工具箱支持，使得它在许多科学领域中成为计算机辅助设计和分析、算法研究和应用开发的基本工具和首选平台。 2.1 发展概况 Matlab是Matrix Laboratory(矩阵实验室的缩写)，最初由美国Cleve Moler 博士在70年代末讲授矩阵理论和数据分析等课程时编写的软件包Linpack与Eispack组成，旨在使应用人员免去大量经常重复的矩阵运算和基本数学运算等繁琐的编程工作。1984年成立的Math Works公司正式把Matlab推向市场，并从事Matlab的研究和开发。1990年，该公司推出了以框图为基础的控制系统仿真工具Simulink，它方便了系统的研究与开发，使控制工程师可以直接构造系统框图进行仿真，并提供了控制系统中常用的各种环节的模块库。1993年，Math Works 公司推出的Matlab4.0版在原来的基础上又作了较大改进，并推出了Windows版，

基于安卓的语音情感识别系统设计与实现

基于安卓的语音情感识别系统设计与实现语音情感识别技术是当前情感计算与语音信号领域的热点问题。作为人机交互之中的一个重要组成部分,在疾病诊断、刑侦破案、远程教育等领域也有日趋广泛的应用。作为人机交互之中的一个重要组成部分,语音情感识别技术却由于情感本身的定义不确定性与表征情感的特征的模糊性,使得语音情感识别技术成为了一个难题。为了解决语音情感识别技术中识别率不高且还不能做到人机交互应用的难题,本文主要进行了以下几点研究:1.引入非线性特征Teager能量算子,并将Teager能量算子与MFCC(Mel-Frequency Cepstral Coefficients,梅尔频域倒谱系数)相结合提取NFD_Mel(Nonlinear Frequency Domain Mel,非线性梅尔频域参数),实验结果表明该特征可以从非线性的角度提取特征,并与传统特征相结合可以有效提高识别率,在德国柏林情感数据库识别率达到了82.02%,相比不采用 NFD_Mel的传统方法,识别率提高了3.24%。2.我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法:声门与声道信号都包含了丰富的情感信息,由于个人声道的差异,通常声道信息则更多的包含了个人特征,这对于我们非特定人的情感识别工作产生了很多的干扰。基于非特定人的情感识别效果则不如特定人。为了克服现有技术的不足,我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法,该方法利用倒谱分离信号,保留全部的声带信息并摒弃一部分的声道信息,同时寻找最佳分离点,最后对处理后的信号在复倒谱重构并提取特征,可以有效提高非特定人语音情感识别

语音情感识别中特征参数的研究进展

传感器与微系统（Transducer and Microsystem Technologies）2012年第31卷第2期语音情感识别中特征参数的研究进展* 李杰1，周萍2 （1．桂林电子科技大学计算机科学与工程学院，广西桂林541004； 2．桂林电子科技大学电子工程与自动化学院，广西桂林541004）摘要：语音情感识别是近年来新兴的研究课题之一，特征参数的提取直接影响到最终的识别效率，特征降维可以提取出最能区分不同情感的特征参数。提出了特征参数在语音情感识别中的重要性，介绍了语音情感识别系统的基本组成，重点对特征参数的研究现状进行了综述，阐述了目前应用于情感识别的特征降维常用方法，并对其进行了分析比较。展望了语音情感识别的可能发展趋势。关键词：语音；情感识别；特征参数；特征降维中图分类号：TP391文献标识码：A文章编号：1000—9787（2012）02—0004—04 Research progress on feature parameters of speech emotion recognition* LI Jie1，ZHOU Ping2 （1．School of Computer Science and Engineering，Guilin University of Electronic Technology，Guilin541004，China；2．School of Electric Engineering and Automation，Guilin University of Electronic Technology，Guilin541004，China） Abstract：Speech emotion recognition is one of the new research projects，the extraction of feature parameters extraction influence the final recognition-rate efficiency directly，dimension reduction can extract the most distinguishing feature parameters of different emotions．The importance of feature parameters in speech emotion recognition is point out．The system of speech emotion recognition is introduced．The common methods of feature parameters is detailed．The common methods of dimension reduction which are used in emotion recognition are compared and analyzed．The development of speech emotion recognition in the future are prospected． Key words：speech；emotion recognition；feature parameter；dimension reduction 0引言随着计算机技术的高速发展和人类对计算机依赖性的不断增强，人机交流变得越来越普遍，人机交互能力也越来越受到研究者的重视，语音情感识别就是人机交互与情感计算的交叉研究领域。语音中的情感之所以能够被识别与表达，是因为语音特征在不同情感状态下的表现不同。因此，很多研究者对特征与情感类别之间的对应关系产生了浓厚的兴趣并进行了深入的探讨。Murray I和Amott J L完成的实验得出了基频、能量、时长等韵律特征，以及语音质量特征与情感之间的定性关系［1］，使得韵律学特征成为语音情感识别的常用特征。此后，研究者又加入了共振峰参数和语音学特征，如MFCC，使得韵律学特征与语音学特征结合识别情感。通常在利用这些基本特征进行研究时，还需要求出其派生特征和各种统计特征，如范围、均值和方差等，并把它们组成特征向量。由于到目前为止，声学特征与情感状态的对应关系缺乏统一的结论，为了尽可能保留有意义的信息，研究者只能在研究中保留这维数少则几十条多则上百条的特征向量。但根据模式识别的理论，高维特征集合不仅不会提高识别率，还会造成“维数灾难”［2］。大量的研究表明：语音情感识别的关键就在于从数量众多的特征中求得高效的情感声学特征组，这就需要用到特征降维技术。目前，已有数篇综述文献总结了语音情感识别的研究成果［3 6］，但主要都是针对识别算法的研究进展进行综述。本文从模式识别的角度对目前语音情感识别研究中所采用的特征降维技术进行总结，并对近几年提出的情感特征参数进行阐述。 1语音情感识别系统的概述基于语音的情感识别大致分为预处理、特征提取和情感分类三步，大致框架如图1所示。特征提取作为情感分收稿日期：2011—07—20 *基金项目：国家自然科学基金资助项目（60961002）4

语音情感识别

人机交互中的语音情感识别一．研究内容及其意义随着信息技术的高速发展和人类对计算机的依赖性不断增强，人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化，使其能感知周围的环境和气氛以及对象的态度、情感的内容，自适应地为对话对象提供最舒适的对话环境，尽量消除操作者和机器之间的障碍，已经成为下一代计算机发展的目标。显然，人的大脑所表现出来的心智现象不仅仅体现在“智”的方面，而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上，而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的，而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。包含在语音信号中的情感信息是一种很重要的信息资源，它是人们感知事物的必不可少的部分信息。例如，同样一句话，由于说话人表现的情感不同，在听着的感知上就可能会有较大的差别。然而传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上，人们同时接受各种形式的信息，怎样利用各种形式的信息以达到最佳的信息传递和交流效果，是今后信息处理研究的发展方向。语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。研究认为,某种特定的情感状态所引起的语音参数变化在不同的人之间是大致相同的,仅有微小差别。因而，情感的变化能够通过语音的特征参数来反映，研究从语音中提取这些情感参数就显得非常重要。通常认为情绪所引起的生

理上的变化会对语音带来直接的影响，而与人的生理唤醒程度相关的特征参数(声学参数如音强、平均基音、语速等)能够更好地反映语音中的情感 ,如恐惧和生气所引起的生理颤动会带来相应的基频摆动;不高兴会导致声道的紧张从而引起语音信号频谱发生变化。另外，语音情感识别中所采用的识别方法也会对结果产生影响。目前，关于情感信息处理的研究正处在不断的深入之中，而其中语音信号中的情感信息处理的研究正越来越受到人们的重视，如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别有着非常广泛的应用前景。比如，用于自动远程电话服务中心，及时发现客户的不满情绪；用于远程教学和婴儿教育，及时识别学生的情绪并做出适当的处理，从而提高教学质量；也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。二．国内外的研究现状语音情感识别是语音信号处理领域崛起的新秀，相关研究至今已有二十余年的研究历史，对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。在1972年Williams发现人的情感变化对语音的基因轮廓有很大的影响，这是国外最早开展的语音情感方面的研究之一。1990年MIT多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样，如人的语音信号、脸部表情信号等来识别各种情感[1]。1996年日本东京Seikei大学提出情感空间的概念并建立了语音情感模型。2000年，Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别[2]。2009年4月，日本产业技术综合研究所(AIST)研制

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双苏州大学摘要本文回顾了语音识别技术的发展历史，综述了语音识别系统的结构、分类及基本方法，分析了语音识别技术面临的问题及发展方向。关键词：语音识别；特征；匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年，AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统：Audry系统。

基于深度学习的语音情感识别建模研究

基于深度学习的语音情感识别建模研究随着计算机技术的发展和人工智能的普及,语音情感识别研究收到学界和工业届的广泛关注。目前的情感识别任务大多采用人工提取多种声学特征并物理降维,构建特征工程的方法,提升识别结果。本文旨在探究语音中情感信息的表达,了解语音中情感信息的变与不变, 从语音中提炼出情感的本质特征,并搭建最合适的表征情感信息的网络结构。基于以上研究重点,本文内容包括以下几个部分:1.研究了基于传统声学特征的情感识别网络在大量的声学特征中,对现有数据做统计分析筛选出声学特征及其统计特征,搭建有效且完备的情感特征工程。从物理意义上出发,筛选合理的表达情感的特征并验证它们的有效性;从数学统计层面考虑,使用卡方检验做特征选择,去除特征集合的冗余信息,提高网络训练效率,构建完备的特征工程。2.研究了基于语谱图的深度学习情感识别网络语谱图几乎包含了所有的语音特征,二维频谱结构既可以体现谐波等激励源特征,又可以分析倒谱、共振峰等声道特性。深度神经网络引入非线性信息,具有自主学习输入数据特征的优点。搭建基于语谱图的深度学习情感识别网络,选用局部感知和跳跃连接的ResNet网络,并基于卷积核权重系数做出改进。再此基础上,搭建ResNet-LSTM网络,对ResNet网络学出的高层情感特征进行时序建模。3.引入了注意力机制,研究了低级描述符和高层语义信息的特征融合将经过验证的可以表征情感信息的声学特征集合作,与ResNet-LSTM网络学习到的语音信号的高层语义信息进行融合,将融合后的特征经过DN-N网络分类输出,增加深度学习的解释性

和人工辅助。此外,引入注意力机制,探索语音中的关键帧信息。将学习到的注意力作为权重系数加入到人工提取的低级描述符特征中,并将它应用于特征融合实验。本文主要从情感的产生和感知层面出发,落实到特征和网络两个研究重点上展开工作,产生上探究如何构建具有情感表征意义的完备的特征集合,感知上从网络结构入手,尝试搭建具有情感认知的网络结构,并通过注意力机制讨论语音情感的局部关键性,结合产生、感知、和局部特性探讨语音情感的表达。

情感识别综述

龙源期刊网 https://www.doczj.com/doc/bc9299692.html, 情感识别综述作者：潘莹来源：《电脑知识与技术》2018年第08期摘要：情感交互在人机自然交互的研究中受到了很大的重视，而情感识别是人机情感交互的关键，其研究目的是让机器感知人类的情感状态，提高机器的人性化水平。该文首先对情感识别理论进行了概述，继而对情感识别的研究方法进行了分类描述，接着简述了情感识别的应用领域，最后对情感识别的发展进行了展望。关键词：情感识别；综述；多模态融合；特征提取；情感分类中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2018）08-0169-03 1引言随着智能技术的迅猛发展以及智能机器在各领域的广泛应用，人们渴望对机器进行更深层次地智能化开发，使机器具备和人一样的思维和情感，让机器能够真正地了解用户的意图，进而让机器更好地为人类提供智能化的服务。在智能机器研究中，自然和谐的人机交互能力受到很大的重视。情感识别作为人机情感交互的基础，能够使机器理解人的感性思维，影响着机器智能化的继续发展，成为人机自然交互的关键要素。同时，情感识别融多学科交叉为一体，其发展将会带动多学科共同发展，其应用也会带来巨大的经济效益和社会效益。因而，情感识别技术的研究具有很大的发展前景和重要的学术价值。 2情感识别概述情感是一种综合了行为、思想和感觉的状态。情感信息主要表现在内外两个层面：一是外在情感信息，是指通过外表能自然观察到的信息，如面部表情、唇动、声音、姿势等，二是内在情感信息，是指外部观察不到的生理信息，如心率、脉搏、血压、体温等。情感识别本质上也是一种模式识别，它是指利用计算机分析各种情感信息，提取出描述情感的情感特征值，建立特征值与情感的映射关系，然后对情感信息进行分类，从而推断出情感状态的过程。 3情感识别的研究方法情感识别的研究方法主要有：面部表情识别、语音情感识别、姿态表情识别、文本识别、生理模式识别和多模态情感识别。情感识别过程一般包括四个部分：数据获取、数据预处理、情感特征提取、情感分类。情感特征提取过程一般包括：特征提取、特征降维和特征选择。其中，特征提取的方式各有不同，而特征降维和选择的方式大致相同。

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文学院：化工与环境学院学号：2120151177 姓名：杜妮

摘要：随着计算机技术的不断发展，人工智能程度也越来越高，作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献，分析最新声音识别的方法和应用。关键字：模式识别声音识别方法应用随着人工智能的迅速发展，语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令，并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括：特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术，语音识别在过去的几十年里取得了飞速的发展，人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造，以期发现更好的方法来完成语音识别流程中的各步骤，以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献，分析目前语音识别流程中的技术进展和趋势，并在文章最后给出几项语音识别在日常生活中的应用案例，从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法 (一)特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础，只有分析出可以代表语音信号本质特征的参数，才能对这些参数进行高效的语音通信，语音合成，和语音识别等处理，并且语音合成的好坏，语音识别率的高低，也都取决于语音特征提取的准确性和鲁棒性。目前，针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟，已经能够满足通常应用的要求，并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

【CN110060697A】一种情感特征提取方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910296711.0 (22)申请日 2019.04.14 (71)申请人湖南检信智能科技有限公司地址 410000 湖南省长沙市高新开发区尖山路39号中电软件园大楼总部G0241 房 (72)发明人李剑峰　 (74)专利代理机构北京联瑞联丰知识产权代理事务所(普通合伙) 11411 代理人郑自群 (51)Int.Cl. G10L 21/0232(2013.01) G10L 21/0264(2013.01) G10L 25/24(2013.01) G10L 25/63(2013.01) (54)发明名称一种情感特征提取方法 (57)摘要本发明公开了一种情感特征提取方法，包括：对语音中的一帧采样，对语音序列s(n )实行预加重然后做离散FFT变换，再逐步计算得到 MFCC参数。本发明在任何条件下都可以使用MFCC 参数，在抗噪能力上MFCC参数具有很强的处理能力，增强了抗噪能力。权利要求书1页说明书6页附图1页CN 110060697 A 2019.07.26 C N 110060697 A

权　利　要　求　书1/1页CN 110060697 A 1.一种情感特征提取方法，其特征在于，包括： (1)对语音序列s(n)实行预加重然后做离散FFT变换； (2)对语音中的一帧采样{x i}i＝1,2,…,M，M是帧长，对{x i}i＝1,2,…,M加汉明窗后作M点的FFT，频域分量{X i}i＝1,2,…,M通过时域信号进行转化，离散功率谱S(n)通过取模的平方得到； (3)计算S(n)通过传递函数H m(n)求得功率值，即计算S(n)和H m(n)的乘积再求和，求得M 个参数P m； (4)计算P m的自然对数，求得L m； (5)计算L m的离散余弦变换，求得D m； (6)去除直流成分的D0，取D1,D2,…,D k作为MFCC参数。 2.根据权利要求1所述的一种情感特征提取方法，其特征在于，在步骤(1)中，通过传递函数为H(Z)＝1-αZ-1的滤波器对其加以滤波，其中α为预加重系数且0.9<α<10，设n时刻的语音采样值为X(n)，经过预加重处理后的结果为Y(n)＝X(n)-αX(n-1)，0.9<α<1.0。 3.根据权利要求1所述的一种情感特征提取方法，其特征在于，在步骤(1)中，k＝12。 4.根据权利要求1所述的一种情感特征提取方法，其特征在于，在步骤(1)中，语音中的一帧采样，取n＝256点。 2

服务机器人的语音情感识别与交互技术研究

万方数据

１４６８小型微型计算机系统２０１０年４技术应用４．１机器人平台介绍本文将语音情感识别技术应用在国家”八六三“高技术研究发展计划项目”家庭生活支援多机器人系统”的语音子系统中，验证了语音情感特征提取和情感识别方法的有效性．该机器人的头部能够实现眼球的转动、眼睑的闭合、嘴的闭合、头部的转动等并能做出基本的表情．机器人的结构设计和系统设计完全根据生理学人体结构来设计，控制系统采用上下位机结构．机器人的移动部分使用两轮差动机构进行驱动，并且配有两个６自由度的手臂，可以进行复杂操作．上位机采电源Ｌ毪。－——ｚ＝＝一 —包ＱＱ翻麦克风卜上位监控ＰＣ－—＝＝＝＝—??Ｊ摄像头卜．．．．．．．．．．．．一 ———１—一Ｉ工业现场总线ｌ自囱审豳豳囱囱图２机器人平台构成Ｆｉｇ．２Ｔｈｅｓｌｒｕｃｔｕｒｅｏｆｒｏｂｏｔｐ／ａｆｆｏｒｍ用工业ＰＣ机，主要负责导航、身体的协调控制、语音情感的识别、语音识别和语音合成等工作；下位机是基于现场总线的集散式控制模块，主要负责传感器信息接收及初级处理、电机驱动和运动控制等工作．监控模块与各执行机构之间通过传感系统进行联系，上位机和下位机通过局域网进行连接和通信．用户可以通过网络、手机、无线麦克风等方式实现对该机器人的控制，以此满足各种家庭信息的需求．通过下位监控模块的感知，机器人上位监控程序针对不同的语音输人识别出不同的情感状态，从而做出不同的情感表达和交互．如图２为机器入平台构成．图３实验系统主界面Ｈｇ．３Ｔｈｅｍａｉｎｉｎｔｅｒｆａｃｅｏｆｅｘｐｅｒｉｍｅｎｔａｌｓｙｓｔｅｍ４．２机器人语音情感识别系统实验过程本实验主要完成机器人对语音信号的情感的识别，使人与机器人之间可以完成情感和语音的交互，同时可使机器人听从人的指挥完成一定的任务．如图３为语音情感识别实验系统主界面．在语音情感识别实验中，首先邀请８名大学生参加录音。录音者均为表演专业学生．所录制语料经过４名非录音者进行听辨实验，去除了其中３０％左右情感类型不明显的语料，挑选出共计５５０条语料用于测试，其中包含高兴，伤心，生气，害怕，惊讶５类情感语料各１１０句左右，组成了录制情感语音数据库，录制格式为ｌｌＫＨｚ，１６ｂｉｔ的单声道ＷＡＶ音频格式；然后进行语音信号的特征提取并通过本文隐马尔可夫模型识别方法对语音中的情感进行识别和计算；同时语音识别模块会识别出语音中包含的文字信息，这样机器人可以根据文字和情感信息来与用户进行更人性化的交流．４．３实验结果分析与比较表ｌ实验结果表明，伤心的识别率为８６．４％，生气的识别率为７３．６％，其他三种情感的识别率略低，平均识别率为６９．８％，还是比较理想的．表１语音情感识别实验结果Ｔａｂｌｅ１Ｔｈｅｒｅｓｕｌｔｏｆｅｘｐｅｒｉｍｅｎｔ文献［１４］研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用，重点研究了加１。Ｃ和ＡＭＦＣＣ，将处理后的频谱特征参数同原有的ＢＰ人工神经网络模型有效地结合起来，形成完整的语音情感识别系统。取得了６４．４％的平均识别率．该方法对于生气、高兴、伤心、害怕的识别率分别达到了６４．５％、５４．９％、８３．３％、５５．０％。而本图４语音交互模块框图Ｆｉｇ．４Ｔｈｅｄｉａｇｒａｍｏｆｓｐｅｅｃｈｉｎｔｅｒａｃｔｉｏｎｍｏｄｕｌｅ文中的识别方法对这几种情感的识别率都有所提高，平均识别率也提高了５．４％．文献［１５］利用模糊熵理论来分析语音信号情感特征参数相对于识别情感模式的不确定度，提出了一种利用模糊熵对情感参数有效性进行度量的方法，并将参数有效性分析结合模糊综合判别对情感语音信号作情感识万方数据

情感识别研究调查综述

情感识别研究现状综述 ------------------------赵启明摘要：语音情感识别是目前研究领域比较热门的话题，许多研究学者都作出很大的成就，但目前情感识别还不能大规模融入实际使用主要存在着几方面的问题，首先就是语音数据的获得，目前最主要的还是现在对目前大家经常使用的一些特征提取，分类方法进行一些归纳总结一、情感分类经过Plutchik等人的研究，通过在激活-评估空间(Activation-Evaluation space)上对情感进行分析，认为情感分布在一个圆形的结构上，结构的中心是自然原点。对于自然原点，认为它是一种具有各种情感因素的状态，但是由于这些情感因素在该点的强度太弱而得不到体现。通过向周围不同方向的扩展，表现为不同的情感。情感点同自然原点之间的距离体现了情感的强度。由于各种情感在自然原点的周围排成了一个圆形，所以这种对情感进行分类的方法叫做情感轮(Emotion Wheel)，如图 2.2所示。对于任何一种情感，可以根据其情感强度和情感方向，在情感轮组成的二维平面中用唯一的一个情感矢量E来表示。其中情感强度表现为这个情感矢量的幅度值，而情感方向则表现为该情感矢量的角度。大部分学者认为主要情感包括:害怕(fear)、愤怒(anger)、高兴（joy)、悲伤(sadness)和厌恶(disgust)，主要情感的特点有: 》主要情感是所有人类文化和社会化的哺乳动物所共有的，比如害怕。

》主要情感通常有特殊的表现，比如面部表情通常可以作为区分主要情感的依据。》对于人类来说，主要情感通常在幼年就会出现。》主要情感来自于进化的需要。比如，害怕是警告同类有危险出现。次要情感由主要情感变化或混合得到，就像三元色混合原理一样。这类情感的生成理论也叫情感的调色板理论。次要情感包括自豪(高兴的一种变化形式)、感激(高兴的一种派生形式)、悲痛、惊奇等等。在本文的研究中，针对主要情感，害怕(fear)、愤怒(anger)、高兴Joy)、悲伤(sadness)和厌恶(disgust)，加上一个常有的次要情感，惊讶(surprise)作为研究的情感对象。六大类：害怕(fear)、愤怒(anger)、高兴（joy)、悲伤(sadness)和厌恶(disgust)惊讶(surprise) 二、语音数据库的制作和选择 1、语音数据库的制作如何衡量一个语音数据库的好坏目前还没有一个统一的标准，不同的研究者使用的情感语音数据库存在许多差异。至今已有英语，德语，日语，荷兰语，西班牙语，丹麦语，瑞典语，汉语，俄罗斯语等情感语音数据库，少数语音库也含有多种语言，如[35]，但大部分都只包含一到两种语言，包含多种语音多个不同年龄不同性别说话者的大情感语音库至今还没有。此外各类语音的长短也不尽相同，有很短的只有一到几个字的词，也有具有七八个句子的段落[36]，但大部分是生活中常用的短句。目前研究中主要使用的语音数据库主要有两种，其真实性，实用性各有不同。第一种数据库来自专业或业余演员的表演，或者是高校的学生和职员的模仿，这些参加录音的人想象自己处于某种情感状态中，朗读预先准备的句子或段落。用这种方法获取情感语音数据库的优点就是试验条件容易控制，且可以用不同情感重复同样的句子或段落，去除语意的影响，在同样条件下比较各种不同情感状态的语音特征。由于这种方法操作简单，目前大部分情感语音数据库都是用这种方法获得的。如Bhatti等人就是使用这种方法录制了包含六种情感和四种语言的500句情感语音[35]，而Nicholson则是请一个专业的广播演员进行八种情感语音的录音，其他100个日本人进行模仿并录音。但这类方法也有缺点，最大的问题就是其自然度很受质疑[37]，参加录音的人只是“想象”自己处于某种情感状态下或者是模仿专业演员的录音，因此跟现实情感还是有差距，当他们真的处于这种情感状态下时表现是否一样无从考证。第二种数据库来自于虚拟环境中诱引出来的语音，这种方法让录音者置身于一个虚拟场景中，比如使用WOZ[38,39]场景让录音者感觉自己就像真的在跟一个计算机进行对话一样，从而发出尽可能真实的情感语音。或者使用计算机游戏让玩游戏者发出自己真实的喜怒哀乐[40] 。这种情况下录制的情感语音相对于第一种方法更接近现实，但由于录音者知道自己处于拟场景中，因此所表达的情感无法确定是否跟其在真实情况下一样，其自然度也无法保证。此外，虚拟场景的设置使得这一方法的操作比较困难，个体差异及其配合程度也直接影响情感语音的真实度。