当前位置:文档之家› 语音情感识别研究进展综述

语音情感识别研究进展综述

语音情感识别研究进展综述
语音情感识别研究进展综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.doczj.com/doc/8a11737306.html,

Journal of Software,2014,25(1):37?50 [doi: 10.13328/https://www.doczj.com/doc/8a11737306.html,ki.jos.004497] https://www.doczj.com/doc/8a11737306.html,

+86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax:

?

语音情感识别研究进展综述

韩文静1, 李海峰1, 阮华斌2, 马琳1

1(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001)

2(清华大学计算机科学与技术系,北京 100084)

通讯作者: 韩文静, E-mail: hanwenjing07@https://www.doczj.com/doc/8a11737306.html,

摘要: 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望.

从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识

别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究

人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋

势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.

关键词: 人机交互;情感计算;情感描述模型;情感语音库;情感声学特征;语音情感识别

中图法分类号: TP391文献标识码: A

中文引用格式: 韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述.软件学报,2014,25(1):37?50.https://www.doczj.com/doc/8a11737306.html,/

1000-9825/4497.htm

英文引用格式: Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software,

2014,25(1):37?50 (in Chinese).https://www.doczj.com/doc/8a11737306.html,/1000-9825/4497.htm

Review on Speech Emotion Recognition

HAN Wen-Jing1, LI Hai-Feng1, RUAN Hua-Bin2, MA Lin1

1(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)

Corresponding author: HAN Wen-Jing, E-mail: hanwenjing07@https://www.doczj.com/doc/8a11737306.html,

Abstract: This paper surveys the state of the art of speech emotion recognition (SER), and presents an outlook on the trend of future

SER technology. First, the survey summarizes and analyzes SER in detail from five perspectives, including emotion representation models,

representative emotional speech corpora, emotion-related acoustic features extraction, SER methods and applications. Then, based on the

survey, the challenges faced by current SER research are concluded. This paper aims to take a deep insight into the mainstream methods

and recent progress in this field, and presents detailed comparison and analysis between these methods.

Key words: human-computer interaction; affective computing; emotion representation model; emotional speech corpora;

emotion-related acoustic feature; speech emotion recognition

人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能

够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类

上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些

声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然

?基金项目: 国家自然科学基金(61171186, 61271345); 语言语音教育部微软重点实验室开放基金(HIT.KLOF.2011XXX); 中央

高校基本科研业务费专项资金(HIT.NSRIF.2012047)

收稿时间:2013-05-08; 定稿时间: 2013-09-02; jos在线出版时间: 2013-11-01

CNKI网络优先出版: 2013-11-01 13:49, https://www.doczj.com/doc/8a11737306.html,/kcms/detail/11.2560.TP.20131101.1349.001.html

38 Journal of Software 软件学报 V ol.25, No.1, January 2014

人机交互界面的关键前提,具有很大的研究价值和应用价值.

语音情感识别研究的开展距今已有30余年的历史,在此期间,它得到了世界范围内相关研究者们的广泛关注,也取得了一些令人瞩目的成绩,但同时也面临着诸多问题的考验与挑战.本文将立足于语音情感识别研究领域的已有成果,对领域内的研究进展进行总结,并对未来的技术发展趋势加以展望.

一般说来,语音情感识别系统主要由3部分组成:语音信号采集、情感特征提取和情感识别,系统框图如图1所示.语音信号采集模块通过语音传感器(例如,麦克风等语音录制设备)获得语音信号,并传递到下一个情感特征提取模块对语音信号中与话者情感关联紧密的声学参数进行提取,最后送入情感识别模块完成情感的判断.需要特别指出的是,一个完整的语音情感识别系统除了要完善上述3部分以外,还离不开两项前期工作的支持:(1) 情感空间的描述;(2) 情感语料库的建立.情感空间的描述有多重标准,例如离散情感标签、激励-评价-控制空间和情感轮等,不同的标准决定了不同的情感识别方式,会对情感语料的收集标注、识别算法的选择都产生影响.情感语料库更是语音情感识别研究的基础,负责向识别系统提供训练和测试用语料数据.国内外相关研究根据研究者的出发点不同会各有侧重,但归根结底都可以涵盖到上述5个关键模块之中.

Fig.1 Framework of a standard speech emotion recognition system

图1 语音情感识别系统框图

因此,本文将首先对语音情感识别接近40年的发展历程进行简要的回顾,然后从情感描述模型、情感语音数据库、语音情感相关声学特征提取、语音情感识别算法、语音情感识别技术应用这5个角度对当前的语音情感识别技术主流方法和前沿进展进行系统的总结和分析,最后给出技术挑战与展望.

1 语音情感识别历史回顾

最早的真正意义上的语音情感识别相关研究出现在20世纪80年代中期,它们开创了使用声学统计特征进行情感分类的先河[1,2].紧接着,随着1985年Minsky 教授“让计算机具有情感能力”观点的提出,以及人工智能领域的研究者们对情感智能重要性认识的日益加深,越来越多的科研机构开始了语音情感识别研究的探索.

在20世纪80年代末至90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采集,综合使用人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应[3];1999年,Moriyama 提出语音和情感之间的线性关联模型,并据此在电子商务系统中建造出能够识别用户情感的图像采集系统语音界面,实现了语音情感在电子商务中的初步应用[4].整体而言,语音情感识别研究在该时期仍旧处于初级阶段,语音情感识别的研究主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,虽然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论和研究方法.

进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快.2000年,在爱尔兰召开的ISCA Workshop on Speech and Emotion 国际会议第1次把致力于情感和语音研究的学者聚集在一起.近年来,先后又有若干以包括语音情感计算在内的情感计算为主题的会议和期刊被创立,并得到了世界范围内的注目,其中较为著名的有:始于2005年的Affective Computing and Intelligent Interaction 双年会,始于2009年的INTERSPEECH Emotion Challenge 年度竞赛,创刊于2010年的《IEEE Transactions on Affective Computing 》期刊以及始于2011年的International 自然语音语音信号采集情感特征提取数字语识别结果情感识别语音情感特征情感空间描述模型语料库

韩文静等:语音情感识别研究进展综述39

Audio/ Visual Emotion Challenge and Workshop(AVEC)年度竞赛等.同时,越来越多国家的大学或科研机构涉足到语音情感识别研究的工作中来,著名的有:贝尔法斯特女王大学Cowie和Douglas-Cowie领导的情感语音小组;麻省理工大学Picard领导的媒体研究实验室;慕尼黑工业大学Schuller负责的人机语音交互小组;南加州大学Narayanan负责的语音情感组;日内瓦大学Soberer领导的情绪研究实验室;布鲁塞尔自由大学Canamero领导的情绪机器人研究小组等.国内对语音情感识别研究的关注起始于21世纪初,经过近10年的发展,目前已有越来越多的科研单位加入该领域的研究,著名的有东南大学无线电工程系、清华大学人机交互与媒体集成研究所、模式识别国家重点实验室、浙江大学人工智能研究所和中国科学院语言研究所等.

近10余年来,语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展.Cowie等人[5]开发的FEELTRACE情感标注系统为语音情感数据的标注提供了标准化工具.Grimm等人[6,7]将三维情感描述模型(activation-evaluation-power space)引入到自发语音情感识别的研究中,并将维度情感识别问题建模为标准的回归预测问题.Grimm的工作为维度语音情感识别研究的发展争取到更多的关注,激发了维度语音情感识别的热潮[7?11].慕尼黑工业大学的Eyben等人[12]开发了面向语音情感特征提取的开放式工具包openSMILE,实现了包括能量、基频、时长、Mel倒谱系数等在内的常用语音情感特征的批量自动提取,并逐渐得到广泛认可[13,14].McKeown等人[15]以科研项目为依托,创建了一个以科学研究为目的的大型多媒体情感数据库SEMAINE,并提供了情感数据的维度标注结果,为语音情感识别的研究和发展提供了公开的、丰富的、高质量的自然情感语料.正是这些研究成果的不断涌现,为构建语音情感识别标准化平台做出了里程碑式的贡献.

2 两类主流情感描述模型

情感描述方式大致可分为离散和维度两种形式.

前者将情感描述为离散的、形容词标签的形式,如高兴、愤怒等,在人们的日常交流过程中被广泛使用,同时还被普遍运用于早期的情感相关研究中.丰富的语言标签描述了大量的情感状态,那么,其中哪些情感状态的研究价值更具有普遍性呢?这个问题可以归结为对基本情感类别的确定.一般认为,那些能够跨越不同人类文化,甚至能够为人类和具有社会性的哺乳动物所共有的情感类别为基本情感.表1[16]列举了不同学者对基本情感的定义和划分,其中,美国心理学家Ekman提出的6大基本情感(又称为big six)在当今情感相关研究领域的使用较为广泛[17].

Table 1Various definitions of emotion from different researchers[16]

表1不同学者对基本情感的定义[16]

学者基本情感

Ekman, Friesen, Ellsworth Anger, disgust, fear, joy, sadness, surprise

Fridja Desire, happiness, interest, surprise, wonder, sorrow

Gray Desire, happiness, interest, surprise, wonder, sorrow

Izard Anger, contempt, disgust, distress, fear, guilt, interest, joy, shame, surprise

James Fear, grief, love, rage

McDougall Fear, disgust, elation, fear, subjection, tender-emotion, wonder

pleasure Mower Pain, Oatley, Johnson-Laird Anger, disgust, anxiety, happiness, sadness

Panksepp Anger, disgust, anxiety, happiness, sadness

Plutchik Acceptance, anger, anticipation, disgust, joy, fear, sadness, surprise

Tomkins Anger, interest, contempt, disgust, distress, fear, joy, shame, surprise

Watson Fear, love rage

Weiner, Graham Happiness, sadness

后者则将情感状态描述为多维情感空间中的点.这里的情感空间实际上是一个笛卡尔空间,空间的每一维对应着情感的一个心理学属性(例如,表示情感激烈程度的激活度属性以及表明情感正负面程度的效价属性).理论上,该空间的情感描述能力能够涵盖所有的情感状态.换句话说,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱

40

Journal of Software 软件学报 V ol.25, No.1, January 2014

程度.由于维度情感模型使用连续的实数值来刻画情感,因此在有些文献中又被称作连续情感描述模型[18].一些既简单又能被广泛使用的维度情感描述模型有二维的激活度-效价空间理论(arousal-valence space)、三维的激励-

评估-控制空间理论(valence-activation-dominance

space)[19]和情感轮理论(emotion wheel)[18]等.其中,激活度

-效价空间理论如图2所示[18]:垂直轴是激活度维,是对情感激烈程度的描述;水平轴是效价维,是对情感正负面程

度的评价.情感状态的日常语音标签和该坐标空间可以

进行相互转化,通过对情感状态语言描述的理解和估计,

就可以找到它在情感空间中的映射位置.

两种表达模型各有千秋:从模型复杂度而言,离散描

述模型较为简洁、易懂,有利于相关研究工作的着手和开

展,而维度模型却要面对定性情感状态到定量空间坐标之间如何相互转换的问题;从情感描述能力的角度而言,离散情感模型的情感描述能力则显示出较大的局限性,

多数情况下,它只能刻画单一的、有限种类的情感类型,然而人们在日常生活中所体验的情感却是微妙而多变的,甚至是复杂而模糊的(例如,人们在受到惊吓时所表现出来的情感不仅有吃惊,往往还包含害怕甚至恐惧的成分;又比如,人们对愉悦的表达可以呈现出若干的程度,可以从喜上眉梢,到眉飞色舞,再到手舞足蹈),可以说,离散描述方式和自发情感的描述之间还存在着较大的障碍,然而维度情感模型从多侧面、连续的角度进行情感的描述,很好地化解了自发情感的描述问题,并且以精确的数值很大程度上回避了离散情感标签的模糊性问题.最后,我们以表格的形式对两个情感描述模型之间的区别进行了直观的总结和展示,见表2.

Table 2 Comparison of two emotional representation models

表2 两种情感描述模型的区别 考察点

离散情感描述模型 离散情感描述模型 情感描述方式

形容词标签 笛卡尔空间中的坐标点 情感描述能力

有限的几个情感类别 任意情感类别 被应用到语音情感识别领域的时期

1980s 2000s 优点

简洁、易懂、容易着手 无限的情感描述能力 缺点 单一、有限的情感描述能力无法满足对自发情感的描述将主观情感量化为客观实数值的过程

是一个繁重且难以保证质量的过程

3 具有代表性的情感语音数据库

语音情感识别研究的开展离不开情感语音数据库的支撑.情感语音库的质量高低,

直接决定了由它训练得到的情感识别系统的性能好坏.目前,领域内存在的情感语音库类型多样,并没有统一的建立标准,按照激发情感的类型可分为表演型、引导型、自然型这3个类别;按照应用目标可分为识别型和合成型两个类别;按照语种不同可分为英语、德语、汉语等.不同于一般文献中的分类方法,本文将依据情感描述模型的不同,将数据语料资源划分为离散情感数据库和维度情感数据库两个分支,二者的区别在于情感标注形式的不同,前者以离散的语言标签(如高兴、悲伤等)作为情感标注,而后者则以连续的实数坐标值表示情感.

由此,我们称以语言标签进行标注的情感语料库为离散情感语料库,而以情感空间坐标值进行标注的语料库为维度情感语料库.目前,就国内外整个研究领域而言,以离散情感语料库居多,而维度情感语料库还有待丰富.本文将依照上述两个分支对当前国内外颇具代表性的情感语音库进行简要综述.它们虽然没有涵盖领域内大部分的语音资源,但都是经过精挑细选的、语料质量较高、影响较为广泛的情感语音库.若需了解更多的情Fig.2 Arousal-Valence emotional space

图2 激活度-效价情感空间

韩文静等:语音情感识别研究进展综述41

感语料库情况,可以参考文献[20?22]中的相关内容.

3.1 离散情感数据库

一个离散情感数据库一般包括有限的几类基本情感类型,并且希望每类情感的演绎都能达到单一、浓重、易辨识的标准,然而这恰恰是生活化的自然语音难以满足的.因此,目前的离散情感数据库多属于表演型或者引导型,或者二者的融合.例如,下面列举的代表性数据库中只有FAU AIBO属于自然型.

3.1.1 Belfast英语情感数据库

Belfast情感数据库[5,23]由Queen大学的Cowie和Cowie录制,由40位录音人(18岁~69岁,20男20女)对5个段落进行演绎得到.每个段落包含7~8个句子,且具有某种特定的情感倾向,分别为生气/anger、悲伤/sadness、高兴/happiness、恐惧/fear、中性/neutral.

3.1.2 柏林EMO-DB德语情感语音库

DMO-DB[24]是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),16bit量化.语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,无过多的书面语修饰.语音的录制在专业录音室中完成,要求演员在演绎某个特定情感前通过回忆自身真实经历或体验进行情绪的酝酿,来增强情绪的真实感.经过20个参与者(10男10女)的听辨实验,得到84.3%的听辨识别率.

3.1.3 FAU AIBO儿童德语情感语音库

FAU AIBO[25]录制了51名儿童(10岁~13岁,21男30女)在与索尼公司生产的电子宠物AIBO游戏过程中的自然语音,并且只保留了情感信息明显的语料,总时长为9.2小时(不包括停顿),包括48 401个单词.语音通过一个高质量的无线耳麦进行收集,并由DAT-recorder录制,48kHz采样(而后压缩到16kHz),16bit量化.为了记录真实情感的语音,工作人员让孩子们相信AIBO能够对他们的口头命令加以反应和执行,而实际上,AIBO则是由工作人员暗中人为操控的.标注工作由5名语言学专业的大学生共同完成,并通过投票方式决定最终标注结果,标注共涵盖包括joyful,irritated,angry,neutral等在内的11个情感标签.该数据库中的18 216个单词被选定为INTERSPEECH 2009年情感识别竞赛用数据库[26].

3.1.4 CASIA汉语情感语料库

该数据库(https://www.doczj.com/doc/8a11737306.html,/resource_info.php?rid=76)由中国科学院自动化研究所录制,由4位录音人(2男2女)在纯净录音环境下(信噪比约为35db)分别在5类不同情感下(高兴、悲哀、生气、惊吓、中性)对500句文本进行的演绎得到,16kHz采样,16bit量化.经过听辨筛选,最终保留其中9 600句.

3.1.5 ACCorpus系列汉语情感数据库

该系列情感数据库(https://www.doczj.com/doc/8a11737306.html,/accenter/fruit/database.html)由清华大学和中国科学院心理研究所合作录制,包含5个相关子库:1) ACCorpus_MM多模态、多通道的情感数据库;2) ACCorpus_SR情感语音识别数据库;3) ACCorpus_SA汉语普通话情感分析数据库;4) ACCorpus_FV人脸表情视频数据库;

5) ACCorpus_FI人脸表情图像数据库.其中,ACCorpus_SR子库共由50位录音人(25男25女)对5类情感(中性、高兴、生气、恐惧和悲伤)演绎得到,16kHz采样,16bit量化.每个发音者的数据均包含语音情感段落和语音情感命令两种类型.

3.2 维度情感数据库

对维度情感语音数据库的建立而言,由于维度情感描述模型的使用,使得数据的采集不再受情感类别的制约,理论上,蕴含任意情感信息的自然语音都可以被收纳到数据库中.然而,接下来的维度情感标注工作却显得并不轻松.目前而言,维度情感的标注工作一般都是基于打分制进行的(例如著名的情感标注工具FEELTRACE[5]),即要求标注者在各个情感维度上对语音中的情感程度进行听辨,并赋以合适的分值.然而看似简单的打分工作,实际上却伴随了标注者们“将主观情感直接量化为客观实数值”的思考过程,尤其是当数据量

42 Journal of Software软件学报 V ol.25, No.1, January 2014

变得庞大时,相应的标注工作也会变得枯燥、劳累、令人难以忍受.近些年来,随着研究者们对维度情感识别领域的关注,尤其是维度情感识别竞赛(例如,2012年Continuous AVEC 2012[14])的开展,一些公开的维度情感数据库逐渐被发布出来.

3.2.1 VAM数据库

VAM数据库[27]是一个以科学研究为目的的无偿数据库,通过对一个德语电视谈话节目“Vera am Mittag”的现场录制得到,语音和视频被同时保存,因此,数据库包含语料库、视频库、表情库这3个部分.谈话内容均为无脚本限制、无情绪引导的纯自然交流.以VAM-audio库为例,该子库包含来自47位节目嘉宾的录音数据947句, wav格式,16kHz采样,16bit量化.所有数据以句子为单位进行保存(1 018句),标注在Valence,Activation和Dominance这3个情感维度上进行,标注值处于?1~1之间.标注工作由多个标注者共同完成,最终的情感值是相关标注者的平均值.VAM-audio是一个应用较为广泛的情感语料库,在本文的后续研究中也会加以使用.

3.2.2 Semaine数据库

Semaine[15]数据库是一个面向自然人机交互和人工智能研究的数据库,可供科研人员无偿使用(http:// semaine-db.eu/).数据录制在人机交互的场景下进行,20个用户(22岁~60岁,8男12女)被要求与性格迥异的4个机器角色进行交谈(实际上,机器角色由工作人员扮演).这4个角色分别是:1) 温和而智慧的Prudence;2) 快乐而外向的Poppy;3) 怒气冲冲的Spike和4) 悲伤而抑郁的Obadiah.录音过程在专业配置录音室内进行,同时有5个高分辨率、高帧频摄像机和4个麦克风进行数据的收集,其中,音频属性为48kHz采样,24bit量化,数据时长在7小时左右.标注工作由多个参与者借助标注工具FEELTRACE[5]在Valence,Activation,Power, Expectation和Intensity这5个情感维度上进行.该数据库中的部分数据被用于AVEC 2012的竞赛数据库[14]. 3.3 语音情感特征提取

当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这3种类型.这些特征常常以帧为单位进行提取,却以全局特征统计值的形式参与情感的识别.全局统计的单位一般是听觉上独立的语句或者单词,常用的统计指标有极值、极值范围、方差等.

3.3.1 韵律学特征

韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排.它的存在与否并不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然顺耳、抑扬顿挫.韵律学特征又被称为“超音段特征”或“超语言学特征”,它的情感区分能力已得到语音情感识别领域研究者们的广泛认可,使用非常普遍[28?31],其中最为常用的韵律特征有时长(duration)、基频(pitch)、能量(energy)等.

Luengo等人[31]在一个Basque情感语音数据的基础上进行了一系列的韵律特征分析研究,他们首先为每个情感语句提取能量和基频曲线和对数曲线,然后继续为各条曲线计算相应的一阶差分和二阶差分曲线,最后统计出每条曲线的最大值、最小值、均值、方差、变化范围、偏斜度(skewness)、峰度(kurtosis),从而获得了84个特征组成的韵律特征集.经过特征选择与分析,最后共有基频均值、能量均值、基频方差、基频对数的斜交、基频对数的动态范围和能量对数的动态范围这6维特征被认为具有最佳的情感区分能力.Origlia等人[32]使用基频和能量相关的最大值、最小值、均值、标准差组成了一个31维的韵律特征集,在一个包含有意大利语、法语、英语、德语在内的多语种情感语料库上取得接近60%的识别率.Sepp?nen等人[33]使用基频、能量、时长相关的43维全局韵律特征进行芬兰语的情感识别,在说话人不相关的情形下取得了60%的识别率.Iliou等人[30]和Wang等人[34]则分别将基频、能量、时长的韵律特征用于德语的说话人不相关的情感识别和汉语普通话情感的说话人相关的情感识别,分别得到了51%和88%的识别率.

除此之外,学者们还针对韵律特征与特定情感类型之间的关联上展开了研究[3,19,35?38],这些研究工作进一步验证了韵律特征区分情感的性能,但也出现了一些不甚一致的结论.例如,Murray等人认为,较快的语速与愤怒的情感相关;而Oster等人却在文献[35]中给出了相反的结论.再者,学者们还发现:韵律特征区的情感区分能力是十分有限的.例如,愤怒、害怕、高兴和惊奇的基频特征具有相似的表现[3,36].

韩文静等:语音情感识别研究进展综述43

3.3.2 基于谱的相关特征

基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现[39],已在包括语音识别、话者识别等在内的语音信号处理领域有着成功的运用[40?42].Nwe等人[43]通过对情感语音的相关谱特征进行研究发现,语音中的情感内容对频谱能量在各个频谱区间的分布有着明显的影响.例如,表达高兴情感的语音在高频段表现出高能量,而表达悲伤的语音在同样的频段却表现出差别明显的低能量.近年来,有越来越多的研究者们将谱相关特征运用到语音情感的识别中来[43?47],并起到了改善系统识别性能的作用,相关谱特征的情感区分能力是不可忽视的.在语音情感识别任务中使用的线性谱特征(linear-based spectral feature)一般有:LPC(linear predictor coefficient)[36],OSALPC(one-sided autocorrelation linear predictor coefficient)[48],LFPC(log-frequency power coefficient)[43]等;倒谱特征(cepstral-based spectral feature)一般有: LPCC(linear predictor cepstral coefficient),OSALPCC(cepstral-based OSALPC)[44],MFCC(mel-frequency cepstral coefficient)等.

目前,对线性谱特征和倒谱特征情感区分能力高低的判定似乎并无定论.Bou-Ghazale[44]对倒谱特征和线性谱特征在压力语音检测(detecting speech under stress)任务中的性能表现进行了研究,研究发现,倒谱特征OSALPCC, LPCC和MFCC的区分能力明显优于线性谱特征LPC和OSALPC.然而,Nwe等人[43]却得出了相反的结论.具体地,HMM被用作分类器对包括生气、厌恶、恐惧、愉悦、悲伤和惊奇在内的6类情感进行话者相关的识别,结果表明,LFPC取得了77.1%的识别率,而LPCC和MFCC的识别率分别为56.1%和59.0%.

3.3.3 声音质量特征

声音质量是人们赋予语音的一种主观评价指标,用于衡量语音是否纯净、清晰、容易辨识等[49].对声音质量产生影响的声学表现有喘息、颤音、哽咽等,并且常常出现在说话者情绪激动、难以抑制的情形之下[19].语音情感的听辨实验中,声音质量的变化被听辨者们一致认定为与语音情感的表达有着密切的关系[49].在语音情感识别研究中,用于衡量声音质量的声学特征一般有:共振峰频率及其带宽(format frequency and bandwidth)、频率微扰和振幅微扰(jitter and shimmer)[50]、声门参数(glottal parameter)等.

Lugger等人[51?53]在一系列工作中提取第1和第4共振峰频率和相应的带宽作为声音质量特征,连同基频等韵律特征一起用于话者不相关的语音情感识别.Li等人[54]提取了频率微扰和振幅微扰作为声音质量参数对SUSAS数据库中的语料数据进行了说话人不相关的情感识别,HMM(hidden Markov model)被作为识别器.与仅使用MFCC的基线性能65.5%相比,MFCC和频率微扰的特征组合可以得到68.1%的识别率,MFCC和振幅微扰的特征组合可以得到68.5%的识别率,最佳性能69.1%由MFCC、频率微扰和振幅微扰的共同组合获得.相对前两类特征而言,声门参数的应用相应较少.一般地,人类的发声机制被建模为气流冲过声门,再通过声道进行滤波,继而输出的过程.从信号处理的角度来看,语音信号可视为声门激励信号和声道冲激响应的卷积.因此,提取声门参数的关键任务就是要去除语音中声道滤波的影响,从而获得声门激励相关的信号.然而,不论是激励信号还是声道滤波器的各项参数,我们都无从得知,仍需进一步估算,声门参数的提取可参见文献[49].

另外,Sun等人在文献[55]中对声门参数和基频、能量等韵律特征在情感识别中发挥的作用进行了比较和探讨.

3.3.4 融合特征

上述3种特征分别从不同侧面对语音情感信息进行表达,自然会想到使用它们的融合用于语音情感的识别,从而达到提高系统识别性能的目的.目前,使用融合特征进行语音情感识别研究是本领域的主流方法[56?60].例如:Sanchez等人[56]将基频、能量、共振峰、谱倾斜(spectral tilt)的90维全局统计特征用于WCGS数据库中沮丧情绪的检测;Schuller等人[57]将过零率、能量、基频、声音质量、谐波噪声比、0~15阶MFCC等特征的5 967维相关统计量用于eNTERFACE[61]、柏林情感语料库EMO-DB[23]以及合成语料库的交叉数据库情感识别研究;Malandrakis等人[59]使用基频、强度、对数能量、过零率、频谱重心(spectral centroid)、频谱通量(spectral flux)、MFCC、PLPC(perceptual linear prediction coefficient)等特征的统计值用于电影维度情感的跟踪等.

44 Journal of Software软件学报 V ol.25, No.1, January 2014

3.3.5 基于i-vector的特征

i-vecotr在近些年来的说话人识别领域有着广泛的应用,是一项将高维高斯混合模型(Gaussian mixture models,简称GMM)超向量空间映射到低维总变异空间的技术,然而在语音情感识别领域的应用还较为新颖.文献[62]提出使用串联结构的情感i-vector特征用于语音情感的识别,他们首先使用openSMILE提取1 584维的声学特征,并使用这些特征为自然情感状态的语音训练得到一个通用模型(universal background model),然后在该通用模型的基础上为每类情感状态生成各自的GMM,继而得到每类情感状态的GMM超向量用于i-vector 的生成.最后,对应于各个情感状态的i-vector被串连在一起作为支持向量机的输入,用于angry,happy,neutral,sad 这4类语音情感的识别,取得了优于原始1 584维声学特征的识别性能.

3.4 语音情感识别算法研究进展

寻找合适的识别算法,是本领域研究者们一直以来为之不懈努力的一个目标.整体而言,依据情感描述模型的不同,当今语音情感识别系统所采用的识别算法可以分为如下两类.

3.4.1 离散语音情感分类器

本文将基于离散情感描述模型的语音情感识别研究称作离散语音情感识别,它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别[7].常用于语音情感识别领域的分类器,线性的有:Na?ve Bayes Classifier,Linear ANN(artificial neural network),Linear SVM(support vector machine)等;非线性的有: Decision Trees,k-NN(k-nearest neighbor algorithm),Non-linear ANN,Non-linear SVM,GMM (Gaussian mixture model),HMM (hidden Markov model)以及稀疏表示分类器等.

如上所示,已有不少模式分类器被语音情感识别研究者们所尝试.其中,使用最为广泛的有HMM[43,63,64], GMM[65?67],ANN[68?70]和SVM [69,71].

Nwe等人[43]使用基于HMM的识别器用于6类情感的识别.具体地,LFPC,MFCC和LPCC被用作情感特征,为每个话者的每类情感构建一个四状态、全连接的HMM,一个缅甸语语料库和一个汉语普通话语料库被分别用于HMM的训练和测试,系统最优性能分别可达到78.5%和75.5%.Lee等人[64]分别以情感类别和音素类别为单位建立HMM模型,并在说话人不相关的情形下对模型性能进行测试.实验结果表明,基于音素类别的HMM 模型具有更优的表现.

GMM是一种用于密度估计的概率模型[72],可以被看作是只包含一个状态的连续HMM模型[73].文献[65]中,GMM分类器被用于对面向婴儿的(infant-directed)KISMET数据库进行情感分类,并使用一种基于峰态模型的选择策略[74]对Gaussian成分的数量进行优化,由基频和能量的相关特征训练得到GMM模型最优性能可达到78.77%.Tang等人[66]针对语音情感识别构造了一种使用Boosting算法进行类条件分布估计的GMM模型,并称其为Boosted-GMM,与传统的使用EM(expectation maximization)方法进行分布估计的EM-GMM相比, Boosted-GMM表现出更优的性能.

MLP(multi-layer perceptron)是语音情感识别中应用最为广泛的一种人工神经网络模型,这与MLP完善的工具包支撑和成熟的学习算法有着很大的关系.Nichoson等人[68]基于MLP建立了一个OCON(one class in one neural network)网络模型,对包括joy,teasing,fear,sadness,disgust,anger,surprise和neutral在内的8种情感进行识别.该OCON模型由8个4层MLP网络和一个决策逻辑控制构成:每个子网络对应于一种情感类型的识别,并在输出层唯一的神经元处输出某测试语句属于某种情感的概率预测值,模型最终会将待识别语句的情感分配为具有最大输出值的子网络所对应的情感.文中使用的数据库是自行录制的,有100位话者参与录制.实验过程中,挑选其中30位话者的语料用于模型的训练,剩余70位话者的语料用于性能测试.实验结果表明,该模型的最优识别率为52.87%.Petrushin等人[69]对普通MLP和Bagging-MLP在语音情感识别中的性能进行了比较.Bagging是一种用于为一个分类器生成多个版本,从而合并为一个性能更为强大的聚合分类器的策略.实验结果表明,Bagging-MLP的性能与普通MLP网络相比提高了5.0%.

SVM分类器的关键在于核函数的运用,它负责将原始特征以非线性的方式映射到高维空间中,从而提高数据的可分性.SVM在语音情感识别领域有着广泛的应用,这里以文献[75]为例进行说明.文中共有3种策略被用

韩文静等:语音情感识别研究进展综述45

来构建基于二分类SVM的多分类模型:前两种策略中都首先为每类情感构建一个二分类的SVM,不同的是,第1种策略将待识别语句分配给距离其余情感距离最远的情感类型,而第2种策略则将各个二分类SVM的输出作为一个3层MLP网络的输入,通过进一步的计算做出最终的分配决定;第3种策略被称为多层次的分类模型(hierarchical classification model),各个SVM子分类器按照树形结构进行排列,从根节点开始由粗略到细致地实现情感的逐步划分,在叶节点处给出最终识别结果.实验结果表明:在FERMUS III数据库[75]之上,3种策略的识别率分别为76.12%,75.45%和81.29%,第3种策略表现最优.

而稀疏表示分类器则是近年来随着压缩感知技术的兴起发展而来的一项分类技术.在文献[76]中,该分类器首先采用稀疏分解的方法,用训练样本对测试样本进行最稀疏表示,即把训练样本看作是一组基,通过求解1-范数最小化的方法得到测试样本的最稀疏表示系数,最后用测试样本与稀疏表示后的残差来进行分类.在柏林EMO-DB德语情感语音库上进行7类情感状态的识别时,取得了相比线性判别分类器、k-NN、ANN、SVM更好的识别性能.

3.4.2 维度语音情感预测器

本文将基于维度情感描述模型的语音情感识别研究称为维度语音情感识别,它的出现与传统的离散语音情感识别相比较为新兴,但也已得到领域内研究者们越来越多的关注[7?11,77].该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:Linear Regression,k-NN,ANN,SVR(support vector regression)等.其中,SVR因为性能稳定、训练时间短等优点应用得最为广泛.例如,Grimm等人[7]在VAM数据库[27]上对基于规则的逻辑分类器(rule-based fuzzy logic classifier)、k-NN和SVR在包括Valence,Activation和Dominance在内的三维情感属性上的预测能力进行比较,结果表明,SVR的预测能力更胜一筹.我们可以看出:相比离散情感分类器的繁荣发展,维度情感预测算法的研究较为薄弱,更多针对情感识别任务的高性能算法仍有待进一步加以开发.

3.5 语音情感识别技术应用

语音情感识别在众多具有自然人机交互需求的领域内有着广泛的应用,例如:可以用于对电话服务中心(call center)用户紧急程度的分拣,从而提高服务质量[29].具体地,可通过及时发现负面情绪较为激烈的用户,并将他们的电话及时转接给人工客服,达到优化用户体验的目的;用于对汽车驾驶者的精神状态进行监控,从而在驾驶员疲劳的时候加以提醒[78,79],从而避免交通事故的发生;用于对远程网络课堂(E-learning)用户在学习过程中的情感状态进行监控,从而及时调整授课重点或者进度[80,81];用于对抑郁症患者的情感变化进行跟踪,从而作为疾病诊断和治疗的依据[82];用于辅助、指导自闭症儿童对情感理解和表达能力的学习[83]等.这些技术应用从算法实现要求上可分为实时类和性能类:实时类包括电话服务中心用户紧急程度分拣、驾驶员疲劳检测、E-learning学员情感监控等,这类应用的特点为对识别速度要求很高,但相对而言对识别准确性具有一定程度的容忍性;而性能类则对算法的识别效果有着较高的要求,例如抑郁症患者情绪跟踪等,因为此时的识别结果关系到医生对患者病情的判断以及治疗方案的定制,那么为了获得较高的识别性能,此时的技术实现可在一定程度上做出识别速度的妥协.

3.6 结束语

本文在充分调研和深入分析的基础上对当今的语音情感识别领域研究进展进行了综述,其中重点介绍了语音情感识别研究中的几个关键问题,包括情感描述模型选取、情感语音数据库建立、语音情感相关声学特征提取、语音情感识别算法建模、语音情感识别技术应用等.可以说,自从该领域在20世纪末期被创立以来,在世界范围内的研究者们数十年的不懈努力下,语音情感识别研究取得了令人欢欣鼓舞的进步与发展.然而,鉴于“语音情感”其本身自有的复杂性,该领域仍旧面临着若干值得深入探索的问题.这里,我们基于大量的调研和近几年来的研究经验提出一些值得进一步挖掘的研究点,希望对本领域的其他研究者有所启发.

3.6.1 情感语料问题

一个丰富、优质的情感语音数据库是开展语音情感计算研究的必要基础,可以为研究工作提供可靠的训练

46 Journal of Software软件学报 V ol.25, No.1, January 2014

和测试用数据.然而,由于情感本身的复杂性,使得情感语音数据的采集和整理工作非常困难,进而导致了高质量的情感语料难以获取.尤其是相比于语音识别领域的大规模自然语音数据库以及音乐计算领域的海量歌曲数据库,现已公布的情感语料数据堪称稀少.对离散情感语音数据库而言,如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战.虽然经历了数十年的发展和积累,也不断有数据库被录制和发布,但是,为研究者们所认可的高质量数据库却为数不多.对维度情感语音数据库的建立而言,困难不在于语料的获取,而在于语料的整理和情感的标注.为了将语料中的情感量化为精确的实数值,标注者担负了繁重的听辨和打分工作,并且标注结果的好坏、正误也难以评判.当前,已有的维度情感语音数据库资源仍较为稀少.面对语料资源的上述现状,应该如何对现有资源进行补充和丰富?能否通过技术手段对训练语料的选择进行系统的指引和帮助?都是研究者们亟待解决的实际问题.

3.6.2 情感与声学特征之间的关联问题

语音情感识别的最终目标是人脑的识别水平.从情感语音信号的形成开始,计算机与人脑的情感识别机制的最初差异就是情感相关声学特征的提取以及情感与声学特征之间的关联方式的确定.因此,如果计算机不能准确地或者以尽可能接近人类的方式对情感语音进行声学特征提取并加以正确的关联和映射,就会使得计算机语音情感识别系统被建立于一个偏离实际的基础之上,从而导致其后的识别机制与人脑处理机制间的差距越来越大,无法达到期望的效果.然而,目前并没有一个相当于语音识别领域中的Mel倒谱系数同样地位的情感声学特征被提出.一般情况下,研究者们使用包括韵律学、声音质量、频谱在内的多种相关声学特征的合集作为语音情感特征的代表.因此,如何从现有的声学特征中选择区分能力最优的特征子集、如何探究与情感表达关联更加密切的新特征都是当前领域内十分重要的研究课题.并且一般认为,基于语句时长的全局特征与情感状态之间的关联最为紧密,因为它可以在一定程度上削弱文本差异对声学特征的干扰.然而,这种所谓的干扰削弱,却是以减弱部分表征情感状态的声学特征的细节效用为代价的.从该角度来看,如何界定情感声学特征的最优提取时长,抑或是对不同时长的声学特征进行融合,也都是不容忽略的研究课题.

3.6.3 语音情感识别的建模问题

构建合理、高效的语音情感识别模型是语音情感识别研究的重中之重,它负责对大量的训练语料进行学习,从中挖掘由各种声学特征通往对应情感状态的映射通路,从而实现对测试语料情感状态的正确判断与识别.理想的语音情感识别模型应该是对人脑语音情感处理机制的模拟和重建,然而,由于人脑情感处理机制的复杂性以及目前的认知科学水平,当前领域内构建的识别模型仍停留在功能模拟的水平,与机制模拟的目标还存在一定的差距.例如,离散情感识别任务一般被建模为普通的模式分类器,而维度情感识别任务一般被建模为标准的回归预测问题.那么,如何在现有的认知科学水平之上,以尽可能贴近人脑情感处理机制的方式来构建语音情感识别模型,是一项艰巨却有着重大意义的任务.

3.6.4 语音情感识别技术的推广问题

伴随着人机语音交互技术的不断发展,越来越多的语音交互技术从实验室环境进入了商业应用,并对人们的生活方式产生着影响.例如,midomi哼唱检索网络使用的分布式旋律比对技术(https://www.doczj.com/doc/8a11737306.html,)、苹果公司的Siri语音搜索软件使用的分布式语音识别及合成技术等.然而,鉴于语音情感识别的新兴性,目前并没有成熟的相关应用问世.利用互联网平台推广语音情感识别技术的应用,对于加快人机交互的情感智能化进程有着非常重要的实际意义,应当给予足够的重视.

References:

[1] van Bezooijen R, Otto SA, Heenan TA. Recognition of vocal expressions of emotion: A three-nation study to identify universal

characteristics. Journal of Cross-Cultural Psychology, 1983,14(4):387?406. [doi: 10.1177/0022002183014004001]

[2] Tolkmitt FJ, Scherer KR. Effect of experimentally induced stress on vocal parameters. Journal of Experimental Psychology Human

Perception Performance, 1986,12(3):302?313. [doi: 10.1037/0096-1523.12.3.302]

[3] Cahn JE. The generation of affect in synthesized speech. Journal of the American Voice Input/Output Society, 1990,8:1?19.

[4] Moriyama T, Ozawa S. Emotion recognition and synthesis system on speech. In: Proc. of the 1999 IEEE Int’l Conf. on Multimedia

Computing and Systems (ICMCS). Florence: IEEE Computer Society, 1999. 840?844. [doi: 10.1109/MMCS.1999.779310]

韩文静等:语音情感识别研究进展综述47

[5] Cowie R, Douglas-Cowie E, Savvidou S, McMahon E, Sawey M, Schroder M. Feeltrace: An instrument for recording perceived

emotion in real time. In: Proc. of the 2000 ISCA Workshop on Speech and Emotion: A Conceptual Frame Work for Research.

Belfast: ISCA, 2000. 19?24.

[6] Grimm M, Kroschel K. Evaluation of natural emotions using self assessment manikins. In: Proc. of the 2005 ASRU. Cancun, 2005.

381?385. [doi: 10.1109/ASRU.2005.1566530]

[7] Grimm M, Kroschel K, Narayanan S. Support vector regression for automatic recognition of spontaneous emotions in speech. In:

Proc. of the 2007 IEEE Int’l Conf. on Acoustics, Speech, and Signal Processing (ICASSP). IEEE Computer Society, 2007.

1085?1088. [doi: 10.1109/ICASSP.2007.367262]

[8] Eyben F, Wollmer M, Graves A, Schuller B, Douglas-Cowie E, Cowie R. On-Line emotion recognition in a 3-D activation-valence-

time continuum using acoustic and linguistic cues. Journal on Multimodal User Interfaces, 2010,3(1-2):7?19. [doi: 10.1007/ s12193-009-0032-6]

[9] Giannakopoulos T, Pikrakis A, Theodoridis S. A dimensional approach to emotion recognition of speech from movies. In: Proc. of

the 2009 IEEE Int’l Conf. on Acoustics, Speech, and Signal Processing (ICASSP). Taibe: IEEE Computer Society, 2009. 65?68.

[doi: 10.1109/ICASSP.2009.4959521]

[10] Wu DR, Parsons TD, Mower E, Narayanan S. Speech emotion estimation in 3d space. In: Proc. of the 2010 IEEE Int’l Conf. on

Multimedia and Expo (ICME). Singapore: IEEE Computer Society, 2010. 737?742. [doi: 10.1109/ICME.2010.5583101]

[11] Karadogan SG, Larsen J. Combining semantic and acoustic features for valence and arousal recognition in speech. In: Proc. of the

2012 Int’l Workshop on Cognitive Information Processing (CIP). IEEE Computer Society, 2012. 1?6. [doi: 10.1109/CIP.2012.

6232924]

[12] Eyben F, Wollmer M, Schuller B. openSMILE—The Munich versatile and fast open-source audio feature extractor. In: Proc. of the

2010 ACM Multimedia. Firenze, 2010. 1459?1462. [doi: 10.1145/1873951.1874246]

[13] Schuller B, Valstar M, Eyben F, McKeown G, Cowie R, Pantic M. AVEC 2011—The first international audio/visual emotion

challenge. In: Proc. of the 2011 Affective Computing and Intelligent Interaction, SER. Lecture Notes in Computer Science, Memphis: Berlin, Heidelberg: Springer-Verlag, 2011. 415?424. [doi: 10.1007/978-3-642-24571-8_53]

[14] Schuller B, Valstar M, Eyben F, Cowie R, Pantic M. Avec 2012 the continuous audio/visual emotion challenge. In: Proc. of the

2012 Int’l Audio/Visual Emotion Challenge and Workshop (AVEC), Grand Challenge and Satellite of ACM ICMI 2012. Santa Monica: ACM Press, 2012. [doi: 10.1145/2388676.2388758]

[15] McKeown G, Valstar MF, Cowie R, Pantic M. The semaine corpus of emotionally coloured character interactions. In: Proc. of the

2010 IEEE Int’l Conf. on Multimedia and Expo (ICME). Singapore: IEEE Computer Society, 2010. 1079?1084. [doi: 10.1109/ ICME.2010.5583006]

[16] Ortony A, Turner TJ. What’s basic about basic emotions. Psychological Review, 1990,97(3):315?331. [doi: 10.1037/0033-295X.97.

3.315]

[17] Ekman P, Power MJ. Handbook of Cognition and Emotion. Sussex: John Wiley & Sons, 1999.

[18] Xie B. Research on key issues of Mandarin speech emotion recognition [Ph.D. Thesis]. Hangzhou: Zhejiang University, 2006 (in

Chinese with English abstract).

[19] Cowie R, Douglas-Cowie E, Tsapatsoulis N, Votsis G, Kollias S, Fellenz W, Taylor JG. Emotion recognition in human-computer

interaction. In: Proc. of the IEEE Signal Processing Magazine. 2001. 32?80. https://www.doczj.com/doc/8a11737306.html,/

[20] Ververidis D, Kotropoulos C. Emotional speech recognition: Resources, features, and methods. In: Proc. of the Speech

Communication. 2006. 1162?1181. [doi: 10.1016/j.specom.2006.04.003]

[21] Ayadi ME, Kamel MS, Karray F. Survey on speech emotion recognition: Features, classification schemes, databases. Pattern

Recognition, 2011,44(3):572?587. [doi: 10.1016/j.patcog.2010.09.020]

[22] Ververidis D, Kotropoulos C. A state of the art review on emotional speech databases. In: Proc. of the 2003 Richmedia Conf.

Lausanne. Switzerland, 2003. 109?119.

[23] McGilloway S, Cowie R, Douglas-Cowie E, Gielen S, Westerdijk M, Stroeve S. Approaching automatic recognition of emotion

from voice: A rough benchmark. In: Proc. of the 2000 ISCA Workshop on Speech and Emotion: A Conceptual Framework for Research. Belfast: ISCA, 2000. 207?212.

[24] Burkhardt F, Paeschke A, Rolfes M, Sendlmeier W, Weiss B. A database of german emotional speech. In: Proc. of the 2005

INTERSPEECH. Lisbon: ISCA, 2005. 1517?1520.

[25] Steidl S. Automatic classification of emotion-related user states in spontaneous children’s speech [Ph.D. Thesis]. Erlangen:

University at Erlangen Nurberg, 2009.

48 Journal of Software软件学报 V ol.25, No.1, January 2014

[26] Schuller B, Steidl S, Batliner A. The INTERSPEECH 2009 emotion challenge. In: Proc. of the 2009 INTERSPEECH. Brighton:

ISCA, 2009. 312?315.

[27] Grimm M, Kroschel K, Narayanan S. The vera am mittag german audiovisual emotional speech database. In: Proc. of the 2008

IEEE Int’l Conf. on Multimedia and Expo (ICME). Hannover: IEEE Computer Society, 2008. 865?868. [doi: 10.1109/ICME.2008.

4607572]

[28] Schroder M, Cowie R. Issues in emotion-oriented computing—Towards a shared understanding. In: Proc. of the 2006 Workshop on

Emotion and Computing. Hannover: IEEE Computer Society, 2006. 865?868.

[29] Lee CM, Narayanan SS. Toward detecting emotions in spoken dialogs. IEEE Trans. on Speech and Audio Processing, 2005,13(2):

293?303. [doi: 10.1109/TSA.2004.838534]

[30] Iliou T, Anagnostopoulos CN. Statistical evaluation of speech features for emotion recognition. In: Proc. of the 2009 Int’l Conf. on

Digital Telecommunications. Colmar: IEEE Computer Society, 2009. 121?126. [doi: 10.1109/ICDT.2009.30]

[31] Luengo I, Navas E, Hernaez I, Sanchez J. Automatic emotion recognition using prosodic parameters. In: Proc. of the 2005

INTERSPEECH. Lisbon: ISCA, 2005. 493?496.

[32] Origlia A, Galata V, Ludusan B. Automatic classification of emotions via global and local prosodic features on a multilingual

emotional database. In: Proc. of the 2010 Speech Prosody. Chicago, 2010.

[33] Seppanen T, Vayrynen E, Toivanen J. Prosody-Based classification of emotions in spoken finnish. In: Proc. of the 2003 European

Conf. on Speech Communication and Technology (EUROSPEECH). Geneval: ISCA, 2003. 717?720.

[34] Wang Y, Du SF, Zhan YZ. Adaptive and optimal classification of speech emotion recognition. In: Proc. of the 2008 Int’l Conf. on

Natural Computation. Ji’nan: IEEE Computer Society, 2008. 407?411. [doi: 10.1109/ICNC.2008.713]

[35] Oster A-M, Risberg A. The Identification of Mood of a Speaker by Hearing Impaired Listeners. Stockholm, 1986. 79?90.

http://www.speech.kth.s/qpsr

[36] Rabiner LR, Schafer RW. Digital Processing of Speech Signal. London: Prentice Hall, 1978.

[37] Borchert M, Düsterh?ft A. Emotion in speech—Experiments with prosody and quality features in speech for use in categorical and

dimensional emotion recognition environments. In: Proc. of the 2005 IEEE Int’l Conf. on Natural Language Processing and Knowledge Engineering. IEEE Computer Society, 2005. 147?151. [doi: 10.1109/NLPKE.2005.1598724]

[38] Tao JH, Kang YG, Li AJ. Prosody conversion from natural speech to emotional speech. IEEE Trans. on Audio, Speech, and

Language Processing, 2006,14(4):1145?1154. [doi: 10.1109/TASL.2006.876113]

[39] Benesty J, Sondhi MM, Huang Y. Springer Handbook of Speech Processing. Berlin: Springer-Verlag, 2008. [doi: 10.1007/978-3-

540-49127-9]

[40] O’Shaughnessy D. Invited paper: Automatic speech recognition: History, methods and challenges. Pattern Recognition, 2008,41

(10):2965?2979. [doi: 10.1016/j.patcog.2008.05.008]

[41] Wang LB, Minami K, Yamamoto K, Nakagawa S. Speaker identification by combining MFCC and phase information in noisy

environments. In: Proc. of the 2010 IEEE Int’l Conf. on Acoustics, Speech, and Signal Processing (ICASSP). Dallas: IEEE Computer Society, 2010. 4502?4505. [doi: 10.1109/ICASSP.2010.5495586]

[42] Nakagawa S, Wang LB, Ohtsuka S. Speaker identification and verification by combining mfcc and phase information. IEEE Trans.

on Audio, Speech, and Language Processing, 2012,20(4):1085?1095. [doi: 10.1109/TASL.2011.2172422]

[43] Nwe TL, Foo SW, De Silva LC. Speech emotion recognition using hidden Markov models. Speech Communication, 2003,41(4):

603?623. [doi: 10.1016/S0167-6393(03)00099-2]

[44] Bou-Ghazale SE, Hansen JHL. A comparative study of traditional and newly proposed features for recognition of speech under

stress. IEEE Trans. on Speech and Audio Processing, 2000,8(4):429?442. [doi: 10.1109/89.848224]

[45] Bitouk D, Verma R, Nenkova A. Class-Level spectral features for emotion recognition. Speech Communication, 2010,52(7-8):

613?625. [doi: 10.1016/j.specom.2010.02.010]

[46] Chauhan R, Yadav J, Koolagudi SG, Rao KS. Text independent emotion recognition using spectral features. In: Proc. of the 2011

Int’l Conf. on Contemporary Computing. Berlin, Heidelberg: Springer-Verlag, 2011. 359?370. [doi: 10.1007/978-3-642-22606- 9_37]

[47] Wu SQ, Falk TH, Chan WY. Automatic speech emotion recognition using modulation spectral features. Speech Communication,

2011,53(5):768?785. [doi: 10.1016/j.specom.2010.08.013]

[48] Hernando J, Nadeu C. Linear prediction of the one-sided autocorrelation sequence for noisy speech recognition. IEEE Trans. on

Speech and Audio Processing, 1997,5(1):80?84. [doi: 10.1109/89.554273]

[49] Gobl C, Chasaide AN. The role of voice quality in communicating emotion, mood and attitude. Speech Communication, 2003,

40(1-2):189?212. [doi: 10.1016/S0167-6393(02)00082-1]

韩文静等:语音情感识别研究进展综述49

[50] Gelfer MP, Fendel DM. Comparison of jitter, shimmer, and signal-to-noise ratio from directly digitized versus taped voice samples.

Journal of Voice, 1995,9(4):378?382. [doi: 10.1016/S0892-1997(05)80199-7]

[51] Lugger M, Yang B. The relevance of voice quality features in speaker independent emotion recognition. In: Proc. of the 2007 IEEE

Int’l Conf. on Acoustics, Speech, and Signal Processing (ICASSP). Honolulu: IEEE Computer Society, 2007. 17?20. [doi: 10.1109/ ICASSP.2007.367152]

[52] Lugger M, Yang B. Psychological motivated multi-stage emotion classification exploiting voice quality features. In: Proc. of the

Speech Recognition. 2008.

[53] Lugger M, Janoir ME, Yang B. Combining classifiers with diverse feature sets for robust speaker independent emotion recognition.

In: Proc. of the 2009 European Signal Processing Conf. Glagow: EURASIP, 2009. 1225?1229.

[54] Li X, Tao JD, Johnson MT, Soltis J, Savage A, Leong KM, Newman JD. Stress and emotion classification using jitter and shimmer

features. In: Proc. of the 2007 IEEE Int’l Conf. on Acoustics, Speech, and Signal Processing (ICASSP). Honolulu: IEEE Computer Society, 2007. 1081?1084. [doi: 10.1109/ICASSP.2007.367261]

[55] Sun R, Moore E, Torres JF. Investigating glottal parameters for differentiating emotional categories with similar prosodics. In: Proc.

of the 2009 IEEE Int’l Conf. on Acoustics, Speech, and Signal Processing (ICASSP). Taibe: IEEE Computer Society, 2009.

4509?4512. [doi: 10.1109/ICASSP.2009.4960632]

[56] Sanchez MH, Vergyri D, Ferrer L, Richey C, Garcia P, Knoth B, Jarrold W. Using prosodic and spectral features in detecting

depression in elderly males. In: Proc. of the 2011 INTERSPEECH. Florence: ISCA, 2011. 3001?3004.

[57] Schuller B, Burkhardt F. Learning with synthesized speech for automatic emotion recognition. In: Proc. of the 2010 IEEE Int’l

Conf. on Acoustics Speech and Signal Processing (ICASSP). Dallas: IEEE Computer Society, 2010. 5150?5153. [doi: 10.1109/ ICASSP.2010.5495017]

[58] Espinosa HP, García CA, Pineda LV. Features selection for primitives estimation on emotional speech. In: Proc. of the 2010 IEEE

Int’l Conf. on Acoustics Speech and Signal Processing (ICASSP). Dallas: IEEE Computer Society, 2010. 5138?5141. [doi: 10.

1109/ICASSP.2010.5495031]

[59] Malandrakis N, Potamianos A, Evangelopoulos G, Zlatintsi A. A supervised approach to movie emotion tracking. In: Proc. of the

2011 IEEE Int’l Conf. on Acoustics, Speech and Signal Processing (ICASSP). Prague: IEEE Computer Society, 2011. 2376?2379.

[doi: 10.1109/ICASSP.2011.5946961]

[60] Lee CC, Mower E, Busso C, Lee S, Narayanan S. Emotion recognition using a hierarchical binary decision tree approach. Speech

Communication, 2011,53(9-10):1162?1171. [doi: 10.1016/j.specom.2011.06.004]

[61] Martin O, Kotsia I, Macq B, Pitas I. The enterface 2005 audio-visual emotion database. In: Proc. of the 2006 Int’l Conf. on Data

Engineering Workshops. Washington: IEEE Computer Society, 2006. 8.

[62] Xia R, Liu Y. Using i-vector space model for emotion recognition. In: Proc. of the INTERSPEECH 2012. Portland: ISCA, 2012.

2230?2233.

[63] Schuller B, Rigoll G, Lang M. Hidden Markov model-based speech emotion recognition. In: Proc. of the 2003 IEEE Int’l Conf. on

Acoustics, Speech, Signal Processing. Hong Kong: IEEE Computer Society, 2003. II-1.

[64] Lee CM, Yildirim S, Bulut M, Kazemzadeh A, Busso C, Deng Z, Lee S, Narayanan S. Emotion recognition based on phoneme

classes. In: Proc. of the 2004 INTERSPEECH. Jeju Island: ISCA, 2004. 889?892.

[65] Breazeal C, Aryananda L. Recognition of affective communicative intent in robot-directed speech. Autonomous Robots, 2002,12(1):

83?104. [doi: 10.1023/A:1013215010749]

[66] Tang H, Chu SM, Hasegawa-Johnson M, Huang TS. Emotion recognition from speech via boosted gaussian mixture models. In:

Proc. of the 2009 IEEE Int’l Conf. on Ultimedia and Expo (ICME). Piscataway: IEEE Press, 2009. 294?297. [doi: 10.1109/ICME.

2009.5202493]

[67] Yuan G, Lim TS, Juan WK, Ringo HMH, Li Q. A GMM based 2-stage architecture for multi-subject emotion recognition using

physiological responses. In: Proc. of the 2010 Augmented Human Int’l Conf. New York: ACM Press, 2010. 3:1?3:6. [doi: 10.1145/ 1785455.1785458]

[68] Nicholson J, Takahashi K, Nakatsu R. Emotion recognition in speech using neural networks. Neural Computing & Applications,

2000,9(4):290?296. [doi: 10.1007/s005210070006]

[69] Petrushin VA. Emotion recognition in speech signal: Experimental study, development, and application. In: Proc. of the 2000 Int’l

Conf. on Spoken Language Processing. 2000. 222?225.

[70] Bhatti MW, Wang YJ, Guan L. A neural network approach for human emotion recognition in speech. In: Proc. of the 2004 Int’l

Symp. on Circuits and Systems. Vancouver, 2004. 181?184. [doi: 10.1109/ISCAS.2004.1329238]

50 Journal of Software软件学报 V ol.25, No.1, January 2014

[71] Hassan A, Damper RI. Multi-Class and hierarchical svms for emotion recognition. In: Proc. of the 2010 INTERSPEECH. Chiba:

ISCA, 2010. 2354?2357.

[72] Vlassis N, Likas A. A greedy em algorithm for gaussian mixture learning. Neural Processing Letters, 2002,15(1):77?87. [doi: 10.

1023/A:1013844811137]

[73] Reynolds DA, Rose RC. Robust text-independent speaker identification using gaussian mixture speaker models. IEEE Trans. on

Speech and Audio Processing, 1995,3(1):72?83. [doi: 10.1109/89.365379]

[74] Vlassis N, Likas A. A kurtosis-based dynamic approach to Gaussian mixture modeling. IEEE Trans. on Systems, Man and

Cybernetics, Part A: Systems and Humans, 1999,29(4):393?399. [doi: 10.1109/3468.769758]

[75] Schuller B. Towards intuitive speech interaction by the integration of emotional aspects. In: Proc. of the 2002 IEEE Int’l Conf. on

Systems, Man and Cybernetics. Hammamet: IEEE Computer Society, 2002. 6. [doi: 10.1109/ICSMC.2002.1175635]

[76] Zhao XM, Zhang SQ. Robustness speech emotion recognition methods based on compressed sensing. China Patent,

CN103021406A, 2013-04-03 (in Chinese).

[77] Gunes H, Schuller B, Pantic M, Cowie R. Support vector regression for automatic recognition of spontaneous emotions in speech.

In: Proc. of the Int’l Workshop on EmoSPACE, Held in Conjunction with the 9th Int’l IEEE Conf. on Face and Gesture Recognition 2011 (FG 2011). Santa Barbara: IEEE Computer Society, 2011. 827?834.

[78] Schuller B, Rigoll G, Lang M. Speech emotion recognition combining acoustic features and linguistic information in a hybrid

support vector machine-belief network architecture. In: Proc. of the 2004 IEEE Int’l Conf. on Acoustics, Speech, Signal Processing (ICASSP). Montreal: IEEE Computer Society, 2004. 577?580. [doi: 10.1109/ICASSP.2004.1326051]

[79] Boril H, Sadjadi SO, Kleinschmidt T, Hansen JHL. Analysis and detection of cognitive load and frustration in drivers’ speech. In:

Kobayashi T, Hirose K, Nakamura S, eds. Proc. of the 2010 INTERSPEECH. Chiba: ISCA, 2010. 502?505.

[80] Chen K, Yue GX, Yu F, Shen Y, Zhu AQ. Research on speech emotion recognition system in e-learning. In: Proc. of the 2007 Int’l

Conf. on Computational Science, SER. LNCS 4489, Berlin, Heidelberg: Springer-Verlag, 2007. 555?558. [doi: 10.1007/978-3-540- 72588-6_91]

[81] Wang WS, Wu JB. Emotion recognition based on CSO&SVM in e-learning. In: Proc. of the 2011 7th Int’l Conf. on Natural

Computation (ICNC). Beijing: IEEE Computer Society, 2011. 566?570. [doi: 10.1109/ICNC.2011.6022071]

[82] France DJ, Shiavi RG, Silverman S, Silverman M, Wilkes MD. Acoustical properties of speech as indicators of depression and

suicidal risk. IEEE Trans. on Biomedical Engineering, 2000,47(7):829?837.

[83] Marchi E, Schuller B, Batliner A, Fridenzon S, Tal S, Golan O. Emotion in the speech of children with autism spectrum conditions:

Prosody and everything else. In: Proc. of the 2012 Workshop on Child, Computer and Interaction (WOCCI 2012), Satellite Event of INTERSPEECH. Portland: ISCA, 2012.

附中文参考文献:

[18] 谢波.普通话语音情感识别关键技术研究[博士学位论文].杭州:浙江大学,2006.

[76] 赵小明,张石清.基于压缩感知的鲁棒性语音情感识别方法.中国专利,CN103021406A,2013-04-03.

韩文静(1983-),女,河南正阳人,博士,CCF 学生会员,主要研究领域为语音情感识别,自然人机交互.

E-mail: hanwenjing07@https://www.doczj.com/doc/8a11737306.html,

阮华斌(1983-),男,博士,主要研究领域为智能信息处理,算法优化与加速,可重构计算.

E-mail: ruanhuabin@https://www.doczj.com/doc/8a11737306.html,

李海峰(1969-),男,博士,教授,博士生导

师,CCF高级会员,主要研究领域为语音情

感处理,自然人机交互,智能信息处理,人

工脑与认知科学.

E-mail: lihaifeng@https://www.doczj.com/doc/8a11737306.html,

马琳(1967-),女,博士,副教授,CCF会员,

主要研究领域为模式识别,智能信息处理,

图像处理,生物信息学.

E-mail: malin_li@https://www.doczj.com/doc/8a11737306.html,

语音识别技术综述

语音识别技术综述

语音识别技术综述 电子信息工程2010级1班郭珊珊 【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 【关键词】语音识别;语音识别原理;语音识别发展;产品 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类 语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑 可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识

别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑 也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑 也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别

语音信号识别及处理中英文翻译文献综述

语音识别 在计算机技术中,语音识别是指为了达到说话者发音而由计算机生成的功能,利用计算机识别人类语音的技术。(例如,抄录讲话的文本,数据项;经营电子和机械设备;电话的自动化处理),是通过所谓的自然语言处理的计算机语音技术的一个重要元素。通过计算机语音处理技术,来自语音发音系统的由人类创造的声音,包括肺,声带和舌头,通过接触,语音模式的变化在婴儿期、儿童学习认识有不同的模式,尽管由不同人的发音,例如,在音调,语气,强调,语调模式不同的发音相同的词或短语,大脑的认知能力,可以使人类实现这一非凡的能力。在撰写本文时(2008年),我们可以重现,语音识别技术不只表现在有限程度的电脑能力上,在其他许多方面也是有用的。 语音识别技术的挑战 古老的书写系统,要回溯到苏美尔人的六千年前。他们可以将模拟录音通过留声机进行语音播放,直到1877年。然而,由于与语音识别各种各样的问题,语音识别不得不等待着计算机的发展。 首先,演讲不是简单的口语文本——同样的道理,戴维斯很难捕捉到一个note-for-note曲作为乐谱。人类所理解的词、短语或句子离散与清晰的边界实际上是将信号连续的流,而不是听起来: I went to the store yesterday昨天我去商店。单词也可以混合,用Whadd ayawa吗?这代表着你想要做什么。第二,没有一对一的声音和字母之间的相关性。在英语,有略多于5个元音字母——a,e,i,o,u,有时y和w。有超过二十多个不同的元音, 虽然,精确统计可以取决于演讲者的口音而定。但相反的问题也会发生,在那里一个以上的信号能再现某一特定的声音。字母C可以有相同的字母K的声音,如蛋糕,或作为字母S,如柑橘。 此外,说同一语言的人使用不相同的声音,即语言不同,他们的声音语音或模式的组织,有不同的口音。例如“水”这个词,wadder可以显著watter,woader wattah等等。每个人都有独特的音量——男人说话的时候,一般开的最低音,妇女和儿童具有更高的音高(虽然每个人都有广泛的变异和重叠)。发音可以被邻近的声音、说话者的速度和说话者的健康状况所影响,当一个人感冒的时候,就要考虑发音的变化。

智能计算机论文参考文献范例

https://www.doczj.com/doc/8a11737306.html, 智能计算机论文参考文献 一、智能计算机论文期刊参考文献 [1].当代智能计算机的语义困境——兼论本体论语义学. 《武汉科技大学学报 《电子测试》.2014年10期.樊丽.杨宏.鱼莹. [5].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年3期. [6].关于智能计算机. 《集宁师专学报》.2004年3期.刘宝娥. [7].基于deeplearning的语音识别. 《电子设计工程》.2015年18期.张炯.陶智勇. [8].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年1期. [9].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2015年4期. [10].基于Excel构建智能计算机考试系统. 《信息技术》.被中信所《中国科技期刊引证报告》收录ISTIC.2012年3期.甘伟明.潘东梅.白晓丽.刘兵兵. 二、智能计算机论文参考文献学位论文类 [1].中学生身体运动智能计算机情境化测评方法研究. 作者:李静.教育学;教育技术学南京师范大学2012(学位年度) [2].中学生视觉空间智能计算机情境化测评方法的研究.被引次数:1 作者:张丽霞.教育学;教育技术学南京师范大学2011(学位年度) [3].智能计算机配棉与纱线质量预测系统的研究与开发. 作者:袁静.纺织工程天津工业大学2012(学位年度) [4].基于网络的智能计算机辅助教学系统. 作者:韩静.计算机应用技术华东师范大学2005(学位年度)

https://www.doczj.com/doc/8a11737306.html, [5]HPP体系结构下TCP/IP协议支持的研究与实现.被引次数:1 作者:康炜.计算机系统结构中国科学院计算技术研究所2007(学位年度) [6]模糊逻辑、神经网络与智能计算机研究. 作者:刘增良.计算机科学与技术北京航空航天大学1993(学位年度) [7]基于角色理论的情绪常识模型及应用研究. 作者:叶潇.计算机软件与理论华东理工大学2005(学位年度) [8].基于.NET技术的智能计算机考试系统. 作者:施长云.软件工程东南大学2015(学位年度) [9]智能计算机网络规划系统的设计与实现. 作者:梁伟晟.计算机软件与理论中山大学2000(学位年度) [10]智能计算机辅助教学系统探索与制作. 作者:刘常青.自动控制理论及应用西安电子科技大学1998(学位年度) 三、相关智能计算机论文外文参考文献 [1]IntelligentComputerAidedInstructionModelingandaMethodtoOptimiz eStudyStrategiesforParallelRobotInstruction. TanD.P.JiS.M.JinM.S.《IEEETransactionsonEducation》,被EI收录EI.被SCI收录SCI.20133 [2]Aparadigmforhandwritingbasedintelligenttutors. Anthony,L.Yang,J.Koedinger,K.R.《Internationaljournalofhumancomputerstudies》,被EI收录EI.被SCI收录SCI.201211 [3]Intelligentautomationofdesignandmanufacturinginmachinetoolsusi nganopenarchitecturemotioncontroller. https://www.doczj.com/doc/8a11737306.html,vanya《JournalofManufacturingSystems》,被EI 收录EI.被SCI收录SCI.20131 [4]Anadaptationalgorithmforanintelligentnaturallanguagetutoringsy stem. AnnabelLathamKeeleyCrockettDavidMcLean《Computers&education》,被EI收录EI.被SCI收录SCI.2014Feb. [5]GuestEditors''Introduction:IntelligentSystemsforInteractiveEnt ertainment.

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计 系:信息与通信工程 专业:通信工程 班级:081班 设计题目:基于matlab的语音识别系统 学生姓名: 指导教师: 完成日期:2011年12月27日

一.设计任务及要求 1.1设计任务 作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求 要求:使用matlab软件编写语音识别程序 二.算法方案选择 2.1设计方案 语音识别属于模式识别范畴,它与人的认知过程一样,其过程分为训练和识别两个阶段。在训练阶段,语音识别系统对输入的语音信号进行学习。学习结束后,把学习内容组成语音模型库存储起来;在识别阶段,根据当前输入的待识别语音信号,在语音模型库中查找出相应的词义或语义。 语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元,它的基本结构如图1所示。 图1 语音识别系统基本结构图 本次设计主要是基于HMM模型(隐马尔可夫模型)。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别词条的统计模型,然后从待识别语音信号中提取特征,与这些模

型进行匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。并且,HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图 图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变列。可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模型。其初始状态概率向量π,状态转移概率矩阵向量A,以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π,A,B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题: (1)识别问题:在给定的观测序列O和模型λ=(A,B,π)的条件下,如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法,它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定:如何选择一个最佳状态序列Q=q1q2…qT,来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题:如何调整模型参数λ=(A,B,π),使P(O︱λ)最大:这是三个问题中最难的一个,因为没有解析法可用来求解最大似然模型,所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。 第一个问题是评估问题,即已知模型λ=(A,B,π)和一个观测序列O,如何计算由该模型λ产生出该观测序列O的概率,问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。 第二个问题力图揭露模型中隐藏着的部分,即找出“正确的”状态序列,这是一个典型的估计问题。

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

指纹识别系统(文献综述)

指纹识别方法的综述 摘 要: 对在指纹的预处理和特征提取、指纹分类、指纹的匹配过程中的方向图、滤波器、神经网络等关 键性原理和技术做了详细的说明,并对在各个过程中用到的方法做了进一步的比较,讨论了各种方法的优越性。 0 引 言 自动指纹识别是上世纪六十年代兴起的,利用计算机取代人工来进行指纹识别的一种方法。近年 来,随着计算机技术的飞速发展,低价位指纹采集仪的出现以及高可靠算法的实现,更使得自动指纹识 别技术越来越多地进入到人们的生活和工作中,自动指纹识别系统的研究和开发正在成为国内外学术 界和商业界的热点。相对于其他生物特征鉴别技术例如语音识别及虹膜识别,指纹识别具有许多独到 的优点,更重要的是它具有很高的实用性和可行性,已经被认为是一种理想的身份认证技术,有着十分 广泛的应用前景,是将来生物特征识别技术的主流。 1 指纹取像 图 1 是一个自动指纹识别系统AFIS(Automated Fingerprint Identification System) 的简单流程。 → → → ↓ ↑ ———— 将一个人的指纹采集下来输入计算机进行处理是指纹自动识别的首要步骤。指纹图像的获取主要利用设备取像,方便实用,比较适合AFIS 。利用设备取像的主要方法又利用光学设备、晶体传感器和超声波来进行。光学取像设备是根据光的全反射原理来设计的。晶体传感器取像是根据谷线和脊线皮肤与传感器之间距离不同而产生的电容不同来设计的。超声波设备取像也是采用光波来取像,但由于超声波波长较短,抗干扰能力较强,所以成像的质量非常好。 2 图像的预处理与特征提取 无论采取哪种方法提取指纹,总会给指纹图像带来各种噪声。预处理的目的就是去除图像中的噪 音,把它变成一幅清晰的点线图,以便于提取正确的指纹特征。预处理是指纹自动识别过程的第一步, 它的好坏直接影响着指纹识别的效果。常用的预处理与特征提取( Image Preprocessing and Feature Ex 2 t raction) 方法的主要步骤包括方向图计算、图像滤波、二值化、细化、提取特征和后处理。当然这些步骤 可以根据系统和应用的具体情况再进行适当变化。文献[ 1 ]提出了基于脊线跟踪的方法能够指纹取像 图像预处理 特征提取 指纹识别 数据库管理

基于matlab的语音识别技术

项目题目:基于Matlab的语音识别 一、引言 语音识别技术是让计算机识别一些语音信号,并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛,包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场,渗透到家电、通信、医疗、消费电子产品等各个领域,让人们的生活更加方便。 语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求和对说话人的依赖程度。 (1)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。 (2)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。 (3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 二、语音识别系统框架设计 2.1语音识别系统的基本结构

语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图l所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块,其中后处理模块为可选部分。 三、语音识别设计步骤 3.1语音信号的特征及其端点检测 图2 数字‘7’开始部分波形 图2是数字”7”的波形进行局部放大后的情况,可以看到,在6800之前的部分信号幅度很低,明显属于静音。而在6800以后,信号幅度开始增强,并呈现明显的周期性。在波形的上半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期。 这样可以很直观的用信号的幅度作为特征,区分静音和语音。只要设定一个

门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。 3.2 语音识别系统 3.2.1语音识别系统的分类 语音识别按说话人的讲话方式可分为3类:(1)即孤立词识别(isolated word recognition),孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等。(3)连续语音识别,连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话。 从识别对象的类型来看,语音识别可以分为特定人语音识别和非特定人语音识别,特定人是指针对一个用户的语音识别,非特定人则可用于不同的用户。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 3.2.2语音识别系统的基本构成 语音识别系统的实现方案如图3所示。输入的模拟语音信号首先要进行处理,包括预滤波,采样和量化,加窗,端点检测,预加重等。语音信号经处理后,接下来很重要的一环就是特征参数提取。 图3 语音识别系统 在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模版,与参考模板进行匹配,将匹配分数最高的参考模型作为识别结果。 3. 2.3 语音识别系统的特征参数提取 特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。 全极点线性预测参数 (LPC: Liner Prediction Coeffieient)可以对声管模型进行很好的描述,LPC参数是模拟人的发声器官的,是一种基于语音合成的参数模型。 在语音识别中,很少用LPC系数,而是用LPC倒谱参数 (LPCC: Liner Prediction Cepstral Coefficient)。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

语音情感识别中特征参数的研究进展

传感器与微系统(Transducer and Microsystem Technologies)2012年第31卷第2期 语音情感识别中特征参数的研究进展* 李杰1,周萍2 (1.桂林电子科技大学计算机科学与工程学院,广西桂林541004; 2.桂林电子科技大学电子工程与自动化学院,广西桂林541004) 摘要:语音情感识别是近年来新兴的研究课题之一,特征参数的提取直接影响到最终的识别效率,特征 降维可以提取出最能区分不同情感的特征参数。提出了特征参数在语音情感识别中的重要性,介绍了语 音情感识别系统的基本组成,重点对特征参数的研究现状进行了综述,阐述了目前应用于情感识别的特征 降维常用方法,并对其进行了分析比较。展望了语音情感识别的可能发展趋势。 关键词:语音;情感识别;特征参数;特征降维 中图分类号:TP391文献标识码:A文章编号:1000—9787(2012)02—0004—04 Research progress on feature parameters of speech emotion recognition* LI Jie1,ZHOU Ping2 (1.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin541004,China;2.School of Electric Engineering and Automation,Guilin University of Electronic Technology,Guilin541004,China) Abstract:Speech emotion recognition is one of the new research projects,the extraction of feature parameters extraction influence the final recognition-rate efficiency directly,dimension reduction can extract the most distinguishing feature parameters of different emotions.The importance of feature parameters in speech emotion recognition is point out.The system of speech emotion recognition is introduced.The common methods of feature parameters is detailed.The common methods of dimension reduction which are used in emotion recognition are compared and analyzed.The development of speech emotion recognition in the future are prospected. Key words:speech;emotion recognition;feature parameter;dimension reduction 0引言 随着计算机技术的高速发展和人类对计算机依赖性的不断增强,人机交流变得越来越普遍,人机交互能力也越来越受到研究者的重视,语音情感识别就是人机交互与情感计算的交叉研究领域。语音中的情感之所以能够被识别与表达,是因为语音特征在不同情感状态下的表现不同。因此,很多研究者对特征与情感类别之间的对应关系产生了浓厚的兴趣并进行了深入的探讨。Murray I和Amott J L完成的实验得出了基频、能量、时长等韵律特征,以及语音质量特征与情感之间的定性关系[1],使得韵律学特征成为语音情感识别的常用特征。此后,研究者又加入了共振峰参数和语音学特征,如MFCC,使得韵律学特征与语音学特征结合识别情感。通常在利用这些基本特征进行研究时,还需要求出其派生特征和各种统计特征,如范围、均值和方差等,并把它们组成特征向量。由于到目前为止,声学特征与情感状态的对应关系缺乏统一的结论,为了尽可能保留有意义的信息,研究者只能在研究中保留这维数少则几十条多则上百条的特征向量。但根据模式识别的理论,高维特征集合不仅不会提高识别率,还会造成“维数灾难”[2]。大量的研究表明:语音情感识别的关键就在于从数量众多的特征中求得高效的情感声学特征组,这就需要用到特征降维技术。 目前,已有数篇综述文献总结了语音情感识别的研究成果[3 6],但主要都是针对识别算法的研究进展进行综述。本文从模式识别的角度对目前语音情感识别研究中所采用的特征降维技术进行总结,并对近几年提出的情感特征参数进行阐述。 1语音情感识别系统的概述 基于语音的情感识别大致分为预处理、特征提取和情感分类三步,大致框架如图1所示。特征提取作为情感分 收稿日期:2011—07—20 *基金项目:国家自然科学基金资助项目(60961002)4

语音识别文献综述

噪音环境下的语音识别 1.1引言 随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究. 语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。 1,2语音识别的发展历史和研究现状 1.2.1国外语音识别的发展状况 国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。 20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。 20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。 20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。 当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine,SVM)技术、进化算法(evolutionary computation)技术等。

情感识别综述

龙源期刊网 https://www.doczj.com/doc/8a11737306.html, 情感识别综述 作者:潘莹 来源:《电脑知识与技术》2018年第08期 摘要:情感交互在人机自然交互的研究中受到了很大的重视,而情感识别是人机情感交互的关键,其研究目的是让机器感知人类的情感状态,提高机器的人性化水平。该文首先对情感识别理论进行了概述,继而对情感识别的研究方法进行了分类描述,接着简述了情感识别的应用领域,最后对情感识别的发展进行了展望。 关键词:情感识别;综述;多模态融合;特征提取;情感分类 中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)08-0169-03 1引言 随着智能技术的迅猛发展以及智能机器在各领域的广泛应用,人们渴望对机器进行更深层次地智能化开发,使机器具备和人一样的思维和情感,让机器能够真正地了解用户的意图,进而让机器更好地为人类提供智能化的服务。在智能机器研究中,自然和谐的人机交互能力受到很大的重视。情感识别作为人机情感交互的基础,能够使机器理解人的感性思维,影响着机器智能化的继续发展,成为人机自然交互的关键要素。同时,情感识别融多学科交叉为一体,其发展将会带动多学科共同发展,其应用也会带来巨大的经济效益和社会效益。因而,情感识别技术的研究具有很大的发展前景和重要的学术价值。 2情感识别概述 情感是一种综合了行为、思想和感觉的状态。情感信息主要表现在内外两个层面:一是外在情感信息,是指通过外表能自然观察到的信息,如面部表情、唇动、声音、姿势等,二是内在情感信息,是指外部观察不到的生理信息,如心率、脉搏、血压、体温等。 情感识别本质上也是一种模式识别,它是指利用计算机分析各种情感信息,提取出描述情感的情感特征值,建立特征值与情感的映射关系,然后对情感信息进行分类,从而推断出情感状态的过程。 3情感识别的研究方法 情感识别的研究方法主要有:面部表情识别、语音情感识别、姿态表情识别、文本识别、生理模式识别和多模态情感识别。情感识别过程一般包括四个部分:数据获取、数据预处理、情感特征提取、情感分类。情感特征提取过程一般包括:特征提取、特征降维和特征选择。其中,特征提取的方式各有不同,而特征降维和选择的方式大致相同。

基于安卓的语音情感识别系统设计与实现

基于安卓的语音情感识别系统设计与实现 语音情感识别技术是当前情感计算与语音信号领域的热点问题。作为人机交互之中的一个重要组成部分,在疾病诊断、刑侦破案、远程教育等领域也有日趋广泛的应用。作为人机交互之中的一个重要组成部分,语音情感识别技术却由于情感本身的定义不确定性与表征情感的特征的模糊性,使得语音情感识别技术成为了一个难题。为了解决语音情感识别技术中识别率不高且还不能做到人机交互应用的难题,本文主要进行了以下几点研究:1.引入非线性特征Teager能量算子,并将Teager能量算子与MFCC(Mel-Frequency Cepstral Coefficients,梅尔频域倒谱系数)相结合提取NFD_Mel(Nonlinear Frequency Domain Mel,非线性梅尔频域参数),实验结果表明该特征可以从非线性的角度提取特征,并与传统特征相结合可以有效提高识别率,在德国柏林情感数据库识别率达到了82.02%,相比不采用 NFD_Mel的传统方法,识别率提高了3.24%。2.我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法:声门与声道信号都包含了丰富的情感信息,由于个人声道的差异,通常声道信息则更 多的包含了个人特征,这对于我们非特定人的情感识别工作产生了很多的干扰。基于非特定人的情感识别效果则不如特定人。为了克服现有技术的不足,我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法,该方法利用倒谱分离信号,保留全部的声带信 息并摒弃一部分的声道信息,同时寻找最佳分离点,最后对处理后的 信号在复倒谱重构并提取特征,可以有效提高非特定人语音情感识别

人工智能发展综述

人工智能发展综述 摘要:概要的阐述下人工智能的概念、发展历史、当前研究热点和实际应用以及未来的发展趋势。 关键词:人工智能; 前景; 发展综述 人工智能(Artificial Intelligence)自1956 年正式问世以来的五十年间已经取得了长足的进展,由于其应用的极其广泛性及存在的巨大研究开发潜力, 吸引了越来越多的科技工作者投入人工智能的研究中去。尤其是八十年代以来出现了世界范围的开发新技术的高潮,许多发达国家的高科技计划的重要内容是计算机技术,而尤以人工智能为其基本重要组成部分。人工智能成为国际公认的当代高技术的核心部分之一。 1什么是人工智能 美国斯坦福大学人工智能研究中心尼尔逊教授给人工智能下了这样一个定义:人工智能是关于知识的学科, 是怎样表示知识以及怎样获得知识并使用知识的科学。从人工智能所实现的功能来定义是智能机器所执行的通常与人类智能有关的功能,如判断、推理、证明、识别学习和问题求解等思维活动。这些反映了人工智能学科的基本思想和基本内容, 即人工智能是研究人类智能活动的规律。若是从实用观点来看,人工智能是一门知识工程学:以知识为对象,研究知识的获取、知识的表示方法和知识的使用。 从计算机应用系统的角度出发,人工智能是研究如何制造智能机器或智能系统,来模拟人类智能活动的能力,以延伸人们智能的科学。如果仅从技术的角度来看,人工智能要解决的问题是如何使电脑表现智能化,使电脑能更灵活方效地为人类服务。只要电脑能够表现出与人类相似的智能行为,就算是达到了目的,而不在乎在这过程中电脑是依靠某种算法还是真正理解了。人工智能就是计算机科学中涉及研究、设计和应用智能机器的—个分支,人工智能的目标就是研究怎样用电脑来模仿和执行人脑的某些智力功能,并开发相关的技术产品,建立有关的理论。 2 人工智能历史 当然,人工智能的发展也并不是一帆风顺的,人工智能的研究经历了以下几

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年 3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需

开题报告

山东科技大学 本科毕业设计(论文)开题报告 题目基于yeelink和树莓派的智能家居管理系统设计 与实现 学院名称计算机科学与工程学院 专业班级网络工程2013级 学生姓名 * 学号 * 指导教师 * 填表时间:二0一七年三月二十日

填表说明 1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。 2.此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期完成,经指导教师签署意见、相关系主任审查后生效。 3.学生应按照学校统一设计的电子文档标准格式,用A4纸打印。装订在左侧。 4.参考文献不少于8篇,其中应有适当的外文资料(一般不少于2篇)。 5.开题报告作为毕业设计(论文)资料,与毕业设计(论文)一同存档。

三、文献综述(国内外研究情况及其发展) 智能家居行业发展的潜力吸引众多资本加入,包括传统硬件企业、互联网企业、房地产家装企业纷纷抢滩智能家居市场。谷歌、苹果、微软、三星、华为、小米、魅族等众多科技公司入局,在其努力之下,全球智能家居行业前景看好。同时,移动通信技术的不断发展不断地给智能家居行业提供强而有力的技术支持,包括5G技术、蓝牙5、下一代wifi标准等都有明确的商业化时间表。越来越多的新技术涌现出来,与智能家居的融合将产生强大的合合力,如人工智能技术、语音识别技术、深度学习技术等,他们都不断发力智能家居行业,争取与智能家居技术深度融合。智能家居产品将会越来越普及,分类越来越细化,所涉及的产品种类会更多。远程控制会有一定的发展,但终究会被完整的智能家居系统所代替。智能家居市场的未来广阔,但智能家居平台市场大战也是必不可少的。 国外状况:自从世界上第一幢智能建筑1984年在美国出现后,美国、加拿大、欧洲、澳大利亚和东南亚等经济比较发达的国家先后提出了各种智能家居的方案。智能家居在美国、德国、新加坡、日本等国都有广泛应用。 国内状况:智能家居作为一个新生产业,处于一个导入期与成长期的临界点,市场消费观念还未形成,但随着智能家居市场推广普及的进一步落实,培育起消费者的使用习惯,智能家居市场的消费潜力必然是巨大的,产业前景光明。正因为如此,国内优秀的智能家居生产企业愈来愈重视对行业市场的研究,特别是对企业发展环境和客户需求趋势变化的深入研究,一大批国内优秀的智能家居品牌迅速崛起,逐渐成为智能家居产业中的翘楚!智能家居至今在中国已经历了近12年的发展,从人们最初的梦想,到今天真实的走进我们的生活,经历了一个艰难的过程。 智能家居最初的发展主要以灯光遥控控制、电器远程控制和电动窗帘控制为主,随着行业的发展,智能控制的功能越来越多,控制的对象不断扩展,控制的联动场景要求更高,其不断延伸到家庭安防报警、背景音乐、可视对讲、门禁指纹控制等领域,可以说智能家居几乎可以涵盖所有传统的弱电行业,市场发展前景诱人,因此和其产业相关的各路品牌不约而同加大力度争夺智能家居业务,市场渐成春秋争霸之势。

服务机器人的语音情感识别与交互技术研究

万方数据

万方数据

1468 小型微型计算机系统2010年 4技术应用 4.1机器人平台介绍 本文将语音情感识别技术应用在国家”八六三“高技术 研究发展计划项目”家庭生活支援多机器人系统”的语音子 系统中,验证了语音情感特征提取和情感识别方法的有效性.该机器人的头部能够实现眼球的转动、眼睑的闭合、嘴的闭合、头部的转动等并能做出基本的表情.机器人的结构设计和系统设计完全根据生理学人体结构来设计,控制系统采用上下位机结构.机器人的移动部分使用两轮差动机构进行驱动,并且配有两个6自由度的手臂,可以进行复杂操作.上位机采 电源L 毪。 -——z==一 —包QQ翻 麦克风卜上位监控PC -—====—??J 摄像头卜 ............一 ———1—一I 工业现场总线 l 自囱审豳豳囱囱 图2机器人平台构成 Fig.2 Theslructureofrobot p/afform 用工业PC机,主要负责导航、身体的协调控制、语音情感的识别、语音识别和语音合成等工作;下位机是基于现场总线的集散式控制模块,主要负责传感器信息接收及初级处理、电机驱动和运动控制等工作.监控模块与各执行机构之间通过传感系统进行联系,上位机和下位机通过局域网进行连接和通信.用户可以通过网络、手机、无线麦克风等方式实现对该机器人的控制,以此满足各种家庭信息的需求.通过下位监控模块的感知,机器人上位监控程序针对不同的语音输人识别出不同的情感状态,从而做出不同的情感表达和交互.如图2为机器入平台构成. 图3实验系统主界面 Hg.3 Themaininterfaceofexperimentalsystem 4.2机器人语音情感识别系统实验过程 本实验主要完成机器人对语音信号的情感的识别,使人 与机器人之间可以完成情感和语音的交互,同时可使机器人听从人的指挥完成一定的任务.如图3为语音情感识别实验系统主界面. 在语音情感识别实验中,首先邀请8名大学生参加录音。 录音者均为表演专业学生.所录制语料经过4名非录音者进行听辨实验,去除了其中30%左右情感类型不明显的语料, 挑选出共计550条语料用于测试,其中包含高兴,伤心,生气, 害怕,惊讶5类情感语料各110句左右,组成了录制情感语音数据库,录制格式为llKHz,16bit的单声道WAV音频格式;然后进行语音信号的特征提取并通过本文隐马尔可夫模型识别方法对语音中的情感进行识别和计算;同时语音识别模块会识别出语音中包含的文字信息,这样机器人可以根据文字和情感信息来与用户进行更人性化的交流.4.3实验结果分析与比较 表l实验结果表明,伤心的识别率为86.4%,生气的识 别率为73.6%,其他三种情感的识别率略低,平均识别率为69.8%,还是比较理想的. 表1语音情感识别实验结果 Table1 Theresultof experiment 文献[14]研究了基音频率、振幅能量和共振峰等目前常 用的情感特征在语音情感识别中的作用,重点研究了加1。C 和AMFCC,将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统。取得了64.4%的平均识别率.该方法对于生气、高兴、伤心、害怕的识别率分别达到了64.5%、54.9%、83.3%、55.0%。而本 图4语音交互模块框图 Fig.4 The diagramofspeechinteractionmodule 文中的识别方法对这几种情感的识别率都有所提高,平均识 别率也提高了5.4%.文献[15]利用模糊熵理论来分析语音信号情感特征参数相对于识别情感模式的不确定度,提出了 一种利用模糊熵对情感参数有效性进行度量的方法,并将参 数有效性分析结合模糊综合判别对情感语音信号作情感识 万方数据

相关主题
相关文档 最新文档