语音情感识别研究进展综述_韩文静
- 格式:pdf
- 大小:1.05 MB
- 文档页数:14
基于深度学习的语音情感识别与分类研究随着人工智能的发展,语音情感识别与分类的研究成为了一个备受关注的领域。
语音情感识别是通过分析人的语音信号来识别并分类出其情感状态,这一技术在人机交互、智能客服、情感分析等领域有着广泛的应用前景。
近年来,基于深度学习的语音情感识别方法得到了迅速的发展,并取得了显著的成果。
本文将重点介绍基于深度学习的语音情感识别与分类的研究进展和方法。
在深度学习的方法中,卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)是常用的两种模型。
卷积神经网络主要用于提取语音信号的局部特征,而循环神经网络则能够捕捉到语音信号的时序特征。
这两种模型可以相互结合,构建更为强大的深度学习模型,用于语音情感识别。
首先,语音情感识别的基本步骤是特征提取。
在深度学习领域,常用的特征提取方法是基于Mel频谱特征的声学模型,该模型能够将语音信号转化为频域表示,并保留重要的语音信息。
对于情感分类问题,除了声学特征外,还需要提取语义特征,以获得更高层次的语音情感表达。
这就需要结合语音信号和情感标签进行监督学习,训练一个能够学习到语音情感表达的神经网络模型。
在模型的选择上,卷积神经网络多用于处理语音信号中的局部特征,因其卷积层的权值共享机制,能够有效提取信号的局部空间特征。
然而,卷积神经网络无法很好地捕捉语音信号的时序特征,这导致了其在情感识别中的一定限制。
为了解决这个问题,循环神经网络常常被用于建模语音信号的时序特征。
循环神经网络的隐藏状态可以传递给当前时间步的输入,从而捕获到时间序列中的依赖关系。
因此,结合卷积神经网络和循环神经网络可以更好地提取语音信号中的特征信息,从而提高情感分类的准确率。
除了模型的选择,数据集的构建也是语音情感识别的关键。
构建一个丰富多样的情感语音数据集,对于模型的训练和泛化能力的提升至关重要。
《情感语音识别与合成的研究》篇一一、引言随着人工智能技术的发展,情感语音识别与合成逐渐成为人们关注的焦点。
情感语音识别与合成是自然语言处理(NLP)的重要领域,通过这些技术可以使得计算机和机器人更自然地理解和表达人类情感。
本文旨在探讨情感语音识别与合成的研究现状、应用领域以及未来发展趋势。
二、情感语音识别的研究情感语音识别是指通过计算机和机器学习技术分析语音中的情感信息,将声音转换为情感的标记和标签,实现识别人类情绪的目标。
这项技术的关键在于理解人的情绪特征以及如何从声音中提取这些特征。
2.1 情感语音识别的基本原理情感语音识别的基本原理是通过音频信号处理和机器学习算法对语音进行情感分析。
在音频信号处理阶段,提取出声音中的各种特征,如语调、音量、节奏等;在机器学习算法阶段,使用各种算法对这些特征进行训练,识别出不同情绪的特征和规律。
2.2 情感语音识别的研究进展近年来,随着深度学习技术的兴起,情感语音识别的准确率得到了显著提高。
例如,利用卷积神经网络(CNN)和循环神经网络(RNN)等技术对音频信号进行深度学习和特征提取,可以更准确地识别出不同情绪的语音。
此外,多模态情感识别技术也得到了广泛关注,通过融合声音、文字、表情等多种信息进行综合分析,提高情绪识别的准确率。
三、情感语音合成的研究情感语音合成是使计算机能够根据特定情感或语境生成自然语言语音的技术。
该技术可以实现与用户更自然地交流,提升人机交互的体验。
3.1 情感语音合成的基本原理情感语音合成的基本原理是将预定义的情感特征作为参考信号,生成相应情感的语调、音调、节奏等,从而实现模拟人类的情绪表达。
通常需要建立情绪参数的数学模型,然后将这些参数映射到特定的声波生成器中。
3.2 情感语音合成的技术进展近年来,深度学习和声学模型等技术在情感语音合成中得到了广泛应用。
例如,利用深度神经网络(DNN)和生成对抗网络(GAN)等技术,可以实现更加自然和逼真的声音表达。
《情感语音识别与合成的研究》篇一一、引言情感语音识别与合成技术是人工智能领域中的一项重要研究内容,它通过捕捉和模拟人类情感,使得机器能够更好地理解和表达人类的情感需求。
本文旨在探讨情感语音识别与合成的研究现状、方法及未来发展趋势,以期为相关研究提供参考。
二、情感语音识别的研究情感语音识别是指通过分析语音信号,判断出说话人的情感状态。
目前,情感语音识别的研究方法主要包括基于规则的方法、基于机器学习的方法和深度学习方法。
1. 基于规则的方法基于规则的方法主要依靠语言学和语音学的专业知识,设计一套规则系统来分析语音信号。
该方法需要根据不同语言的发音规则、音调、语调等特征进行细致的规则设计,实现过程相对复杂。
2. 基于机器学习的方法基于机器学习的方法利用大量标注的语音数据训练分类器,通过分类器对未知情感的语音信号进行分类。
该方法需要大量的标注数据,且对于不同情感的表现形式需要设计不同的特征提取方法。
3. 深度学习方法深度学习方法在情感语音识别中取得了较好的效果。
该方法通过构建深度神经网络模型,自动提取语音信号中的特征,进而判断说话人的情感状态。
深度学习方法在处理复杂情感和多种语言方面具有较大优势。
三、情感语音合成的研究情感语音合成是指根据输入的情感信息,生成具有相应情感的语音信号。
目前,情感语音合成的方法主要包括基于规则的合成方法和基于深度学习的合成方法。
1. 基于规则的合成方法该方法主要依靠预设的规则和模板,通过调整语音参数来生成具有特定情感的语音信号。
该方法需要设计较为复杂的规则系统,且生成的语音缺乏自然度。
2. 基于深度学习的合成方法基于深度学习的情感语音合成方法可以生成更加自然、逼真的语音信号。
该方法通过构建神经网络模型,学习大量语音数据中的特征和规律,进而生成具有相应情感的语音信号。
近年来,循环神经网络(RNN)和自编码器等深度学习模型在情感语音合成中得到了广泛应用。
四、研究挑战与展望尽管情感语音识别与合成技术取得了一定的研究成果,但仍面临诸多挑战。
语音情感识别算法研究语音情感识别是一种通过分析语音信号中的声调、语速、语气等特征,来准确识别说话者情感状态的技术。
这种技术在人机交互、智能音箱、情感监测等领域具有重要的应用价值。
本文将会探讨语音情感识别算法的研究现状和发展趋势。
一、研究现状语音情感识别算法的研究已经取得了很大的进展。
传统的基于声学特征的方法主要关注语音中的声调、音频能量、频率等特征。
这些特征的变化与说话者的情感有一定的关联性。
然而,由于语音信号中的情感表达是多维度的,这些基于声学特征的算法存在一定的局限性。
随着深度学习的兴起,越来越多的学者开始尝试使用神经网络来进行语音情感识别。
其中,使用卷积神经网络(CNN)和循环神经网络(RNN)的方法相对较为常见。
这些方法不再依赖于手工提取的特征,而是通过学习分析语音信号中的上下文信息和时序特征。
由于深度学习模型具有较强的拟合能力,因此在语音情感识别任务中取得了较好的效果。
除了基于声学特征的算法和深度学习算法外,还有一些研究者开始利用融合多模态信息的方法来提高语音情感识别的准确性。
例如,将语音信号中的语义信息与面部表情、身体姿势等多种感知方式进行融合,能够更全面地理解说话者的情感状态。
这种多模态融合的方法在情感监测和人机交互等领域具有广泛的应用前景。
二、算法发展趋势随着研究的不断深入,语音情感识别算法在以下几个方面有望得到进一步发展。
首先,算法的准确性将得到进一步提高。
目前的语音情感识别算法虽然已经能够取得不错的效果,但在复杂情感状态的识别上仍然存在一定的挑战。
未来的研究将更加关注复杂情感状态的识别,例如愤怒、恐惧、厌恶等情绪。
同时,需要进一步改进数据集的标注质量,提高模型对于少样本和无样本情况下的泛化能力。
其次,算法的实时性和鲁棒性将会得到增强。
实时性是指算法在实际应用场景中的响应速度,鲁棒性是指算法对于噪声、干扰等外部因素的抗干扰能力。
这两个指标对于语音情感识别的应用非常重要。
未来的研究将重点关注如何在保证准确性的前提下提高实时性和鲁棒性,以适应实际应用的需求。
基于声学模型的语音情感识别技术研究随着人工智能技术的快速发展,语音情感识别技术作为一种重要的人机交互技术也获得了广泛的应用。
语音情感识别技术主要通过分析人的声音来判断其情感状态,可以与语音识别和自然语言处理相结合,为人机交互带来更加智能和人性化的体验。
而基于声学模型的语音情感识别技术也成为了当前研究的热点之一。
一、声学模型在语音情感识别中的应用声学模型是一种通过数学模型来描述声音特征的方法。
在语音情感识别中,声学模型被广泛应用于通过声学特征对语音进行分类,从而实现情感状态的判断。
常见的声学特征包括音高、音量、语速、语调、语气等等。
通过对这些声学特征的分析,结合对话语上下文和语音语调的理解,就可以对人的情感状态进行判断。
二、语音情感识别技术的研究进展语音情感识别技术的研究已经从最初的基于规则的方法逐渐转向了基于机器学习的方法。
目前,主流的机器学习方法包括支持向量机、神经网络、隐马尔可夫模型等等。
其中,基于神经网络的方法无疑是目前最热门的技术之一。
这种方法主要通过构建多层神经网络来自动学习声学特征和语音情感之间的映射关系。
同时,随着深度学习技术的不断发展,越来越多的人开始将深度学习应用到语音情感识别中,取得了更加出色的成果。
三、语音情感识别技术的应用场景语音情感识别技术的应用场景非常广泛。
在商业领域中,语音情感识别技术可以用于电商客服、电话销售、智能客服等领域,帮助企业更好地了解客户的感受和需求,从而提高客户满意度和业务转化率。
在医学领域中,语音情感识别技术可以用于自闭症早期诊断、帕金森综合症诊断等领域,为医学研究和诊断带来了极大的便利。
在教育领域中,语音情感识别技术可以用于教学评价、学习状态跟踪等领域,帮助教师更好地了解学生的学习情况和感受,提高教学效果。
四、语音情感识别技术的发展趋势从当前的研究进展和应用场景来看,语音情感识别技术的发展趋势主要包括以下几个方向:1. 更加深入的声学特征分析和理解,包括更多的语音特征、上下文、背景音等等。
《情感语音识别与合成的研究》篇一一、引言情感语音识别与合成技术是人工智能领域中一个重要的研究方向,其应用场景广泛,包括智能语音助手、智能家居、医疗保健、自动驾驶等领域。
情感语音识别与合成技术的研究对于提高人机交互的自然性和智能性具有重要意义。
本文旨在探讨情感语音识别与合成的研究现状、方法及未来发展趋势。
二、情感语音识别的研究1. 研究现状情感语音识别是指通过对语音信号的处理和分析,识别出说话人的情感状态。
目前,情感语音识别的研究已经取得了一定的进展,但是仍然存在许多挑战。
例如,情感的多样性和复杂性、语音信号的噪声干扰、不同语言和文化背景的差异等问题。
2. 研究方法情感语音识别的研究方法主要包括基于规则的方法、基于统计的方法和基于深度学习的方法。
基于规则的方法是通过制定一定的规则和模板来识别情感,但是其准确性和鲁棒性有待提高。
基于统计的方法则是利用统计学原理来提取语音信号中的特征,然后利用分类器进行情感分类。
基于深度学习的方法则是利用神经网络等算法对语音信号进行深度学习和特征提取,从而实现情感识别。
三、情感语音合成的研究1. 研究现状情感语音合成是指根据说话人的情感状态合成出具有相应情感的语音信号。
随着人工智能技术的发展,情感语音合成技术已经得到了广泛的应用。
目前,情感语音合成技术主要应用于智能语音助手、虚拟人物等领域。
2. 研究方法情感语音合成的研究方法主要包括基于规则的方法和基于深度学习的方法。
基于规则的方法是通过制定一定的规则和模板来生成具有特定情感的语音信号。
基于深度学习的方法则是利用神经网络等算法对情感特征进行学习和建模,然后生成具有相应情感的语音信号。
其中,基于端到端的深度学习模型已经成为当前研究的热点。
四、情感语音识别与合成的应用场景情感语音识别与合成技术的应用场景非常广泛,包括智能语音助手、智能家居、医疗保健、自动驾驶等领域。
在智能语音助手中,情感语音识别可以更好地理解用户的情感状态,从而提供更加智能化的服务;在智能家居中,情感语音合成技术可以用于智能家居系统的交互式对话中;在医疗保健中,通过分析患者的情感状态,可以帮助医生更好地了解患者的病情和需求;在自动驾驶中,情感语音识别与合成技术可以用于车辆与驾驶员之间的交互,提高驾驶的安全性和舒适性。
传感器与微系统(Transducer and Microsystem Technologies)2012年第31卷第2期语音情感识别中特征参数的研究进展*李杰1,周萍2(1.桂林电子科技大学计算机科学与工程学院,广西桂林541004;2.桂林电子科技大学电子工程与自动化学院,广西桂林541004)摘要:语音情感识别是近年来新兴的研究课题之一,特征参数的提取直接影响到最终的识别效率,特征降维可以提取出最能区分不同情感的特征参数。
提出了特征参数在语音情感识别中的重要性,介绍了语音情感识别系统的基本组成,重点对特征参数的研究现状进行了综述,阐述了目前应用于情感识别的特征降维常用方法,并对其进行了分析比较。
展望了语音情感识别的可能发展趋势。
关键词:语音;情感识别;特征参数;特征降维中图分类号:TP391文献标识码:A文章编号:1000—9787(2012)02—0004—04Research progress on feature parameters of speechemotion recognition*LI Jie1,ZHOU Ping2(1.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin541004,China;2.School of Electric Engineering and Automation,Guilin University of Electronic Technology,Guilin541004,China)Abstract:Speech emotion recognition is one of the new research projects,the extraction of feature parametersextraction influence the final recognition-rate efficiency directly,dimension reduction can extract the mostdistinguishing feature parameters of different emotions.The importance of feature parameters in speech emotionrecognition is point out.The system of speech emotion recognition is introduced.The common methods of featureparameters is detailed.The common methods of dimension reduction which are used in emotion recognition arecompared and analyzed.The development of speech emotion recognition in the future are prospected.Key words:speech;emotion recognition;feature parameter;dimension reduction0引言随着计算机技术的高速发展和人类对计算机依赖性的不断增强,人机交流变得越来越普遍,人机交互能力也越来越受到研究者的重视,语音情感识别就是人机交互与情感计算的交叉研究领域。
语音情感识别综述
薛文韬
【期刊名称】《软件导刊》
【年(卷),期】2016(015)009
【摘要】随着情感计算成为人工智能的一个重要发展方向,语音情感识别作为情感计算的一个重要组成部分,受到了广泛关注.从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出目前语音情感识别技术存在的挑战,以及相应的研究方法.
【总页数】3页(P143-145)
【作者】薛文韬
【作者单位】江苏大学计算机科学与通信工程学院,江苏镇江212013
【正文语种】中文
【中图分类】TP391
【相关文献】
1.语音情感识别分类算法研究综述 [J], 李银河;李雪晖;徐楠;钟文雅;赵新仕;程晓燕;孙峰;袁键
2.语音情感识别研究综述 [J], 张会云
3.维度语音情感识别研究综述 [J], 李海峰;陈婧;马琳;薄洪健;徐聪;李洪伟
4.语音情感识别综述 [J], 孙晓虎;李洪均
5.语音情感识别研究综述 [J], 张会云;黄鹤鸣;李伟;康杰
因版权原因,仅展示原文概要,查看原文内容请购买。
基于语音和文本的双模态情感识别综述在人工智能的广阔天地中,双模态情感识别技术如同一位敏锐的心理分析师,通过捕捉细微的语音波动和文字线索,解读人类复杂的情感世界。
这项技术结合了语音和文本两种信息源,旨在更准确地理解和识别人们的情绪状态。
它的重要性不言而喻,因为情感是人类交流的核心,影响着我们的决策、社交互动乃至心理健康。
双模态情感识别技术的工作原理可以比作一部精密的交响乐章。
首先,它通过麦克风等设备捕捉语音信号,这些信号如同乐章中的音符,蕴含着丰富的情感信息。
接着,它利用自然语言处理技术分析文本内容,就如同解读乐章中的旋律和和声。
最后,这两种信息源被巧妙地融合在一起,形成对个体情感状态的全面判断。
与传统的单模态情感识别相比,双模态技术具有显著的优势。
它能够提供更全面的信息,减少误解和误判的可能性。
例如,一个人可能在电话中用平静的语气说出“我很好”,但他的文本消息却透露出疲惫和压力。
双模态技术能够捕捉到这种矛盾,从而更准确地理解他的真实情绪。
然而,双模态情感识别技术也面临着挑战。
其中之一就是如何确保数据的准确性和可靠性。
语音和文本数据可能受到各种因素的影响,如噪音、口音、方言或拼写错误等。
此外,个体差异也是一个不容忽视的因素。
每个人的情感表达方式都是独特的,这使得建立通用的情感识别模型变得更加困难。
展望未来,双模态情感识别技术的发展潜力巨大。
随着深度学习等先进技术的应用,我们可以期待更精确、更智能的情感识别系统出现。
这些系统将能够更好地适应个体差异,甚至能够实时监测和响应用户的情感变化。
这将为心理健康监测、客户服务优化等领域带来革命性的变革。
综上所述,基于语音和文本的双模态情感识别技术是一项令人兴奋的进步,它为我们提供了一种全新的视角来理解和互动人类的情感世界。
尽管面临挑战,但随着技术的不断进步和应用的拓展,我们有理由相信,这一领域将迎来更加辉煌的未来。
基于深度学习的语音情感识别与情感合成技术研究摘要:语音是人们交流与表达情感的重要方式之一,语音情感识别与情感合成技术的研究对于人机交互、智能语音助手等领域具有重要意义。
本文基于深度学习方法,综述了语音情感识别与情感合成技术的研究现状,并探讨了未来的发展方向。
一、引言语音是一种重要的情感表达方式,具有传递情感、表达意图等功能。
因此,语音情感识别与情感合成技术的研究对于人机交互、智能语音助手等领域具有重要意义。
而深度学习作为一种强大的机器学习方法,近年来在语音情感识别与情感合成技术的研究中得到了广泛应用。
二、语音情感识别技术语音情感识别技术是指通过分析语音信号的特征,从中自动判断出语音中所蕴含的情感信息。
近年来,深度学习在语音情感识别技术中取得了显著的进展。
深度神经网络(DNN)和卷积神经网络(CNN)等深度学习模型被广泛应用于语音情感识别任务。
同时,借助深度学习方法,研究者们结合情感词典和语音数据集,进一步提高了情感识别的准确性和鲁棒性。
三、语音情感合成技术语音情感合成技术是指根据给定的文字或情感标签,通过生成语音信号来表达相应的情感状态。
深度学习方法被广泛应用于语音情感合成技术中的两个主要任务,即情感状态分类和语音信号生成。
情感状态分类任务通过深度学习模型对输入的文字或情感标签进行分类,从而实现对语音信号中情感状态的判别。
语音信号生成任务则是通过深度学习模型,根据输入的文字或情感标签生成对应的语音信号。
四、数据集与评价指标语音情感识别与情感合成技术的研究离不开有效的数据集和评价指标。
常用的语音情感识别数据集包括IEMOCAP、EMO-DB等,而语音情感合成数据集则需要人工合成或采集。
在评价指标方面,准确率、查准率、查全率等是常用的用于评估情感识别效果的指标,而在语音情感合成任务中,常用的评价指标包括语音质量、情感准确性等。
五、发展趋势与挑战语音情感识别与情感合成技术在未来的发展中面临一些挑战。
首先,语音情感识别在多语种、多样本等复杂场景下的准确性和鲁棒性仍需提高。
语音情感识别技术研究第一章:引言随着人工智能技术的不断发展,语音情感识别技术逐渐成为研究的热点。
语音情感识别旨在通过分析和识别人们在语音表达中所包含的情感信息,以此帮助人们更好地理解和交流。
本章主要介绍语音情感识别技术的背景和研究意义。
第二章:语音情感识别技术的基本原理2.1 语音特征提取2.1.1 基础特征提取方法2.1.2 高级特征提取方法2.2 模型训练和分类2.2.1 机器学习方法2.2.2 深度学习方法第三章:语音情感识别技术的研究进展3.1 基于传统机器学习方法的研究3.2 基于深度学习方法的研究3.3 语音情感识别的实际应用第四章:语音情感识别技术的挑战与展望4.1 数据集与样本不平衡问题4.2 语音情感的主观性和复杂性4.3 非语言元素的影响4.4 单模态与多模态情感识别第五章:语音情感识别技术的应用前景5.1 人机交互与情感计算5.2 情感辅助识别系统5.3 市场调研与舆情分析第六章:语音情感识别技术的发展趋势6.1 融合多模态信息的情感识别技术6.2 非侵入式情感识别技术6.3 面向跨领域的情感识别研究结论随着人工智能和语音处理技术的蓬勃发展,语音情感识别技术已经取得了令人瞩目的进展,并在各个领域展现出广阔的应用前景。
未来,我们可以期待语音情感识别技术在人机交互、情感计算等方面的广泛应用,同时也要面对数据集不平衡、情感主观性等挑战。
在进一步研究语音情感识别技术的同时,还应加强多模态信息的融合、非侵入式情感识别技术的发展等方面的研究,以推动这一领域的快速发展。
相信在不久的将来,语音情感识别技术将为人类带来更加智能、高效的交流和理解方式。
基于机器学习的语音情感识别与转换研究摘要:随着人工智能技术的发展,语音情感识别与转换在日常生活和商业应用中变得越来越重要。
本文研究基于机器学习的语音情感识别和转换技术,对当前的研究进展进行了综述,并提出了一种基于深度学习模型的语音情感识别和转换方法。
引言:人类情感是一种复杂的非语言信息表达方式,可以通过声音和语调等方式进行传达。
因此,语音情感识别与转换技术的研究对于提高人机交互的效果和用户体验具有巨大的潜力。
随着机器学习和深度学习等领域的不断发展,基于机器学习的语音情感识别和转换方法在近年来取得了显著的进展。
1. 语音情感识别技术1.1 特征提取语音的情感识别首先需要对语音信号进行特征提取。
常用的特征提取方法包括基于声学的特征提取,如基频、共振峰等,以及基于声音能量的特征提取,如短时能量、短时过零率等。
此外,还可以使用频谱特征提取方法,如Mel频谱系数(MFCC)等。
1.2 模型选择基于机器学习的语音情感识别技术一般采用分类模型进行训练和预测。
通过监督学习的方式,将提取到的语音特征与情感类别进行对应。
常用的分类模型包括支持向量机(SVM)、高斯混合模型(GMM)等。
2. 语音情感转换技术2.1 特征转换语音情感转换是将一段语音信号的情感特征转换为另一种情感特征。
为了实现语音情感转换,需要对语音信号进行特征转换。
常用的特征转换方法包括线性变换、非线性变换等。
2.2 模型选择基于机器学习的语音情感转换技术一般采用回归模型进行训练和预测。
通过监督学习的方式,将输入的语音情感特征与期望输出的语音情感特征之间建立模型关系。
常用的回归模型包括线性回归模型、多层感知机(MLP)等。
3. 基于深度学习的语音情感识别与转换方法随着深度学习在机器学习领域的广泛应用,基于深度学习的语音情感识别与转换方法也得到了快速发展。
深度学习通过建立多层神经网络模型来学习有效的特征表示,从而提高语音情感识别和转换的性能。
3.1 深度学习模型选择基于深度学习的语音情感识别与转换方法一般采用循环神经网络(RNN)、卷积神经网络(CNN)等模型进行建模。
语音情感识别分类算法研究综述李银河;李雪晖;徐楠;钟文雅;赵新仕;程晓燕;孙峰;袁键【摘要】语音情感识别本质上是对语音情感的特征参数进行分类和模式识别,其核心问题在于寻找一个更为合适的语音情感识别算法.综述了语音情感识别算法的分类概况、常用的分类算法、研究中的困难与需要进一步研究的问题.最后展望了可能提高精度的先进识别模型.【期刊名称】《南阳师范学院学报》【年(卷),期】2017(016)006【总页数】6页(P28-33)【关键词】语音情感识别算法;分类算法;识别准确率【作者】李银河;李雪晖;徐楠;钟文雅;赵新仕;程晓燕;孙峰;袁键【作者单位】南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061【正文语种】中文【中图分类】TP391随着互联网的普及,人们对机器的智能化开发更加深入,使机器具备和人一样的情感和思维成为网络时代的潮流.语音情感是情感识别领域的一个重要分支,在人机交互中起着至关重要的作用.例如在计算机交互教学[1]、人的精神健康辅助诊断[2]等应用中都发挥着重要的作用.语音情感描述方式大致可分为离散情感类别和连续情感维度两种形式.这两种形式都具有各自表达情感的优缺点.前者描述简洁、易懂、容易着手,但是其单一有限的情感描述能力无法满足对自发情感的描述.后者拥有无限的情感描述能力,但将主观情感转化为客观数值的过程是繁重且无法保证质量的.当前,离散情感分类的研究比连续情感维度的研究更为繁荣.对于离散情感识别而言,其系统的识别准确率是与两个要素紧密相关的,即特征表示和分类器[3].在语音情感识别研究领域,研究者已经尝试和改进了多种分类技术.本文工作主要集中在离散语音情感识别模型的对比和改进上.语音情感描述方式大致可分为离散情感类别和连续情感维度两种形式.整体而言,依据情感描述方式的不同,当今语音情感识别系统所采用的识别算法可以分为以下两类.1.1 离散语音情感分类技术本文将基于离散情感描述模型的语音情感识别研究称为离散语音情感识别,它们被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别[4].已有不少模式分类器被语音情感研究者们所尝试.常用的语音情感分类器线性的有Naive Bayes Classifier、Linear ANN(artficial neural network)、LinearSVM(support vector machine)、动态时间规整算法(dynamic time warping,DWT)、主成分分析(Principal Component Analysis)、BP(Back Propagation)神经网络、决策树(Decision Tree)、混合蛙跳算法(SELA)等;非线性的有Decision Trees、k-NN(k-nearest neighbor algorithm)、Non-linearSVM、GMM(Gaussian Mixture Model)、HMN(Hidden Markov Model)以及稀疏表示分类器等.其中,最为广泛使用的有HMM、GMN、ANN和SVM等[5].1.2 维度语音情感分类技术本文将基于维度语音情感描述模型的语音情感识别研究称为维度语音情感识别(Dim-SER).它的出现与传统的离散语音情感识别相比较为新兴,但也已得到领域内研究者们越来越多的关注[4,6-9].维度语音情感识别(Dim-SER)是情感计算领域的一个新兴分支,它从多维、连续的角度看待情感,将SER问题建模为连续值的预测回归任务.在当前维度语音情感识别(Dim-SER)领域应用较多的分类技术有:Linear Regression、k-NN、ANN、SVR等.其中SVR由于性能稳定、训练时间短等优点应用最为广泛[5].例如,Grimm等人在VAM数据库上对基于规则的逻辑分类器(rule-based fuzzy logic classifier)、k-NN和SVR在包括Valence、Action和Domiance在内的三维情感属性上的预测能力进行比较,实验结果表明,SVR的预测能力更胜一筹.可以看出:当前离散情感分类的研究比连续情感维度的研究发展更为繁荣,维度情感预测技术的研究较为薄弱,更多高性能的情感识别算法有待进一步开发.2.1 Artifical Natural Network(ANN)也称为人工神经网络,是在人类大脑神经突触的结构及链接模式的基础上发展起来的信息分析单元.ANN凭借其自适应性、非线性表示能力、自组织能力、实时处理能力、强容错能力、通过学习获得记忆信息并且解决问题的能力,在语音识别领域有着十分广泛的应用.但是,为充分学习隐形规则,神经网络方法一般都采取了含有大量神经元的隐含中间层导致其复杂度和计算量较高[10].图1给出了采用神经网络方法进行语音情感识别的流程图.Nicholson[11]所研究的系统整个神经网络由8个子网络构成,每个子网处理一种特定的情感,这种网络具有很好的可扩展性,增加情感类别时不需要重新训练整个网络.在神经网路构造完成后,将语音情感的特征参数分别输入到每个情感子网络中,以输出参数(介于0至1之间)为根据来确定该参数情感所属类型的似然程度,通过判别各情感子网络的输出结果,将似然程度最大的情感作为语音情感识别的最终结果[12].ANN在语音情感识别中主要应用在以下几个方面:(1) 缩小建模单元,它一般在音素上建模,通过提高音素的识别率来提高整个语音系统的识别率.(2) 从语音信号中提取多种特征,采用混合模型,并应用多种知识源(词汇、词意、句法、音素),进行语音识别理解研究,以提高系统的性能.(3) 对大脑运行机制、声学模型、听觉模型进行综合分析,对语音信号引进上下文信息,以减少语音多变化的影响.通常语音情感识别神经模型分为两类,一类是神经网络或神经网络与传统的模型相结合的混合模型;另一类是根据人耳听觉生理学、心理学研究成果建立听觉神经网络模型.目前,ANN在复杂性和规模上都不能和人的听觉系统相比.因此,探讨ANN在语音情感识别中的应用,主要是从听觉神经模型中得到启发,在解决语音情感识别问题时得到较好的性能.语音情感识别领域较常用且具有潜力的神经网络模型主要有单层感知器模型SLP(Single Layer Perceptron)、多层感知器模型MLP(Multi-Layer Perceptron)、预测神经网络PNN(Prediction Neural Networks)、径向基函数神经网络RBF(Radial Basis Function)、Kohonen 自组织特征映射模型SOFM(Self Organization Feature Mapping)等.此外,为了使神经网络反映出语音信号的动态时变特性,还有循环神经网络RNN(Recurrent Neural Networks)、时延神经网络TDNN(Time Delay Neural Networks)等.B.Schuller等对语音情感识别中BP网络、听觉神经网络、自组织特征映射、听觉神经网络、时延神经网络、神经预测网络和学习矢量量化进行了详细分析、讨论,指出了他们各自的优缺点,为在以后的研究中找到语音信号更强有力的神经网络模型、更适宜的激活函数、更高速有效的学习算法和更合理的结构做了理论铺垫[13].近年来ANN有了很大的发展,ANN在语音情感识别的应用研究大致分为以下几个方面:(1)提高ANN的性能.(2)将ANN与已经发展的方法结合构成一种混合系统.(3)探讨利用一些新近出现或广泛关注的数学方法构成具有独特性质的神经元网络,并将其应用于语音信号处理领域[13].2.2 隐马尔科夫模型(Hidden Markov Models,HMM)作为一种统计信号模型,其基础模型是1970年前后由Baum等人建立的[14-17].HMM近年来也被应用到语音情感识别领域,并且取得很大成功.如Nogueiras[17]等人采用基音和能量特征在一个半连续的隐马尔科夫模型上对七种不同的情感状态进行分类,在模型状态数为64时取得了最优识别性能,平均识别率达到了82.5%.HMM可以很好地模拟人类的语言过程,自20世纪80年代,L.R.Rabiner把HMM统计模型引入语音情感识别上来,研究者已经取得了不少研究成果.HMM在语音情感识别中的主要问题有:Baum-Welch训练算法、Viterbi算法等问题[18].目前,应用最为成功的语音情感识别系统大多是基于隐马尔科夫模型构造的,如CMU的Kai-Fulee等研制的SPHINX连续语音识别系统,对997个词在有/无文法限制的条件下,识别率分别为96%和82%.IBM构造的Tangora2000词语音识别系统得到95%的识别率.用HMM进行汉语声母、韵母、单音节及连续语音识别,都得到了很好的性能.HMM之所以在语音识别中应用较为成功,主要是它具有较强的对时间序列结构的建模能力.隐马尔科夫模型用概率或统计范畴的理论成功地解决了怎样辨别具有不同参数的短时平稳的信号段,怎样跟踪它们之间的转化等问题.由于语音的信息结构是多层次的,除了语音特征外,它还牵涉音调、能量等超音段信息以及语法、句法等高层次语言结构的信息.HMM的特长还在于:它既可以描述瞬态的(随机过程),又可以描述动态的(随机过程的转移)特性,所以它能利用这些超音段的和语音结构的信息.尽管如此,HMM技术还存在一些缺点,影响了语音识别的能力,所以HMM的改进算法及近年来HMM与ANN构成混合网进行语音识别的研究成为热点,成果引人注目[19].2.3 支持向量机(Support Vector Machine,SVM)是一种以统计学习理论为基础的模式识别算法.它最早作为一种二类分类器被提出[20],在20世纪90年代得到迅速发展和完善.支持向量机其本质可以转化为二次规划问题来求解.而在实际中很多时候面临的是一个多分类的问题.如何将支持向量机推广到多分类的情况中,很多文献都提出了不同的方法.多多类(M-ary)支持向量机即为其中一种,它是多个二分类支持向量机的组合,具有使用向量机数目少,速度快等优点,尤其适用于语音识别实时性要求[21].针对传统的一对一支持向量机算法在预测阶段存在的缺点,可以在分类识别阶段,将得票较低的类别先剔除掉,不用计算由这些类别构成的二分类器的决策函数值,以此提高模型的识别效率.支持向量机在小样本、信噪比较高的情况下有较高的识别效率,但是在大规模样本、噪音环境下的结果就不尽如人意.为了解决这一系列问题,可以采用K最近邻算法先对训练样本进行删减,使分类超平面尽可能简单,进而提高训练速度.删减完成之后再用支持向量机进行后续的训练和识别工作.实验结果表明,经过删减之后,训练样本集和支持向量机的数目都大大减少,支持向量机的训练速度明显加快,同时还保持了较高的识别率[22].不同于HMM,SVM用于语音情感识别时一般采用情感语音信号的全局统计特征作为特征参数,因此较HMM其复杂度更低,且具有小样本分类优势.传统的支持向量机的参数选择往往基于专家建议或经验,或使用默认参数,参数选择的不当会成为制约分类效果的瓶颈之一.因此,国内外学者提出了多种解决方法,如Lin等的模拟退火优化的支持向量机(Simulated Anneling-Support Vector Machine,SA-SVM)以及Samadzadegan等的蚁群算法支持向量机[23](Ant Colony Optimization-Support Vector Machine,ACO-SVM).2.4 高斯混合模型(GMM)在语音信号处理中,研究人员通常用高斯混合模型(GMM)或者拉普拉斯混合模型(Laplacian Mixture Model)[24-29]等复杂模型对语音信号的分布进行拟合.其中,GMM在语音识别[30]、语音情感识别[31]以及说话人识别[32]等领域得到了广泛应用.GMM是语音情感识别中常用的一种识别方法.高斯混合模型(GMM)的优点是可以平滑地逼近任意形状的概率密度函数,每个密度分布可表示出基本声学类,并且模型稳定、参数容易处理.文献[34]在其情感识别试验中使用GMM识别七种情感状态,实验结果表明,GMM的识别率高于采用短时特征矢量与HMM分类器的识别率.使用GMM选取的特征向量对语音进行情感识别实验,结果表明:共振峰对高兴、愤怒能较好的区分;基频相关的参数对悲伤、平静的识别率较高;语速和平均能量对各类情感都具有较好的区别力[30].但GMM的阶数和初值较难确定,特别是阶数很难从理论上推导出来.GMM实验结果显示在生气、高兴、悲伤、恐惧四种语音情感的识别上,总体上比决策树、层次模型和支持向量机有所提高,并且在平均识别率上也取得了良好的识别效果.生气和高兴从维度模型理论分析,在效价维度上属于相反的两类情感,但是换成激活维度的角度进行观察分析,它们同属于高维度情感.正是这种相似和相异所以在识别上难免会带来一定的误识率[31].2.5 决策树(Decision Tree,DT)DT是一种通过分支对源数据依靠其属性进行分类的树型结构[32].决策树是机器学习领域著名的预测模型[33],它是一个类似流程图的树型结构.如图2.决策树的最大的优点就是它可以自学习.在构造一颗决策树时需要解决以下问题:(1)收集大量数据,且数据未分类,而且数据属性必须要标注清楚.(2)设计分类原则,数据需要以何种方式或者用哪些属性进行分类,属性该如何量化.(3)选择分类原则,要保证分类的结果和最终建立的树令人满意,如何选择合适的分类算法是关键.(4)设计分类停止的条件,即使该树的熵的总量最小.分层模型是基于决策树的基础做了改进,将一次分类用到单一的特征属性改为多个属性同时决定的强条件,分类方法则是基于SVM分类器[31].DT的生成实质上是一种贪心算法.它在各个内部节点选择分割属性(即考察变量x1,x2,…,xk)时是顺序完成的.每次分割都依赖于它前一个节点的分割,分割一旦完成就不能回溯修改.但是,DT易于理解和实现,并能清晰地显示属性的重要程度;同时,对于大型的源数据库,DT能在相对较短的时间内生成可行性强而且效果良好的结果.总之,DT是语音情感识别领域一种十分常用的分类方法.2.6 朴素贝叶斯分类器(Naive Bayes Classifier,NBC)NBC是基于贝叶斯定理与特征条件独立假设的分类方法.它是应用非常广泛的一种分类算法[29,34],具有简洁高效的特点.围绕NBC主要有3个重点方向的研究.(1) 贝叶斯网络推理机制.贝叶斯网络推理是指在给定相关节点信息的情况下求出贝叶斯网络中某节点的发生概率.推理方法主要有两种,分别是团树传播算法和变量消元算法.目前更多的研究都集中在团树传播算法上,其中,胡学钢、胡春玲、姚宏亮提出了一种改进的基于邻接树的贝叶斯网络推理算法,实验表明算法具有良好推理性能.(2)贝叶斯网络学习方法的研究.贝叶斯网络学习方法主要有参数学习和结构学习,参数学习相对理论比较成熟,近几年来,结构学习一直都是贝叶斯网络研究的热点与难点.贝叶斯网络结构学习的方法可以分为基于评分搜索法、基于约束的方法这两种.其中基于评分搜索算法又得到更多关注,很多研究人员对如何优化网络结构做出贡献,并且提出了很多新思路、新想法.胡云安、刘振等人提出了一种爬山法与模式蚁群法混合的贝叶斯优化算法,实验表明提出的方法可以加快结构学习的收敛速度和精度.(3)在实际问题领域的研究应用.贝叶斯网络模型学习和推理是一个NP Hard问题,所以,随着网络节点数的增加,运算的时间复杂度也越来越高.正因为此,贝叶斯网络在实际问题领域的应用也遇到了极大的挑战.近年来,很多机构和学者致力于解决NP问题,提出了很多新想法,这也让贝叶斯网络应用于生产环境得以实现.贝叶斯网络以独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性成为近几年来理论研究的热点,被广泛应用于辅助智能决策、模式识别、医疗诊断等领域.在医疗领域,贝叶斯网络对病理分析、病因查找都起着重大作用,在工程领域获得了成功,涌现出很多有价值的医疗系统,其中PATHFINDE医疗系统和CPCSBN远程医疗系统最具代表性.除此之外,贝叶斯网络也在其他领域获得了一定的突破,在信号检测、软件可靠性分析等方面都涌现出许多有价值的应用[35].2.7 混合蛙跳算法(Shuiiled Frog Leaping,SFLA)SFLA是一种全新的启发式群体进化算法,具有高效的计算性能和优良的全局搜索能力.SFLA[36]由Eusuff和Lansey为解决组合优化问题于2003年最先提出.全局信息交换和局部深度搜索的平衡策略使得算法能够跳出局部极值点,向全局最优方向进行[37].标准的SFLA采用个体适应度排序进行种群分割.文献[37]提出了几何分割和随机分割两种模因组的生成方法.针对几个低维和高维Benchmark函数进行分割性能的评估,实验结果表明基于几何分割方法的SFLA具有更好的优化性能[36].SFLA是一种群体智能优化算法,其全局优化性保证了算法可以有效地对解空间进行搜索,不易陷入局部最优,而且算法具有较强的通用性,对问题的具体形式和领域知识依赖性不强,同时其固有的并行性保证了算法能够较快地寻找到最优解或满意解[37]. 针对烦躁、喜悦、愤怒、悲伤、恐惧、惊讶和平静等情感,提取了韵律特征与音质特征,分别采用BP神经网络、RBF神经网络与SFLA神经网络进行学习与识别,发现在相同的测试条件下,SFLA神经网络的平均识别率高于BP神经网络4.7%,高于RBF神经网络4.3%.说明利用SFLA训练随机产生的初始数据优化神经网络学习的权值与阈值,可快速实现网络的收敛,获得较好的学习能力[38].随着人工智能技术和数字信号处理理论的迅速发展,语音情感识别领域涌现出许多模型和算法,比如HMM、SVM、GMM等.但是这些模型的复杂结构导致识别过程通常无法达到实时的效果,因而并不适用于实现实时语音信号的情感分析和识别.然而,由于科学项目研究不断地向实用性靠拢,实时语音信号的研究是大势所趋. 语音信号是语言的声音表现形式,情感是说话人所处环境和心理状态的反映.由于情感信息的社会性、文化性,以及语音信号自身的复杂性,语音情感识别中尚有许多问题需要解决,特别是符合人脑认知结构和认知心理学机理的情感信息处理算法需要进一步的研究和探索[39].用于语音情感识别的分类算法多种多样,寻求更为高效的语音识别分类算法是研究者们追捧的热点.随着对语音情感识别分类算法研究的持续改善,它能够解决的现实问题也越来越多.在今后的研究中,需要进一步探讨混合蛙跳算法与神经网络的结合,特别是在优化神经网络的拓扑结构方面还存在着许多尚未解决的问题.在今后的语音情感识别领域,应进一步扩展Im-SFLA的应用,在人脸表情识别、人脸识别等领域分析Im-SFLA的优缺点.因此,对语音情感识别算法的理论和应用探讨将会一直是机器学习和人工智能中所要研究的重要内容.【相关文献】[1] LITMAN D,FORBES K.Recognizing emotions from student speech in tutoring dialogues[J].IEEE Workshop on Automatic Speech Recognition andUnderstanding,2003:25-30.[2] FRANCE D J,SHIVI R G,SILVERMAN S,et al.Acoustical properties of speech as indicators of depression and sucidal risk [J].IEEE Trans on Biomedical Engieering,2000,47(7):829-837.[3] 金琴,陈师哲,李锡荣,等.基于声学特征的语音情感识别[J].计算机科学,2015,42(9):24-28.[4] GRIMM M,KROSCHEL K,NARAYANAN S.Support vector regression for automatic recognition of spontaneous emotions in speech[J].IEEE Internatinal Conference on Acoustics,2007,4(4):1085-1088.[5] 韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50.[6] EYBEN F,WOLLMER M,GRAVES A,et al.On-line emotion recognition in a 3-D activation-valence-time continuum using acoustic and linguistic cues[J].Journal on Multimodal User Interfaces,2010,3(1/2):7-19.[7] GIANNAKOPOULOD T,PIKRAKIS A,THEODORIDIS S.A dimensional approach to emotion recognition of speech from movies[J].IEEE International Conference on Acooustics,2009:65-68.[8] WU D R,PARSONS T D,MOWER E,et al. Speech emotion estimation in 3d spaces[J].IEEE International Conference on Multimedia and Expo,2010,26(2):737-742.[9] KARADOGAN S G,LARSEN bining semantic and acoustic feature for valence and arousal recognition in speech[J].International Workshop on Cognitive Information Processing,2012,12:1-6.[10]吴楠.基于主动学习的语音情感识别研究[D].天津:天津师范大学,2012.[11]NICHOLSON J,TAKAHASHI K,NAKATSU R.Emotion Recognition in Speech Using Neural Network[J].Neutral Computing and Application,2000,9(4):90-96.[12]张震南.人工神经网络技术在语音识别中的应用[J].甘肃科技纵横,2008,37(4).[13]SCHULLER B,RIGOLL G,LANG M.Hidden Markov model-based speech emotion recognition[J]. International Conference on Multimedia & Expo,SignalProcessing,2003,1:401-404.[14]赵力.语音信号处理[M].北京:机械工业出版社,2004.[15]JELINEK F.Continous Speech Recognition by Statistical Methods[J].Proceedings of IEEE,1976,64(4):532-536.[16]JELINEK F.BAHL L M R.Design of a Linguistic statistical Decoder for the Recognition ofContinuous Speech[J].IEEE Trans on Information Theay,1975,21(3):250-256.[17]NOGUEIRAS A,MORENO A,BONAFONTE A,et al.Speech Emotion Recognition Using Hidden Markov Models[J].Eurospeech,2001,41(3):2779-2682.[18]胡洋,蒲南江,吴黎慧,等.基于HMM和ANN的语音情感识别研究[J].电子测试,2011,8(8):33-87.[19]段红梅,汪军,马良河,等.隐马尔科夫模型在语音识别中的应用[J].工科数学,2002,18(6):16-18.[20]刘佳.语音情感识别的研究与应用[D].杭州:浙江大学,2009.[21]刘潇营,郑郁正,李国良.多类支持向量机在语音识别中的应用[J].成都信息工程学院学报,2010,25(1):13-17.[22]何小萍.改进的支持向量机分类算法在语音识别中的应用研究[D].太原:太原理工大学,2013.[23]SAMADZADEGAN F,HASANI H,SCHENK T.Simultaneous feature selection and SVM parameter determination in classification of hyperspectral imagery using ant colony optimization[J].Canadian Journal of Remote Sensing,2012,38(2):139-156.[24]GARCIA-GUINEA J,FURIO M,et al.Robust Speech Recognition in Additive and Channel Noise Environments using GMM and EM Algorithm[J].IEEE International Conference on Acoustics,2004,1:941-944.[25]LEE W,RON Y,KIM D,et al.Speech Emotion Recogtion usingSpectralEntropy[J].International Conference on Intelligent Robotics andApplications,2008,5315:45-54.[26]REYNOLDS,D A,ROSE R.C.Robust Text-independent Speaker Indentification using Gaussian mixture Speaker Models[J].IEEE Transaction on Speech,Audio and Processing,1995,3(1):72-83.[27]TORRES-CARRASQUILLO P A,SINGER E,KOHLER M A,et al.Approaches to Language Identificaition using Gaussian Mixture Models and Shifted Delta CepstralFeatures[J].International Conference on Spoken Language Processing,2002:89-92.[28]PICARD R W.Affective Computing [M].Cambringe:MIT Press,1997.[29]TOTH L,KOCSOR A,CSIRIK J.On Naive Bayes in Speech Recognition[J].Journal of Trauma,2005,64(6):86-93.[30]顾鸿虹.基于高斯混合模型的语音情感识别研究与实现[D].天津:天津师范大学,2009.[31]蔡桂林.高斯混合模型用于语音情感识别研究[D].桂林:广西师范大学,2016.[32]EUSUFF M M,LANSEY K E.Optimization of water distribution network design using the shuffled frog leaping algorithm[J].Journal of Water Resources Planning and Management,2003,129(3):210-225.[33]Rahimi-Vahed A,MIRZAEI A H.A hybrid multi-objective shuffled frog-leaping algorithm for a mixed-model assembly line sequencing problem[J].Computers and Industrial Engineering,2007,53(4):642-666.[34]RISH,I. An Empirical Study of the Naive Bayes Classifier[J].Journal of Chirersal Computer Science,2007(2):127.[35]黄金龙.基于贝叶斯网络的语音情感识别[D].广州:华南理工大学,2014.[36]余华,黄程韦,张潇丹,等.混合蛙跳算法神经网络及其在语音情感识别中的应用[J].南京理工大学学报,2011,35(5):659-663.[37]KASHTIBAN M A,AHANDANI M A.Various strategies for partitioning of memeplexes in shuffled frog leaping algorithm[J].Computer Conference,2009:576-581.[38]HU Hao,XU Mingxing,WU Wei.GMM super vector based SVM with spectral features for speech emotion recognition[J].IEEE International Conference on Acoustics,2007,4:413-416.[39]蔡伟建.人工神经网络理论在语音识别技术中的应用[J].仪器仪表学报,2010,31(8):113-116.。
软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn Journal of Software,2014,25(1):37−50 [doi: 10.13328/j.cnki.jos.004497] http://www.jos.org.cn ©中国科学院软件研究所版权所有. Tel/Fax: +86-10-62562563
语音情感识别研究进展综述∗ 韩文静1, 李海峰1, 阮华斌2, 马 琳1 1(哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001)
2(清华大学 计算机科学与技术系,北京 100084)
通讯作者: 韩文静, E-mail: hanwenjing07@gmail.com
摘 要: 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析. 关键词: 人机交互;情感计算;情感描述模型;情感语音库;情感声学特征;语音情感识别 中图法分类号: TP391 文献标识码: A
中文引用格式: 韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述.软件学报,2014,25(1):37−50. http://www.jos.org.cn/ 1000-9825/4497.htm
英文引用格式: Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014,25(1):37−50 (in Chinese). http://www.jos.org.cn/1000-9825/4497.htm
Review on Speech Emotion Recognition HAN Wen-Jing1, LI Hai-Feng1, RUAN Hua-Bin2, MA Lin1 1(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
Corresponding author: HAN Wen-Jing, E-mail: hanwenjing07@gmail.com
Abstract: This paper surveys the state of the art of speech emotion recognition (SER), and presents an outlook on the trend of future SER technology. First, the survey summarizes and analyzes SER in detail from five perspectives, including emotion representation models, representative emotional speech corpora, emotion-related acoustic features extraction, SER methods and applications. Then, based on the survey, the challenges faced by current SER research are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, and presents detailed comparison and analysis between these methods. Key words: human-computer interaction; affective computing; emotion representation model; emotional speech corpora; emotion-related acoustic feature; speech emotion recognition
人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然
∗ 基金项目: 国家自然科学基金(61171186, 61271345); 语言语音教育部微软重点实验室开放基金(HIT.KLOF.2011XXX); 中央高校基本科研业务费专项资金(HIT.NSRIF.2012047) 收稿时间: 2013-05-08; 定稿时间: 2013-09-02; jos在线出版时间: 2013-11-01 CNKI网络优先出版: 2013-11-01 13:49, http://www.cnki.net/kcms/detail/11.2560.TP.20131101.1349.001.html 38 Journal of Software 软件学报 Vol.25, No.1, January 2014
人机交互界面的关键前提,具有很大的研究价值和应用价值. 语音情感识别研究的开展距今已有30余年的历史,在此期间,它得到了世界范围内相关研究者们的广泛关注,也取得了一些令人瞩目的成绩,但同时也面临着诸多问题的考验与挑战.本文将立足于语音情感识别研究领域的已有成果,对领域内的研究进展进行总结,并对未来的技术发展趋势加以展望. 一般说来,语音情感识别系统主要由3部分组成:语音信号采集、情感特征提取和情感识别,系统框图如图1所示.语音信号采集模块通过语音传感器(例如,麦克风等语音录制设备)获得语音信号,并传递到下一个情感特征提取模块对语音信号中与话者情感关联紧密的声学参数进行提取,最后送入情感识别模块完成情感的判断.需要特别指出的是,一个完整的语音情感识别系统除了要完善上述3部分以外,还离不开两项前期工作的支持:(1) 情感空间的描述;(2) 情感语料库的建立.情感空间的描述有多重标准,例如离散情感标签、激励-评价-控制空间和情感轮等,不同的标准决定了不同的情感识别方式,会对情感语料的收集标注、识别算法的选择都产生影响.情感语料库更是语音情感识别研究的基础,负责向识别系统提供训练和测试用语料数据.国内外相关研究根据研究者的出发点不同会各有侧重,但归根结底都可以涵盖到上述5个关键模块之中.
Fig.1 Framework of a standard speech emotion recognition system 图1 语音情感识别系统框图
因此,本文将首先对语音情感识别接近40年的发展历程进行简要的回顾,然后从情感描述模型、情感语音数据库、语音情感相关声学特征提取、语音情感识别算法、语音情感识别技术应用这5个角度对当前的语音情感识别技术主流方法和前沿进展进行系统的总结和分析,最后给出技术挑战与展望.
1 语音情感识别历史回顾 最早的真正意义上的语音情感识别相关研究出现在20世纪80年代中期,它们开创了使用声学统计特征进行情感分类的先河[1,2].紧接着,随着1985年Minsky教授“让计算机具有情感能力”观点的提出,以及人工智能领
域的研究者们对情感智能重要性认识的日益加深,越来越多的科研机构开始了语音情感识别研究的探索. 在20世纪80年代末至90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采集,综合使用人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应[3];1999年,Moriyama提出语音和情感之间的线性关联模型,并据此在电子商务系统
中建造出能够识别用户情感的图像采集系统语音界面,实现了语音情感在电子商务中的初步应用[4].整体而言,
语音情感识别研究在该时期仍旧处于初级阶段,语音情感识别的研究主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,虽然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论和研究方法. 进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快.2000年,在爱尔兰召开的ISCA Workshop on Speech and Emotion国际会议第1次把致力于情感和语音研究的学者聚集在一起.近年来,先后又有若干以包括语音情感计算在内的情感计算为主题的会议和期刊被创立,并得到了世界范围内的注目,其中较为著名的有:始于2005年的Affective Computing and Intelligent Interaction双年会,始于2009年的INTERSPEECH Emotion Challenge年度竞赛,创刊于2010年的《IEEE Transactions on Affective Computing》期刊以及始于2011年的International
自然语音语音信号采集情感特征提取数字语音信号识别结果情感识别语音情
感特征
情感空间描述模型语料库