语音情感识别
- 格式:ppt
- 大小:988.50 KB
- 文档页数:54
结合数据平衡和注意力机制的CNN+LSTM 的自然语音情感识别①陈 港1, 张石清2, 赵小明1,21(浙江理工大学 机械与自动控制学院, 杭州 310018)2(台州学院 智能信息处理研究所, 台州 318000)通讯作者: 赵小明摘 要: 为了解决语音情感识别中数据集样本分布不平衡的问题, 提出一种结合数据平衡和注意力机制的卷积神经网络(CNN)和长短时记忆单元(LSTM)的语音情感识别方法. 该方法首先对语音情感数据集中的语音样本提取对数梅尔频谱图, 并根据样本分布特点对进行分段处理, 以便实现数据平衡处理, 通过在分段的梅尔频谱数据集中微调预训练好的CNN 模型, 用于学习高层次的片段语音特征. 随后, 考虑到语音中不同片段区域在情感识别作用的差异性, 将学习到的分段CNN 特征输入到带有注意力机制的LSTM 中, 用于学习判别性特征, 并结合LSTM 和Softmax 层从而实现语音情感的分类. 在BAUM-1s 和CHEAVD2.0数据集中的实验结果表明, 本文提出的语音情感识别方法能有效地提高语音情感识别性能.关键词: 卷积神经网络; 长短时记忆单元; 注意力机制; 语音情感识别引用格式: 陈港,张石清,赵小明.结合数据平衡和注意力机制的CNN+LSTM 的自然语音情感识别.计算机系统应用,2021,30(5):269–275./1003-3254/7917.htmlNatural Speech Emotion Recognition by Integrating Data Balance and Attention Mechanism Based on CNN+LSTMCHEN Gang 1, ZHANG Shi-Qing 2, ZHAO Xiao-Ming 1,21(Faculty of Mechanical Engineering & Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China)2(Institute of Intelligent Information Processing, Taizhou University, Taizhou 318000, China)Abstract : In order to solve the problem of unbalanced sample distribution in a dataset in Speech Emotion Recognition (SER), this study proposes a SER method combining a Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) units with data balance and an attention mechanism. This method first extracts the log-Mel spectrogram from the samples in a speech emotion dataset and devides the sample distribution into segments according to sample distribution for balance. Then, this method fine-tunes the pre-trained CNN model in the segmented Mel-spectrum dataset to learn high-level speech segments. Next, given the differences in the emotion recognition of different segments in speech, the learned segmented CNN features are input into the LSTM with an attention mechanism for learning discriminative features, and speech emotions are classified with LSTM and Softmax layers. The experimental results in the BAUM-1s and CHEAVD2.0 datasets show that the method proposed in this study has much better performance than conventional methods.Key words : Convolutional Neural Network (CNN); Long Short-Term Memory (LSTM) unit; attention mechanism; speech emotion recognition计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: Computer Systems & Applications,2021,30(5):269−275 [doi: 10.15888/ki.csa.007917] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 国家自然科学基金 (61976149); 浙江省自然科学基金 (LZ20F020002)Foundation item: National Natural Science Foundation of China (61976149); Natural Science Foundation of Zhejiang Province (LZ20F020002)收稿时间: 2020-09-23; 修改时间: 2020-10-21; 采用时间: 2020-10-28; csa 在线出版时间: 2021-04-28269人类的语言不仅包含了丰富的文本信息, 同时也携带着包含人们情绪表达的音频信息, 如语音的高低、强弱、抑扬顿挫等变化. 如何让计算机从语音信号中自动识别出说话人的情感状态, 即所谓的“语音情感识别”方面的研究, 已成为人工智能、模式识别、情感计算等领域中的一个热点研究课题. 该研究旨在让计算机通过分析说话人的语音信号对用户的情感信息进行获取、识别和响应, 从而实现用户与计算机之间的交互更加和谐与自然. 该研究在智能人机交互、电话客服中心、机器人等方面具有重要的应用价值.目前, 在语音情感识别领域中, 大量的前期工作[1–4]主要是针对模拟情感而进行的, 因为这种模拟情感数据库的建立相对自然情感而言, 要容易得多. 近年来,针对实际环境下的自然语音情感识别方面的研究备受研究者的关注, 因为它更接近实际, 而且比模拟情感的识别要困难得多.语音情感特征提取, 是语音情感识别中的一个关键步骤, 其目的是从情感语音信号中提取能够反映说话人情感表达信息的特征参数. 目前, 大量语音情感识别文献[5–10]采用手工设计的特征用于情感识别, 如韵律特征(基频、振幅、发音持续时间)、音质特征(共振峰、频谱能量分布、谐波噪声比), 谱特征(梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC))等. 近年来, 也出现了一些代表性的包含几千个手工设计特征的声学特征集, 如Interspeech-2010特征集[11], ComParE特征集[12], AVEC-2013特征集[13]以及GeMAPS特征集[14]. 尽管这些手工设计的特征参数已经取得了较好的语音情感识别性能, 但它们是低层次的, 对于情感的判别力还不够高, 与人类理解的情感标签还存在“语义鸿沟”问题.为了解决这个问题, 近年来新出现的深度学习技术[15]可能提供了线索. 近年来, 一些代表性的深度学习方法, 如深度信念网络(Deep Belief Network, DBN)[15]、卷积神经网络(Convolutional Neural Networks, CNN)[16]和长短时记忆单元(Long Short-Term Memory, LSTM)[17]都已经用于语音情感识别. 当使用深度学习方法时, 其输入一般为手工设计的声学特征参数, 或者原始的语音频谱. 例如, 文献[18]采用DBN直接从提取的MFCC 等声学特征参数中提取高层次的属性特征, 然后使用极限学习机(Extreme Learning Machine, ELM)实现情感的分类任务. 文献[19–22]也开始成功使用CNN从原始的语音频谱中提取出合适的特征参数用于语音情感识别. 例如, 文献[19]采用稀疏自动编码器和1层CNN结构的方法从原始的语音频谱中学习情感语音特征.值得指出的是, 文献[19–21]采用样本数量非常有限的情感语音数据集来训练自己的浅层CNN模型(1或2个卷积层). 然而, 在计算机视觉领域, 利用已训练好的深度CNN模型, 如AlexNet[16], 在目标图像数据集进行迁移学习往往取得比浅层CNN模型更好的性能. 主要原因是, 深度CNN模型可以通过采用多层的卷积和池化操作来捕获图像的高层属性特征. 为了充分发挥深度CNN模型的优势, 我们之前的一个工作[22]提出将一维的情感语音信号转换成类似于RGB图像的三通道语音频谱片段作为深度CNN模型的输入, 然后将在ImageNet图像数据集已训练好的AlexNet模型在目标语音情感数据集进行跨模态的迁移学习, 取得了比浅层CNN模型更好的语音情感识别性能. 此外,文献[23]提出一种多尺度的CNN+LSTM的混合深度学习模型, 获得了较好的语音情感性能.然而, 现有基于深度学习方法的语音情感识别研究存在一些问题:(1)没有考虑语音数据集客观存在的情感类别不平衡问题, 即数据集中各种情感类型的样本数量极不均衡. 在这种数据类别不平衡的情况下, 深度学习方法训练时对样本少的情感类型容易出现过拟合的现象.(2)语音信号是一种时间序列信号, 但不同时间上的片段区域对情感识别的作用大小是不一样的. 现有文献大都忽略了一句语音中不同片段区域在情感识别方面作用的差异性, 从而限制了深度学习方法的特征表征能力. 因此, 有必要将人类视觉注意力机制(attention mechanism)与深度学习方法相结合[24,25], 用于语音情感识别的特征学习.针对上述问题, 本文提出一种结合数据平衡和注意力机制的CNN+LSTM的语音情感识别方法, 并且用于自然语音情感类型的识别. 首先, 采用欠采样和过采样的方式实现情感语音数据集中的样本片段数量的类别平衡. 所谓欠采样是在多数类中的语音样本进行部分采样, 而过采样是在少数类中的语音样本进行部分重复采样. 其次, 采用在大规模音频数据集上已训练好的VGGish[26]模型在目标语音情感数据集上进行迁移学习. 最后, 通过对VGGish学习到的一句语音中不计算机系统应用2021 年 第 30 卷 第 5 期270同的片段特征区域, 生成时间分布上的权重, 然后和特征图进行加权求和运算, 从而监督双向LSTM 网络(Bi-LSTM)的学习, 以便给一句语音中不同片段特征区域分配不同的注意力权重值. 这样, 该方法能够聚焦于一句语音中对情感识别起作用的目标片段区域的特征学习, 从而改善深度神经网络的特征表征能力, 进一步提高语音情感识别性能.在自然情感语音数据库BAUM-1s [27]和CHEAVD-2.0[28]的试验结果表明, 本文方法取得的语音情感识别性能优于其它方法.1 提出的方法图1给出了结合数据平衡和注意力机制的CNN+LSTM 的语音情感识别方法的系统流程图. 由图1所示, 该方法包括4个步骤: (1)对数梅尔频谱(Log Mel-spectrogram)的创建和数据平衡(data balance); (2)基于CNN 的深度片段特征学习; (3)基于注意力机制的Bi-LSTM 的情感分类. 图1中每个步骤的实现, 具体如下所述.帧数滤波器组数据注意力层情感类别情感类别全连接层SoftmaxConv1Conv2Pool1Pool2FC Layer 平衡对数梅尔频谱图………VGGish ModelBi-LSTMLSTMLSTM数据平衡生气高兴厌恶悲伤害怕惊奇图1 结合数据平衡和注意力机制的CNN+LSTM 的语音情感识别方法1.1 对数梅尔频谱的创建和数据平衡对原始的一维情感语音信号重采样为16 kHz 的单声道格式, 然后采用帧移为10 ms, 时长为25 ms 的汉宁窗进行短时傅里叶变换, 计算出整句语音信号的声谱图. 将声谱图映射到64阶Mel 滤波器组(Filter banks)中计算出Mel 声谱并取对数, 得到稳定的对数Mel 频谱.考虑到用于后续特征学习的VGGish [26]模型输入的片段大小是96×64, 其时长为0.96 s (含96帧, 每帧0.01 s), 因此需要通过控制时长进行欠采样或重采样, 以便实现训练数据的平衡. 图2和图3分别给出了BAUM-1s 和CHEAVD2.0上的数据平衡示意图.高兴, 悲伤生气, 厌恶害怕, 惊奇时长<0.96 s0.96 s0.96 s0.96 s0.48 s0.24 s0.75 s 0.75 s数据平衡 (BAYM-1s)图2 BAUM-1s 数据集上的数据平衡中性生气, 高兴,悲伤, 担心厌恶, 惊奇焦虑时长<0.96 s0.96 s0.96 s 0.96 s 0.48 s0.24 s0.75 s 0.75 s0.96 s0.96 s 0.96 s数据平衡 (CHEA VD2.0)图3 CHEAVD2.0数据集上的数据平衡如图2, 图3所示, 由于数据集中的每个语音样本的时长是不同的, 然而模型的输入大小是固定的, 因此使用数据平衡方法对输入的语音样本进行规范化处理,数据平衡的实现分为3种情况: (1)对于时长小于0.96 s (时长<0.96 s)的语音样本, 在其后面进行重复补值为零的帧, 从而得到一个时长为0.96 s 的片段, 即含有96帧的对数梅尔频谱图; (2)对于时长大于0.96 s 的语音样本, 会根据其所属类别的样本总数占数据集总样本数的比例的多少进行欠采样或重采样. 例如, 对于BAUM-1s 上类别样本数量较多的高兴(Joy)和悲伤(Sadness)的语音样本采用欠采样方式减少片段数,即只在它们的首尾段处各取一个0.96 s 的片段, 而对于样本数量不多的语音样本采用重采样方式进行片段数的放大. 对于样本数最少的害怕(Fear)和惊奇(Surprise)语音样本, 片段重叠长度为0.24 s, 而样本数较少的生气(Anger)和厌恶(Disgust), 其片段重叠长度为0.48 s. 数据平衡中产生的片段样本的类别等于其所在整句语音的情感类别. 表1和表2分别列出了采用数据平衡前后在BAUM-1s 和CHEAVD2.0训练数据集上的各种情感类型的样本片段数量的对比. 由表1和表2可知, 在数据平衡之前, 每个类别的样本数量差异较大, 如害怕(Fear)和惊奇(Surprise)类别的语音样本数量, 与其他类别的样本数量相差较大, 在数据平衡之后, 数据集中的每个类别的样本数量达到一种近似的数据平衡状态, 从而能训练出更具鲁棒性的网络模型. 作为举例, 由于BAUM-1s2021 年 第 30 卷 第 5 期计算机系统应用271包含30人, 实验时采用5次交叉验证方法, 即所有数据平均分成5组, 使用其中一组用于测试, 剩下的4组用于训练, 共循环5次, 最后取5次的平均结果作为最终的结果. 因此, 表1只列出了第一次交叉验证时的数据平衡前后结果, 其中测试数据包含随机选择的6人(S03、S19、S20、S24、S28、S29).表1 BAUM-1s 数据平衡前后的训练数据样本片段数量比较数据平衡生气厌恶害怕高兴悲伤惊奇平衡前1442689349148783平衡后314522326405345309表2 CHEAVD2.0数据平衡前后的训练数据样本片段数量比较数据平衡生气焦虑厌恶高兴中性悲伤惊奇担心平衡前309617984702597523324334682345平衡后309633521663259727772433158023451.2 基于CNN 的深度片段特征学习目前, 在计算机视觉领域, 文献[29,30]已经证明在目标数据集上对预先训练好的CNN 模型进行微调(Fine-tuning), 是一种有效的减轻数据不足的方法. 具体的实现方式为首先通过一个大型的数据集来训练网络模型, 由于网络模型的参数初始化对于模型的训练是至关重要的, 因此由大型数据集训练完成保存的模型参数可用于初始化目标任务的模型参数. 如文献[30]首先使用Imagenet 数据集训练网络模型, 完成训练后,将模型的最后一个全连接层之前的所有参数迁移到目标任务中的模型, 以此进行目标任务模型的参数初始化. 为此, 采用在大规模音频数据集上已训练好的VGGish [26]模型在目标语音情感数据集上进行迁移学习.VGGish 是由Google 的语音理解技术团队于2017年3月发布的一个在大规模音频数据集训练得到类似于VGG 的模型, 旨在为音频事件检测提供常见的大规模评估任务. 该模型包括6个卷积层(Conv1,Conv2,···, Conv6)、4个最大池化层(Pool1, Pool2,Pool2, Pool3, Pool4)和4个全连接层(FC1, FC2, FC3,FC4). VGGish 的训练数据来自于包括600多个音频事件类的本体的200万个人标记的10 s YouTube 视频音轨组成的数据集. VGGish 能够从原始的语音信号片段96×64中提取高层次的128-D 大小的特征向量.a i 给定第i 个输入片段数据及其对应的情感类别y i , 对预训练好的VGGish 网络(V )进行微调, 则相当于求解下面的最优化问题:ΥV (a i ;θV )V θV W V 式中, 表示网络的最后一个全连接层的输出特征, 表示网络V 的网络参数, 表示网络V 的Softmax 层的权重参数. 损失函数L 则表示为:y j y V j 式中, 表示第j 个语音片段样本真实的类别号, 表示网络V 的Softmax 层所预测的第j 个样本类别号,t 表示情感类别数目.1.3 基于注意力机制的Bi-LSTM 的情感分类为了获取一句语音的长时间动态信息, 采用基于注意力机制的双向长短时记忆网络(Bi-LSTM)对CNN 在不同语音频谱片段上学习到的128-D 特征序列进行时间上的动态信息建模, 并输出整句语音样本的情感识别结果.(p 1,p 2,···,p T )给定一个时间长度为T 的输入序列(x 1, x 2, ···x T ),Bi-LSTM 旨在通过计算网络节点激活函数的输出,将输入序列(x 1, x 2, ···x T )映射到一个输出序列,如下所示:i t f t c t σt h t x t h t t W αβαβW xi x t i t b ασσ(x )=1/(1+e −x )式中, 、、、、分别是LSTM 模型中的输入门、忘记门、细胞存储单元和输出门的激活输出向量.和分别表示第个时间步长的输入向量和隐层向量.表示和之间的权重矩阵. 例如, 是从输入到输入门的权重矩阵. 是的偏置值, 表示Sigmoid 激活函数.为了采用视觉注意力机制获取需要聚焦的重点语音片段区域, 并抑制其他无用的信息, 拟在 Bi-LSTM 的基础上添加一个注意力层(attention layer). 该注意力层首先采用式(8), 计算出不同时间序列片段特征的权重参数, 然后采用式(9)对不同片段特征进行加权求计算机系统应用2021 年 第 30 卷 第 5 期272µ和, 得到整句语音的特征表示, 紧接着就可以采用2 实验与结果分析为了检验所提出方法的自然语音情感识别性能,采用自然情感语音数据集BAUM-1s[27]和CHEAVD2.0[28]进行自然语音情感识别的实验测试.2.1 数据集BAUM-1s[27]数据集是一个在2016年建立的音视频情感数据集. 它包括1222个视频样本, 来自于30个土耳其人. 实验中拟采用6种基本情感进行测试, 即生气(Anger)、厌恶(Disgust)、害怕(Fear)、高兴(Joy)、悲伤(Sadness)和惊奇(Surprise). 这样, 最终收集到520个情感语音样本用于实验测试.CHEAVD2.0[28]是中科院自动化所在2017年为多模态情感识别竞赛时提供的音视频情感数据集. 它包含8种情感类型: 生气(Anger)、厌恶(Disgust)、害怕(Fear)、高兴(Joy)、悲伤(Sadness)、惊奇(Surprise)、担心(Worry)和焦虑(Anxiety). 该数据集共有7030个样本, 分为3部分: 训练集(4917个样本)、验证集(707个样本)和测试集(1406个样本). 本文使用训练集和验证集来检验所提出方法的自然语音情感识别性能, 因为测试集只对参加竞赛者开放和获取.2.2 结果分析表3和表4分别列出了本文方法采用数据平衡前后的试验结果的比较. 从表3和表4可见:(1)不管是否采用数据平衡策略, 本文采用的带注意力机制方法(VGGish+LSTM+Attention)取得的语音情感识别性能, 都要优于未带注意力机制方法(VGGish+ LSTM). 这表明采用注意力机制能够改善LSTM的特征表征能力, 因为注意力机制能够聚焦于一句语音中对情感识别起作用的目标片段区域的特征学习.(2)做数据平衡之后, 所有方法取得的识别性能都要明显高于数据平衡之前的结果. 在数据平衡之前, 本文方法(VGGish+LSTM+Attention)在BAUM-1s和CHEAVD2.0数据集分别取得了44.09%和41.73%. 然而, 在数据平衡之后, 本文方法则分别在BAUM-1s和CHEAVD2.0数据集上提高了3.18%和2.05%. 这说明采用数据平衡策略能够进一步改善深度学习方法的特征学习能力.表3 数据平衡之前的语音情感识别性能(%)方法BAUM-1s CHEAVD2.0 VGGish+LSTM43.1439.89 VGGish+LSTM+注意力44.0941.37表4 数据平衡之后的语音情感识别性能(%)方法BAUM-1s CHEAVD2.0 VGGish+LSTM45.7842.29 VGGish+LSTM+注意力47.2743.42为了进一步给出每种情感类型的具体正确识别率,图4和图5分别列出了本文方法(VGGish+LSTM+ Attention)在数据平衡之后的两个数据集上识别结果的模糊矩阵. 由图4可知, 在数据平衡之后的BAUM-1s数据集上, 高兴(Joy)和悲伤(Sadness)的正确识别率分别达到了64.53%和61.19%, 而其它4种情感类别的识别性能较差, 不足40%. 由图5可知, 在数据平衡之后的CHEAVD2.0数据集上, 生气(Anger)和中性(Neutral)的正确识别率分别达到了65.62%和64.5%,而其它6种情感类型的正确识别率都不足45%. 主要原因可能是这些情感类型学习到的特征表征区分度不高, 导致它们相互之间容易混淆.35.717.505.4111.0510.454.8810.7125.008.116.986.724.881.792.5016.221.742.992.4421.4330.0035.1464.5314.1839.0230.3628.7535.1410.4761.1926.830.006.250.005.234.4821.95预测标签生气生气厌恶害怕高兴悲伤惊奇605040302010图4 本文方法在数据平衡之后的BAUM-1s数据集上识别结果的模糊矩阵为了进一步说明本文方法的优越性, 表5列出了本文方法取得的识别结果与其它现有文献报道结果之间的比较. 从表5可知, 本文方法不仅优于一些采用手工特征的方法, 如MFCC[27], GeMAPS ADDIN EN.2021 年 第 30 卷 第 5 期计算机系统应用273CITE.DATA [28– 31], 也优于一些基于深度卷积神经网络CNN 的方法, 如采用AlexNet 的跨模态迁移方法[22,32]. 以及与含有20层的ResNet 网络的自训练网络方法[33]获得的准确率相近.68.7542.4242.8621.8516.0013.4340.0018.523.1216.670.001.681.001.494.006.170.001.520.000.841.000.04.001.23 3.9112.1223.8136.1311.504.4812.0013.5811.7212.1223.8126.8956.0022.3920.0022.227.811.520.003.362.0043.280.007.41 1.561.524.762.521.502.998.03.703.1212.124.766.7211.0011.9412.027.16生气生气焦虑厌恶高兴中性悲伤惊奇担心厌恶焦虑高兴中性担心悲伤惊奇预测标签6050403020100图5 本文方法在数据平衡之后的CHEAVD2.0数据集上识别结果的模糊矩阵表5 与现有文献报道的结果比较数据集文献特征识别率(%)BAUM-1sZhalehpour S [27]MFCC 29.41Zhang S [22]CNN42.46Ma Y [32]CNN42.38本文方法CNN+LSTM+注意力+数据平衡47.27CHEAVD2.0Li Y [28]GeMAPS 39.90Xi YX[33]CNN(ResNet)43.96Miao HT[31]GeMAPS40.31本文方法CNN+LSTM+注意力+数据平衡43.423 结论与展望本文提出了一种结合数据平衡和注意力机制的卷积神经网络(CNN)和长短时记忆单元(LSTM)的语音情感识别方法, 采用数据平衡方法对语音情感数据集中每个类别的样本进行相应的预处理, 再采用预训练好的VGGish 网络在目标数据集上进行微调, 从而学习出分段语音特征, 再通过带有注意力机制的LSTM 从分段语音特征中学习对应的高阶判别性特征, 最后通过Softmax 层进行情感分类. 本文在两个自然语音情感数据集BAUM-1s 和CHEAVD2.0中的实验证明了提出的语音情感识别方法有较好的识别性能. 由于本文提出的网络模型的训练方式并不是端到端的训练方式, 因此, 在未来的工作中, 希望能以端到端的方式训练网络模型; 由于高阶注意力生成的全局性特征更具表达力, 并能辅助网络模型对语音信息长范围的相关性进行建模, 因此, 在未来的工作中, 希望能将二阶注意力机制或更高阶的注意力机制与现有的网络模型进行结合, 以学习出更具判别性的语音情感特征.参考文献韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综述. 软件学报, 2014, 25(1): 37–50. [doi: 10.13328/ki.jos.004497]1张石清, 李乐民, 赵知劲. 人机交互中的语音情感识别研究进展. 电路与系统学报, 2013, 18(2): 440–451, 434.2Schuller BW. Speech emotion recognition: Two decades in a nutshell, benchmarks, and ongoing trends. Communications of the ACM, 2018, 61(5): 90–99. [doi: 10.1145/3129340]3Akçay MB, Oğuz K. Speech emotion recognition: Emotional models, databases, features, preprocessing methods,supporting modalities, and classifiers. Speech Communication, 2020, 116: 56–76. [doi: 10.1016/j.specom.2019.12.001]4Song P. Transfer linear subspace learning for cross-corpusspeech emotion recognition. IEEE Transactions on Affective Computing, 2019, 10(2): 265–275. [doi: 10.1109/TAFFC.2017.2705696]5Demircan S, Kahramanli H. Application of fuzzy C-means clustering algorithm to spectral features for emotion classification from speech. Neural Computing and Applications, 2018, 29(8): 59–66. [doi: 10.1007/s00521-016-2712-y ]6Zhao XM, Zhang SQ. Spoken emotion recognition via locality-constrained kernel sparse representation. Neural Computing and Applications, 2015, 26(3): 735–744. [doi: 10.1007/s00521-014-1755-1]7Gharavian D, Sheikhan M, Nazerieh A, et al . Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network. Neural Computing and Applications, 2012, 21(8): 2115–2126.8Zhang ZX, Coutinho E, Deng J, et al . Cooperative learning and its application to emotion recognition from speech.IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1): 115–126.9朱菊霞, 吴小培, 吕钊. 基于SVM 的语音情感识别算法. 计算机系统应用, 2011, 20(5): 87–91. [doi: 10.3969/j.issn.1003-3254.2011.05.019]10Kayaoglu M, Eroglu Erdem C. Affect recognition using key frame selection based on minimum sparse reconstruction.Proceedings of the 2015 ACM on International Conference11计算机系统应用2021 年 第 30 卷 第 5 期274on Multimodal Interaction. Seattle, WA, USA. 2015.519–524.Schuller B, Steidl S, Batliner A, et al . The INTERSPEECH 2013 computational paralinguistics challenge: Social signals,conflict, emotion, autism. INTERSPEECH 2013: 14th Annual Conference of the International Speech Communication Association. Lyon, France. 2013. 148–152.12Valstar M, Schuller B, Smith K, et al . AVEC 2013: The continuous audio/visual emotion and depression recognition challenge. Proceedings of the 3rd ACM International Workshop on Audio/Visual Emotion Challenge. Barcelona,Spain. 2013. 3–10.13Eyben F, Scherer KR, Schuller BW, et al . The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing. IEEE Transactions on Affective Computing, 2016, 7(2): 190–202. [doi: 10.1109/TAFFC.2015.2457417]14Hinton GE, Salakhutdinov RR. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786):504–507. [doi: 10.1126/science.1127647]15Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep convolutional neural networks.Proceedings of the 25th International Conference on Neural Information Processing Systems. Siem Reap, Cambodia.2012. 1097–1105.16Hochreiter S, Schmidhuber J. Long short-term memory.Neural Computation, 1997, 9(8): 1735–1780. [doi: 10.1162/neco.1997.9.8.1735]17Han K, Yu D, Tashev I. Speech emotion recognition using deep neural network and extreme learning machine. 15th Annual Conference of the International Speech Communication Association. Singapore. 2014. 223–227.18Mao QR, Dong M, Huang ZW, et al . Learning salient features for speech emotion recognition using convolutional neural networks. IEEE Transactions on Multimedia, 2014,16(8): 2203–2213. [doi: 10.1109/TMM.2014.2360798]19Trigeorgis G, Ringeval F, Brueckner R, et al . Adieu features?End-to-end speech emotion recognition using a deep convolutional recurrent network. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai, China. 2016. 5200–5204.20Huang CW, Narayanan SS. Deep convolutional recurrent neural network with attention mechanism for robust speech emotion recognition. 2017 IEEE International Conference on Multimedia and Expo (ICME). Hong Kong, China. 2017.583–588.21Zhang SQ, Zhang SL, Huang TJ, et al . Learning affective features with a hybrid deep model for audio-visual emotion22recognition. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(10): 3030–3043. [doi: 10.1109/TCSVT.2017.2719043]Zhang SQ, Zhao XM, Tian Q. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM.IEEE Transactions on Affective Computing, 2019. [doi:10.1109/TAFFC.2019.2947464]23黎万义, 王鹏, 乔红. 引入视觉注意机制的目标跟踪方法综述. 自动化学报, 2014, 40(4): 561–576.24孙小婉, 王英, 王鑫, 等. 面向双注意力网络的特定方面情感分析模型. 计算机研究与发展, 2019, 56(11): 2384–2395.[doi: 10.7544/issn1000-1239.2019.20180823]25Hershey S, Chaudhuri S, Ellis DP, et al . CNN architectures for large-scale audio classification. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New Orleans, LA, USA. 2017. 131–135.26Zhalehpour S, Onder O, Akhtar Z, et al . BAUM-1: A spontaneous audio-visual face database of affective and mental states. IEEE Transactions on Affective Computing,2017, 8(3): 300–313. [doi: 10.1109/TAFFC.2016.2553038]27Li Y, Tao JH, Schuller B, et al . MEC 2017: Multimodal emotion recognition challenge. 2018 First Asian Conference on Affective Computing and Intelligent Interaction (AC ⅡAsia). Beijing, China. 2018. 1–5.28Campos V, Jou B, Giró-i-Nieto X. From pixels to sentiment:Fine-tuning CNNs for visual sentiment prediction. Image and Vision Computing, 2017, 65: 15–22. [doi: 10.1016/j.imavis.2017.01.011]29Oquab M, Bottou L, Laptev I, et al . Learning and transferring mid-level image representations using convolutional neural networks. Proceedings of the 2014IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA. 2014. 1717–1724.30Miao HT, Zhang YF, Li WP, et al . Chinese multimodal emotion recognition in deep and traditional machine leaming approaches. 2018 First Asian Conference on Affective Computing and Intelligent Interaction (AC Ⅱ Asia). Beijing,China. 2018. 1–6.31Ma YX, Hao YX, Chen M, et al . Audio-visual emotion fusion (AVEF): A deep efficient weighted rmation Fusion, 2019, 46: 184–192. [doi: 10.1016/j.inffus.2018.06.003]32Xi YX, Li PC, Song Y, et al . Speaker to emotion: Domain adaptation for speech emotion recognition with residual adapters. 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Lanzhou, China. 2019. 513–518.332021 年 第 30 卷 第 5 期计算机系统应用275。
语音情感分析算法的应用教程与情绪识别准确性评估引言:随着人工智能技术的不断发展,语音情感分析逐渐成为研究的热点领域。
语音情感分析算法可以帮助我们准确地识别和理解语音中蕴含的情绪信息,进而应用于情感智能的各种场景。
本篇文章将介绍语音情感分析算法的应用教程,并对其情绪识别准确性进行评估。
一、语音情感分析算法的基本原理语音情感分析算法利用人类语音中的声音特征和情感表达之间的关联,通过信号处理和模式识别技术来识别和分类不同的情感状态。
其基本原理包括以下几个方面:1. 声学特征提取:首先需要从语音信号中提取出一系列的声学特征,例如基频、能量、频谱形状等。
常用的特征提取方法有短时能量、过零率、梅尔频率倒谱系数(MFCC)等。
2. 情感特征提取:针对不同的情感状态,需要进一步提取出与之相关的情感特征。
例如,高兴的情感可能表现为高频率、较大的声音强度和短时感知重音。
3. 特征选择和降维:由于声学特征可能非常庞杂,为了降低数据维度和消除冗余信息,需要进行特征选择和降维处理。
常用的方法有主成分分析(PCA)和线性判别分析(LDA)等。
4. 情感分类模型:选择合适的机器学习算法构建情感分类模型。
常用的方法包括支持向量机(SVM)、随机森林(Random Forest)和深度神经网络(Deep Neural Network)等。
二、语音情感分析算法的应用教程下面将以一个简单的情感识别任务为例,介绍语音情感分析算法的应用教程:步骤1:数据收集和预处理收集包含不同情感状态的语音数据集,确保数据集中包含高兴、悲伤、愤怒等不同情感状态的语音样本。
同时,对数据集进行预处理,去除噪声、归一化音频等。
步骤2:声学特征提取利用声学信号处理技术,从语音数据中提取出一系列的声学特征。
例如,可以计算短时能量、过零率以及MFCC等特征。
步骤3:情感特征提取根据任务需求,从声学特征中进一步提取与情感状态相关的特征。
例如,可以计算声调特征、语速、语调等。
如何使用AI技术进行情感识别使用AI技术进行情感识别引言:随着人工智能(AI)技术的迅猛发展,情感识别作为其中的一个重要应用领域,逐渐成为了学者和企业关注的焦点。
情感识别是指通过分析文本、语音、图像等不同形式的数据来判断个体或群体情绪状态的能力。
在社交媒体、市场调研、客户服务等领域,准确判断用户的情感变化对于企业决策和用户体验至关重要。
因此,本文将介绍如何利用AI技术进行情感识别。
一、文本情感识别1. 基于机器学习算法的文本情感分析机器学习算法是一种常见用于文本情感分类的方法。
它首先需要构建一个标注有正确情感类别的数据集,并提取出文本特征作为输入变量。
然后通过训练这些数据建立模型,在模型中进行参数调整以实现更好地分类性能。
例如,可以使用支持向量机(SVM)、朴素贝叶斯分类器或深度神经网络等机器学习算法。
2. 基于深度学习算法的文本情感分析深度学习算法是近年来应用广泛的一种文本情感分析方法。
它首先利用词嵌入技术将文本转化为密集向量表征,然后通过构建神经网络模型实现情感分类。
深度学习算法可以自动提取文本中的语义关系和上下文信息,在某些任务中比传统机器学习算法效果更好。
二、语音情感识别1. 基于声学特征的语音情感分析声学特征是指从语音信号中提取出来的与声音有关的相关信息。
在语音情感识别中,常见的一些声学特征包括基频、能量、共振峰频率等。
研究者们通过对这些特征进行抽取,并结合机器学习算法进行情感分类,从而实现对语音情感的准确判断。
2. 基于深度神经网络的语音情感分析深度神经网络在语音情感分析任务中也有着良好的表现。
它能够从大规模训练数据中学习到更高层次和更丰富的特征表示,因此可以捕捉到更多细微差异。
通过将声学特征作为输入变量,并构建多层神经网络模型,深度学习算法能够对语音情感进行更精准的分类。
三、图像情感识别1. 基于特征提取与机器学习的图像情感分析图像中包含了大量表达情感的信息,如面部表情、身体姿势等。
人机交互中的情感识别与情感计算研究随着人工智能技术的快速发展,人机交互已成为当今社会中不可或缺的一部分。
而情感识别与情感计算作为人机交互中非常重要的一个方面,正逐渐成为研究的热点。
本文将重点探讨情感识别与情感计算的相关理论、方法和应用,以及其在人机交互中的潜在价值。
一、情感识别情感识别旨在通过分析人的语音、文本、图像等信息来判断其所表达的情感状态。
近年来,研究者们提出了许多情感识别的方法。
其中,面部表情识别是最常见和直观的一种方法。
通过计算面部表情中的特征,如眼睛和嘴巴的形状和动作,可以较为准确地识别出人的情感状态。
除了面部表情识别外,声音也是表达情感的重要方式之一。
声音包括语音特征和情感特征。
语音特征主要涉及声调、语速、语音音高等信息,情感特征则更加关注声音中包含的情感成分,例如喜悦、愤怒、悲伤等。
通过分析语音中的这些特征,可以有效识别出人的情感状态。
此外,文本情感识别也是人机交互中的重要内容之一。
通过分析文本中的词汇、语法结构、情感符号等,可以获得作者的情感信息。
例如,在社交媒体上的帖子中,人们常常会表达出自己的情感状态,通过对这些文本进行情感识别,可以更好地了解用户的情感需求。
二、情感计算情感计算是将情感识别与计算技术相结合,旨在使计算机能够感知并理解人类的情感状态,并能够根据情感作出相应的反应。
情感计算不仅仅是对情感的识别,更是要理解情感的背后原因和意义。
在情感计算中,情感自动生成是一个重要的研究方向。
通过对大量情感数据的训练和模型的构建,可以实现计算机自动生成符合情感需求的文本、图像、音乐等内容。
这一技术在广告、娱乐、机器人等领域有着巨大的应用潜力。
另外,情感计算还可以用于情感辅助决策。
通过情感计算,可以分析用户在进行决策时的情感状态,从而提供更个性化的决策支持。
例如,在金融领域,通过情感计算可以分析投资者的情感状态,为其提供更准确的投资策略。
三、人机交互中的潜在价值情感识别与情感计算在人机交互中具有重要的潜在价值。
人机交互中的情感识别与情感交互技术研究人机交互是计算机科学与心理学相结合的领域,旨在改善人类与计算机之间的交流和互动方式。
情感识别与情感交互技术则是人机交互领域中的重要研究方向,其目标是使计算机具备感知和理解人类情感以及主动与人类进行情感交流的能力。
本文将围绕人机交互中的情感识别与情感交互技术进行探讨,并介绍相关的研究进展和应用领域。
一、情感识别技术情感识别是指通过对人类语言、语音、面部表情、生理信号等多种信息的分析和处理,从而准确识别出人类的情感状态。
情感识别技术主要有以下几种方法:1.1 文本情感识别文本情感识别是通过分析人类在书面表达中所使用的词语、句子结构、情感表达方式等来识别人类的情感状态。
常用的方法包括词频统计、情感词典匹配、机器学习等。
1.2 语音情感识别语音情感识别是通过对人类语音信号的分析和处理,提取出与情感相关的声学特征,并通过机器学习算法从中识别出人类的情感状态。
常用的方法包括声调分析、声谱特征提取、情感语音数据库训练等。
1.3 面部表情识别面部表情识别是通过对人类面部表情的分析和处理,提取出与情感相关的面部特征,并通过机器学习算法从中识别出人类的情感状态。
常用的方法包括面部特征标定、面部动态分析、机器学习算法训练等。
1.4 生理信号识别生理信号识别是通过对人类心率、皮肤电活动、脑电波等生理信号的分析和处理,提取出与情感相关的生理特征,并通过机器学习算法从中识别出人类的情感状态。
常用的方法包括生理信号采集、特征提取、分类器训练等。
二、情感交互技术情感交互技术是指计算机通过识别和理解人类的情感,并以恰当的方式与人类进行情感交流和互动。
情感交互技术主要有以下几种方法:2.1 聊天机器人聊天机器人能够理解人类的语言表达,并以合适的语调和表情回应人类的情感。
目前,聊天机器人在客服、娱乐等领域得到广泛应用,然而其情感理解和回应的准确程度仍然存在挑战。
2.2 表情生成表情生成是指计算机通过对人类的情感进行分析,生成与情感相匹配的面部表情或动画表情,从而更好地表达和传递情感。
机器学习技术如何辨识语音中的说话人和情感1.说话人身份辨识:说话人身份辨识是指根据语音数据中人的声音特征,确定该人的身份。
常见的方法包括使用声纹识别和说话人识别技术。
声纹识别是通过人的声音特征来辨识说话人身份,常用的算法包括高斯混合模型(GMM)和隐马尔可夫模型(HMM)。
说话人识别是通过声学特征、语言特征和共振特征等来识别说话人身份,常用的算法有线性鉴别分析(LDA)和梅尔频率倒谱系数(MFCC)。
2. 情感辨识:情感辨识是指通过语音信号分析来确定说话人的情感状态,如愤怒、喜悦、悲伤等。
常见的方法包括使用情感识别技术和声学特征提取技术。
情感识别技术可以使用机器学习算法对语音信号进行分类,常用的算法有支持向量机(SVM)和随机森林(Random Forest)。
声学特征提取技术可以通过提取语音信号的声调、能量、时长等特征来分析说话人的情感状态,常用的特征包括基频、谐波、频谱峰值等。
3.数据预处理:在进行说话人身份辨识和情感辨识之前,需要进行数据预处理来准备语音数据。
预处理的方法包括语音信号的分帧、预加重、频谱分析和特征提取等。
分帧是将语音信号分成短时间片段,以便对每个时间片段进行分析。
预加重是通过高通滤波器来加强高频部分的能量,以减少后续分析过程中的冗余信息。
频谱分析是通过傅里叶变换将时间域的语音信号转换为频域的频谱图,以提取语音信号的频谱信息。
特征提取是从频谱图中提取有用的特征,如MFCC、谱熵等,用于后续的分类和识别。
总之,机器学习技术可以通过提取语音信号的声音特征,实现语音说话人身份辨识和情感辨识。
这些技术可以应用于语音识别、情感识别、智能助理等领域,为人机交互和智能系统提供更加智能和个性化的服务。
基于人工智能的语音识别与处理技术语音识别与处理技术是近年来随着人工智能技术快速发展而备受关注的一个领域。
基于人工智能的语音识别与处理技术的出现,不仅使我们的交流更加方便和高效,还为诸如语音助手、语音控制、语音翻译等应用提供了强有力的支持。
本文将探讨基于人工智能的语音识别与处理技术的原理、应用以及未来发展趋势。
人工智能是指计算机系统能够模仿人类智能的能力。
语音识别与处理技术就是利用人工智能的方法,将人类语音转化为文本或者执行特定的任务。
语音识别与处理技术背后的核心原理是深度学习,特别是一种称为循环神经网络(Recurrent Neural Network, RNN)的算法。
RNN通过对语音信号的连续处理来捕捉时序信息,达到更好的语音识别效果。
在语音识别方面,基于人工智能的语音识别技术已经取得了巨大的进展。
传统的语音识别系统需要依赖大量人工特征工程和模型的规模调整,而基于人工智能的语音识别技术可以自动地从大量的数据中学习声学和语言模型。
由于数据和计算资源的丰富,神经网络模型可以较好地学习到语音信号中的特征,从而实现更准确的语音识别。
除了语音识别,基于人工智能的语音处理技术也在不断创新和发展。
语音合成是其中的一个重要方向。
传统的语音合成技术通常是通过拼接预先录制的语音片段来生成合成语音,这种方法存在音质较差、自然度不高的缺点。
而基于人工智能的语音合成技术利用深度学习模型,可以直接生成自然流利的合成语音。
这种技术已经被广泛应用在语音助手、有声读物等领域。
此外,基于人工智能的语音识别与处理技术也被应用在语音情感识别、语音翻译以及语音控制等领域。
语音情感识别是通过分析语音中所蕴含的情绪特征,判断说话者情感状态的技术。
通过深度学习,语音情感识别技术可以自动提取情感信息,并实现自动化的情感分析。
语音翻译是将一种语言的口头表达转化为另一种语言的技术,通过结合语音识别和机器翻译技术,基于人工智能的语音翻译技术可以实现即时语音翻译,为跨语言交流提供便利。
智能语音技术的分类智能语音技术是指利用人工智能技术和语音处理技术实现语音交互的一种技术。
它可以将人的语音转化为文字或者命令,并能够理解和执行这些文字或命令。
智能语音技术已经广泛应用于语音助手、语音识别、语音合成等领域。
根据其功能和应用领域的不同,智能语音技术可以分为以下几类。
一、语音识别技术语音识别技术是智能语音技术的核心。
它通过分析人的语音信号,将其转化为相应的文字或命令。
语音识别技术可以分为离线语音识别和在线语音识别。
离线语音识别是指将语音信号转化为文字的过程在本地设备上进行,不需要依赖云服务器。
在线语音识别则需要将语音信号上传至云服务器进行处理。
目前,语音识别技术已经能够实现高准确率的语音转文字,广泛应用于智能助手、语音输入等场景。
二、语音合成技术语音合成技术是将文字转化为语音的过程。
它可以根据输入的文字内容,生成与之对应的语音信号。
语音合成技术可以分为基于规则的合成方法和基于统计的合成方法。
基于规则的合成方法是根据语音合成规则和音库中的语音片段进行合成。
基于统计的合成方法则是通过学习大量的语音数据,利用统计模型生成语音信号。
语音合成技术在无障碍阅读、智能客服等领域有着广泛的应用。
三、语音唤醒技术语音唤醒技术是通过识别特定的唤醒词或音频信号,实现设备的语音唤醒功能。
语音唤醒技术可以分为基于语音指令的唤醒和基于声音模式的唤醒。
基于语音指令的唤醒需要用户喊出特定的唤醒词,设备才能被唤醒。
基于声音模式的唤醒则是通过识别特定的声音模式来实现设备的唤醒。
语音唤醒技术在智能音箱、智能家居等领域得到了广泛应用。
四、语音交互技术语音交互技术是指通过语音来实现人机之间的交互。
它可以使人们通过语音指令来控制设备,获取信息或执行操作。
语音交互技术可以通过语音识别、语音合成等技术实现。
目前,语音交互技术已经广泛应用于智能助手、智能音箱、智能车载等领域,为用户提供了更加便捷的交互方式。
五、情感识别技术情感识别技术是指通过分析语音中的情感信息,来判断说话人的情感状态。