基于协方差描述子和黎曼流形的语音情感识别
- 格式:pdf
- 大小:656.97 KB
- 文档页数:5
基于多任务学习与注意力机制的多层次音频特征情感识别研究李磊;朱永同;杨琦;赵金葳;马柯
【期刊名称】《智能计算机与应用》
【年(卷),期】2024(14)1
【摘要】传统音频分类任务仅仅是从单层次音频提取特征向量进行分类,即便使用过大的模型,其过多的参数也会造成特征之间的耦合,不符合特征提取“高聚类,低耦合”的原则。
由于注意到一些与情绪相关的协变量并没有得到充分利用,本文在模型中加入性别先验知识;将多层次音频特征分类问题转化为多任务问题进行处理,从而对多层次特征进行解耦再进行分类;针对特征分布的再优化方面设计了一个中心损失模块。
通过在IEMOCAP数据集上的实验结果表明,本文提出模型的加权精度(WA)和未加权精度(UA)分别达到了71.94%和73.37%,与原本的多层次模型相比,WA和UA分别提升了1.38%和2.35%。
此外,还根据Nlinear和Dlinear算法设计了两个单层次音频特征提取器,在单层次音频特征分类实验中取得了较好的结果。
【总页数】11页(P85-94)
【作者】李磊;朱永同;杨琦;赵金葳;马柯
【作者单位】上海理工大学健康科学与工程学院;上海理工大学机器智能研究院;上海理工大学机械工程学院;商丘学院机械与电气信息学院
【正文语种】中文
【中图分类】TP241
【相关文献】
1.基于注意力的多层次混合融合的多任务多模态情感分析
2.基于注意力机制的多任务3D CNN-BLSTM情感语音识别
3.基于注意力机制的语音情感识别非线性特征融合方法的研究
4.融合级联注意力和多任务学习的语音情感识别
5.基于多层次注意力网络的多模态情感识别研究
因版权原因,仅展示原文概要,查看原文内容请购买。
基于GMM的语音情感信息识别
孙红进
【期刊名称】《信息技术》
【年(卷),期】2008(32)12
【摘要】实际的研究表明,语音情感识别方法有多种.介绍了一种基于GMM的语音情感识别方法,包括该方法的优点、存在的问题或不足等,并对此进行了思考,给出了一些处理办法.
【总页数】3页(P138-140)
【作者】孙红进
【作者单位】南京工业大学信息科学与工程学院,南京,210009
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.基于短文本情感分析的敏感信息识别 [J], 李扬;潘泉;杨涛
2.基于两种GMM-UBM多维概率输出的SVM语音情感识别 [J], 黄永明;章国宝;董飞;达飞鹏
3.基于改进GMM的耳语语音情感识别方法研究 [J], 蒋庆斌;包永强;王浩;赵力
4.一种基于GMM模型的语音情感识别方法 [J], 黄锋;尹俊勋
5.基于情感分析的虚假信息识别模型 [J], 李亦轩;刘克剑;杨潇帅;李伟豪;冯媛媛因版权原因,仅展示原文概要,查看原文内容请购买。
基于一种新的特征提取的语音辨识
刘嘉;骆瑞玲;李明
【期刊名称】《科学技术与工程》
【年(卷),期】2009(009)002
【摘要】提出了一种新的二次特征提取的方法应用于说话人语音辨识.首先,通过基于熵的特征筛选方法,有效地剔除不重要或者噪声特征,消除语音特征的冗余,并获得其重要性排序,减少语音特征矢量的维数.然后,采用Fisher准则进一步进行参数选择,按 Fisher 比的大小选择特征向量作为投影轴,将高维空间中的特征矢量映射到低维的特征判别空间,然后以SVM作为分类器实现说话人辨识系统.实验结果表明,本文提出的方法在不影响识别率的情况下可以对输入数据有效降维,在噪音环境下取得了较好的识别效果,增加了系统的鲁棒性.
【总页数】5页(P460-464)
【作者】刘嘉;骆瑞玲;李明
【作者单位】兰州理工大学计算机与通信学院,兰州,730050;兰州理工大学计算机与通信学院,兰州,730050;兰州理工大学计算机与通信学院,兰州,730050
【正文语种】中文
【中图分类】TP391.42
【相关文献】
1.一种基于Zernike矩双谱的雷达信号特征提取新算法 [J], 张立东;吕涛;王东风;王世强
2.一种新的基于DBN的声学特征提取方法 [J], 陈雷;杨俊安;王龙;李晋徽
3.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用 [J], 李晋徽;杨俊安;王一
4.一种基于压缩感知和动态时间规整的信号肽特征提取新算法 [J], 张洋俐君;高翠芳;陈卫;田丰伟
5.一种新的基于2维傅里叶谱图像的恒星光谱特征提取方法和深度网络分类应用[J], 张静敏; 马晨晔; 王璐; 杜利婷; 许婷婷; 艾霖嫔; 周卫红
因版权原因,仅展示原文概要,查看原文内容请购买。
语音情感识别技术研究及其应用随着人工智能技术的发展,语音识别技术已经成为当前人工智能领域的研究热点。
其中一个重要的方向就是语音情感识别技术。
语音情感识别技术可以帮助人们识别自然语言或语音中所包含的情感信息,从而更加深入地理解人类交流方式,拓展人机交互技术的应用领域,具有广泛的应用前景。
一、语音情感识别技术的研究现状语音情感识别技术是一门涉及语音处理、自然语言处理、机器学习等多个领域的交叉学科。
近年来,随着深度学习等技术的发展,语音情感识别技术取得了长足的进展。
目前,最常用的情感分类模型是基于深度神经网络的模型,如卷积神经网络(CNN)、长短时记忆网络(LSTM)等。
同时,传统的特征提取方法如梅尔倒谱系数(MFCC)等也仍然有其应用的空间。
近年来,语音情感识别技术在多个领域得到广泛应用,如教育、医疗、智能客服、智能家居等。
具体来说,语音情感识别技术可以帮助教师和学生更好地互动,帮助医生更全面地了解患者的情感变化,提升客服质量,智能家居也可以通过语音情感识别技术了解用户的情感需求,实现更加便捷的智能控制。
这些领域的应用推广也进一步促进了语音情感识别技术的发展和研究。
二、语音情感识别技术的应用前景语音情感识别技术的应用前景非常广阔。
未来,随着智能家居、智能医疗、汽车智能驾驶等领域的不断拓展,语音情感识别技术的应用场景也会越来越多样化。
下面,本文将分别从教育、医疗、智能客服等三个方面探讨语音情感识别技术的应用前景。
1.教育领域在教育领域,语音情感识别技术可以应用于教师和学生之间的交流。
在日常教育中,学生的情感状态也会直接影响到学习效果。
因此,通过语音情感识别技术可以更好地了解学生的情感变化,及时发现学生的疑惑或焦虑情绪,从而更好地调整教学策略,提升教学效果。
此外,语音情感识别技术也可以帮助评估学生的情感状态,更好地促进学生的学习兴趣和积极性。
2.医疗领域医疗领域是另一个语音情感识别技术的应用领域。
通常情况下,患者的情感状态也会直接影响到疗效和康复时间。
基于变分模态分解的语音情感识别方法王玮蔚; 张秀再【期刊名称】《《应用声学》》【年(卷),期】2019(038)002【总页数】8页(P237-244)【关键词】变分模态分解; Mel倒谱系数; 希尔伯特谱; 极限学习机【作者】王玮蔚; 张秀再【作者单位】南京信息工程大学电子与信息工程学院南京 210044; 江苏省大气环境与装备技术协同创新中心南京 210044【正文语种】中文【中图分类】TN912.340 引言在多种通信方式中,语音信号是人与人、人与机器通信最快的自然方法。
人类甚至可以从语音交流中感觉到说话人的情绪状态。
语音情感是分析声音行为的一种方法,是指各种影响(如情绪、情绪和压力)的指针,侧重于语音的非言语方面。
在这种情况下,语音情感识别的主要挑战是提取一些客观的、可测量的语音特征参数,这些参数可以反映说话人的情绪状态。
近年来,语音情感识别在人机通信、机器人通信、多媒体检索等领域得到了广泛关注。
语音情感识别研究主要是利用语音中的情感和语音特征的统计特性,进行一般定性的声学关联[1−2]。
语音情感识别的主要工作为语音情感特征提取和分类网络模型选择。
当前国内外的研究方向多为分类网络模型选择,而情感特征提取方向研究内容较为匮乏,因此,提取有效的语音情感特征也是当前语音情感识别的关键任务。
2004年,Ververidis等[3]从能量、基音和语音频谱的动态行为中提取出87个静态特征,并提出了谱平坦度测度与谱中心的比值作为说话人独立的特征,利用帧级特征、基音周期、能量和Mel倒谱系数(Mel frequency cepstral coefficents, MFCC)对性别和情感进行了层次分类。
2011年,Sun 等[4]将Teager 能量中提取的小波系数引入到语音情感识别中。
2008年,韩一等[5]将MFCC 参数作为特征对语音情感进行识别,也取得了较好的结果。
2011年,He 等[6]首先将经验模态分解(Empirical mode decomposition, EMD)引入到语音情感识别中。
基于机器学习的中文语音情感识别研究中文语音情感识别是一项基于机器学习的研究领域,它的目标是通过分析人们的语音信号,准确地识别出他们所表达的情感状态。
随着人工智能技术的快速发展,中文语音情感识别在智能交互、情感分析和人机交互等领域具有广泛应用前景。
本文将从相关研究背景、方法和应用等方面进行探讨。
一、研究背景随着社交媒体和智能设备的普及,人们越来越倾向于使用语音进行交流。
然而,通过语音来准确地识别出说话者所表达的情感状态并非易事。
中文是一种复杂而多样化的语言,在不同地区和不同人群之间存在着巨大差异。
因此,开展中文语音情感识别研究具有重要意义。
目前,已有许多学者在这一领域开展了大量工作。
他们通过采集大量中文语音样本并结合标注数据进行分析,在此基础上提出了各种方法和模型来实现中文语音情感识别。
然而,在实际应用场景中,中文语音情感识别仍然面临一些挑战,如情感表达的主观性、语音信号的多样性以及数据标注的主观性等。
二、研究方法为了解决中文语音情感识别中的挑战,研究者们采用了多种机器学习方法。
其中,深度学习是一种常用且有效的方法。
深度学习模型可以通过对大量标注数据进行训练,自动地学习到表达情感的特征,并通过对新样本进行预测来实现情感识别。
在深度学习模型中,常用的方法包括卷积神经网络(CNN)、循环神经网络(RNN)和长短时记忆网络(LSTM)等。
这些模型可以有效地捕捉到语音信号中包含的时序信息,并提取出有用的特征来进行情感分类。
此外,为了提高模型在实际应用场景中的泛化能力,研究者们还采用了迁移学习和领域自适应等技术。
迁移学习可以利用已有数据集上训练得到的知识来辅助新任务;领域自适应则可以通过对不同领域数据进行适应,提高模型在新领域中的性能。
三、应用前景中文语音情感识别在智能交互、情感分析和人机交互等领域具有广泛应用前景。
首先,通过识别用户的情感状态,智能交互系统可以根据用户的情感偏好提供个性化的服务,提高用户体验。
基于SVM的语音情感识别算法朱菊霞;吴小培;吕钊【期刊名称】《计算机系统应用》【年(卷),期】2011(020)005【摘要】为有效提高语音情感识别系统的识别正确率,提出一种基于SVM的语音情感识别算法.该算法提取语音信号的能量、基音频率及共振峰等参数作为情感特征,采用SVM(Support Vector Machine,支持向量机)方法对情感信号进行建模与识别.在仿真环境下的情感识别实验中,所提算法相比较人工神经网络的ACON(All Class inone Network,"一对多")和OCON(One class in one network,"一对一")方法识别正确率分别提高了7.06%和7.21%.实验结果表明基于SVM的语音情感识别算法能够对语音情感信号进行较好地识别.%In order to improve recognition accuracy of the speech emotion recognition system effectively, a speech emotion recognition algorithm based on SVM is proposed. In the proposed algorithm, some parameters extracted from speech signals, such as: energy, pitch frequency and formant, are used as emotional features. Furthermore, an emotion recognition model is established with SVM method. Simulation environment experiential results reveal that the recognition ratio of the proposed algorithm obtains the relative increasing of 7.06% and 7.21% compared with artificial neural networks such as ACON (All Class in one Network, "one to many") and OCON (One class in one network, "one to one") methods. The result of the experiment showsthat the speech emotion recognition algorithm based on SVM can improve the performance of the emotion recognition system effectively.【总页数】5页(P87-91)【作者】朱菊霞;吴小培;吕钊【作者单位】安徽大学,计算智能与信号处理教育部重点实验室,合肥,230039;安徽大学,计算智能与信号处理教育部重点实验室,合肥,230039;安徽大学,计算智能与信号处理教育部重点实验室,合肥,230039【正文语种】中文【相关文献】1.基于改进型SVM算法的语音情感识别 [J], 李书玲;刘蓉;张鎏钦;刘红2.基于多级SVM分类的语音情感识别算法 [J], 任浩;叶亮;李月;沙学军3.基于参数寻优决策树SVM的语音情感识别 [J], 王富;孙林慧;苏敏;赵城4.一种改进的FSVM语音情感识别算法 [J], 邢玉娟;李恒杰;张成文5.基于遗传优化的多级SVM语音情感识别 [J], 谈利芳;刘蓉;黄刚;张雄因版权原因,仅展示原文概要,查看原文内容请购买。
专利名称:一种基于混合小波包特征深度学习的语音情感识别方法
专利类型:发明专利
发明人:孟浩,闫天昊,袁菲,乔海岩,邓艳琴,杨笑天,陈连钰
申请号:CN202011006934.8
申请日:20200923
公开号:CN112151071A
公开日:
20201229
专利内容由知识产权出版社提供
摘要:本发明提供基于混合小波包特征深度学习的语音情感识别方法,S1:通过自相关函数算法对语音数据进行端点检测;S2:将语音序列数据截取成相同长度,将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,组成特征集1;S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1进行进一步提取特征;S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。
本发明能够混有噪声的情况下,能够充分提取语音信号的时域信息和频域信息特征,进而利用深度学习算法实现。
申请人:哈尔滨工程大学
地址:150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室国籍:CN
更多信息请下载全文后查看。