【CN110111783A】一种基于深度神经网络的多模态语音识别方法【专利】
- 格式:pdf
- 大小:975.12 KB
- 文档页数:15
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810638786.8(22)申请日 2018.06.20(71)申请人 陕西科技大学地址 710021 陕西省西安市未央大学园区(72)发明人 齐勇 张立泽清 刘浩哲 雷凯 行习铭 赵智健 张文天 王妮 (74)专利代理机构 西安弘理专利事务所 61214代理人 韩玙(51)Int.Cl.G10L 15/06(2013.01)G10L 15/16(2006.01)(54)发明名称一种基于深度残差神经网络的语音识别方法(57)摘要本发明公开了一种基于深度残差神经网络的语音识别方法,具体按照构建语音库,得到n+1组声音信号组;随机将n+1组声音信号组分为n组训练组和1组测试组;利用n组训练组训练深度残差神经网络,得到训练好的深度残差神经网络;将测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别的步骤。
本发明方法,防止了各种马鞍情况和收敛速度过慢的出现,防止了过拟合现象的发生,从而保证了整个网络的高效快速准确的运行,语音识别准确率更高。
权利要求书2页 说明书4页 附图1页CN 108847223 A 2018.11.20C N 108847223A1.一种基于深度残差神经网络的语音识别方法,其特征在于,具体按照下述步骤进行:步骤1,构建语音库,得到n+1组声音信号组;步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;步骤3,利用n组所述训练组训练深度残差神经网络,得到训练好的深度残差神经网络;步骤4,将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910590712.6(22)申请日 2019.07.02(71)申请人 厦门大学地址 361000 福建省厦门市思明南路422号(72)发明人 李琳 黎荣晋 洪青阳 (74)专利代理机构 厦门市首创君合专利事务所有限公司 35204代理人 张松亭 杨依展(51)Int.Cl.G10L 17/02(2013.01)G10L 17/04(2013.01)G10L 17/14(2013.01)G10L 17/18(2013.01)G10L 17/22(2013.01)(54)发明名称一种基于深度神经网络的欺骗语音检测方法(57)摘要本发明公开了一种基于深度神经网络的欺骗语音检测方法,包括:步骤A,根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型,所述欺骗语音检测模型具有网络参数;步骤B,将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别,判断出该测试语音是真实语音还是欺骗语音。
它具有如下优点:支持检测新型未知的语音合成、语音转换和录音回放等欺骗攻击。
权利要求书2页 说明书8页 附图4页CN 110491391 A 2019.11.22C N 110491391A1.一种基于深度神经网络的欺骗语音检测方法,其特征在于:包括:步骤A,根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型,所述欺骗语音检测模型具有网络参数;步骤B,将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别,判断出该测试语音是真实语音还是欺骗语音。
2.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤B中,将测试语音输入到上述欺骗语音检测模型,上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率,根据二元决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910271166.X(22)申请日 2019.04.04(71)申请人 湖北工业大学地址 430068 湖北省武汉市洪山区李纸路(72)发明人 曾春艳 马超峰 武明虎 朱栋梁 赵楠 朱莉 王娟 (74)专利代理机构 北京科家知识产权代理事务所(普通合伙) 11427代理人 陈娟(51)Int.Cl.G10L 17/02(2013.01)G10L 17/08(2013.01)G10L 17/18(2013.01)(54)发明名称基于高斯超矢量和深度神经网络的说话人识别方法(57)摘要本发明公开了一种基于高斯超矢量和深度神经网络的说话人识别方法,包括说话人特征提取阶段,深度神经网络设计阶段,说话人识别与决策阶段,本发明通过深度神经网络与说话人识别系统模型相融合,结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果,并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,提高了相应说话人识别产品的竞争力。
权利要求书3页 说明书9页 附图1页CN 110111797 A 2019.08.09C N 110111797A1.一种基于高斯超矢量和深度神经网络的说话人识别方法,应用于说话人识别,其特征在于,所述基于高斯超矢量和深度神经网络的说话人识别方法包括:S1:说话人特征提取;1-1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN);1-11)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分y=x(n)-a*x(n -1),0.95<a<0.97 (1)式中x(n)表示输入信号;1-12)分帧:将N个采样点集合成一个观测单位,称为帧;1-13)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号1-14)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数;1-15)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;1-16)经离散余弦变换(DCT)得到MFCC系数:将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数;1-17)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分;1-18)倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性;1-2)给出一组训练按步骤1-1)提取出MFCC特征,训练通用背景模型(Universal Background Model,UBM);1-21)若某条语音数据对应的特征为X,其中X={x 1,x 2,…x T },且假设其维度为D,用于计算其似然函数的公式为:式中该密度函数由K个单高斯密度函数p k (X t )加权得到,其中每一个高斯分量的均值μk 和协方差∑k 的大小分别为:1×D和D ×D;权 利 要 求 书1/3页2CN 110111797 A。
专利名称:一种基于深度卷积神经网络的外部语料库语音识别方法
专利类型:发明专利
发明人:傅啸,张桂军
申请号:CN201810777097.5
申请日:20180716
公开号:CN109065032A
公开日:
20181221
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于深度卷积神经网络的外部语料库语音识别方法。
本发明具体实现如下:步骤1、获取语音标注数据和互联网语料库;步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗;步骤3、对语音标注数据进行特征抽取和标准化;步骤4、构建神经网络模型步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据。
本发明能够根据语音信号数据,构建深度卷积、条件随机场模型,与一般的深度学习模型相比,需要更少的标记语音数据,同时充分利用廉价、大规模的无标注互联网预料数据库加强句子整体的识别率,提升句子识别精度。
同时本发明将两个过程融为一体,实现了端到端的语音识别方法。
申请人:杭州电子科技大学
地址:310018 浙江省杭州市下沙高教园区2号大街
国籍:CN
代理机构:杭州君度专利代理事务所(特殊普通合伙)
代理人:朱月芬
更多信息请下载全文后查看。
基于深度学习的多模态融合语音识别技术与应用研究多模态融合语音识别技术的研究与应用引言:随着社会的进步和科技的发展,多模态融合技术在语音识别领域中逐渐引起了人们的关注。
多模态融合语音识别技术具有强大的应用潜力,可以帮助提高语音识别系统的准确性和稳定性,能够更好地满足实际应用需求。
1. 多模态融合语音识别技术的概述多模态融合语音识别技术是指利用多种感知模态(比如音频、图像、视频等)的信息来辅助语音识别任务的技术。
通过同时利用多种感知模态的信息,可以提高语音识别系统的鲁棒性和准确性。
目前,主要有两种常见的方法用于多模态融合语音识别,分别是基于独立模型的多模态融合方法和基于多任务学习的多模态融合方法。
2. 基于深度学习的多模态融合语音识别技术深度学习是近年来取得巨大成功的机器学习方法之一,在多模态融合语音识别领域也得到了广泛应用。
深度学习模型能够有效地处理多模态信息,并能够从大规模数据中学习到丰富而有用的特征表示。
常见的深度学习模型包括卷积神经网络(CNN)、循环神经网络(RNN)和变换器(Transformer)等。
2.1 卷积神经网络(CNN)在多模态融合语音识别中的应用卷积神经网络是一种能够有效处理图像和语音数据的深度学习模型。
在多模态融合语音识别任务中,可以利用卷积神经网络从音频、图像等感知模态中提取特征,并将这些特征融合起来进行语音识别。
卷积神经网络在音频和图像方面的研究已经取得了一定的进展,并在实际应用场景中取得了较好的效果。
2.2 循环神经网络(RNN)在多模态融合语音识别中的应用循环神经网络是一种适用于序列数据处理的深度学习模型。
在多模态语音识别任务中,循环神经网络可以用于对音频、文本等序列数据进行建模和预测。
通过引入长短时记忆(LSTM)单元或者门控循环单元(GRU)来捕捉序列数据中的时序信息,循环神经网络能够更好地处理多模态融合语音识别任务。
2.3 变换器(Transformer)在多模态融合语音识别中的应用变换器是一种基于自注意力机制的深度学习模型,能够同时处理长距离的依赖关系和局部信息。
基于深度学习的语音识别技术语音识别技术是近年来人工智能领域中备受关注的一个热门话题。
随着深度学习技术的发展和应用,基于深度学习的语音识别技术已经取得了巨大的突破,广泛应用于语音助手、智能音箱、语音翻译等领域。
本文将详细介绍基于深度学习的语音识别技术的原理、方法和应用,并探讨其未来的发展前景。
首先,我们来了解一下深度学习的基本原理。
深度学习是一种基于神经网络的机器学习方法,它通过模拟人脑神经元的工作方式来实现对复杂数据的处理和学习。
深度学习的核心是构建多层神经网络,通过逐层的学习和特征提取来实现对数据的表示和分类。
在语音识别领域,深度学习技术可以模拟人脑对声音的感知和理解过程,实现对语音信号的识别和理解。
基于深度学习的语音识别技术通常包括两个重要组成部分:声学模型和语言模型。
声学模型负责将语音信号转换成文本,它可以将语音信号的频谱和时域特征映射到对应的文字表示。
声学模型一般采用循环神经网络(RNN)或卷积神经网络(CNN)来提取语音信号的特征,并通过一系列的隐藏层计算出每个时间步的概率分布。
语言模型则负责通过语言学规则和统计模型,给出最可能的文本序列,以提高识别的准确性和连贯性。
深度学习的语音识别技术在设计和训练上具有一些挑战。
首先,语音信号的特征包括频谱、韵律、音调等多个维度,如何选取适当的特征表示对识别结果具有重要影响。
其次,语音信号存在噪声、变音、重音等多种变异和干扰,如何处理这些变异对识别准确率至关重要。
最后,大规模数据集的收集和标注是深度学习的关键,如何获取高质量的训练数据对模型的性能有着决定性的影响。
基于深度学习的语音识别技术已经在多个领域取得了广泛应用。
语音助手是其中的一个重要应用场景。
通过基于深度学习的语音识别技术,语音助手可以听懂用户的语音指令,并做出相应的回应。
智能音箱也是一个热门应用领域,通过语音识别技术,智能音箱可以识别用户的语音指令,并完成播放音乐、查询天气等功能。
此外,语音翻译、语音搜索等领域也都逐渐应用了基于深度学习的语音识别技术,为人们提供了更方便、快捷的交互方式。
专利名称:一种基于人工智能算法的语音识别方法专利类型:发明专利
发明人:李明久
申请号:CN202111398784.4
申请日:20211119
公开号:CN114049879A
公开日:
20220215
专利内容由知识产权出版社提供
摘要:本发明涉及人工智能技术领域,公开了一种基于人工智能算法的语音识别方法,步骤一、优先获取常用语音发音的话语,并获取至少一个激活词语;步骤二、接收并获取语音,对语音进行处理;步骤三、对处理后的信号进行特征提取,针对提取的音频信号比对模型库及解码搜索;步骤四、执行语音识别命令。
本发明语音识别相对于传统信息检索和菜单操作方式,不仅具有不会遗失和忘记、不需记忆、使用方便等特点,而且还具有用户接受程度高,声音输入设备造价低廉等优点,其应用领域非常广泛,可广泛用在工业控制、语音拨号系统、智能家电、声控智能玩具、家庭服务、订票系统、医疗服务、银行服务、股票查询服务等许多领域。
申请人:天赋智能科技研究院(南京)有限公司
地址:211199 江苏省南京市江北新区星火路19号星智汇商务花园14-2栋9楼
国籍:CN
代理机构:合肥四阅专利代理事务所(普通合伙)
代理人:张健
更多信息请下载全文后查看。
基于人工智能深度学习的语音识别方法语音识别技术是一项把声音转换为文本的技术,也称为语音识别或语
音转换技术,其在国际语音认知社会中占据着重要的地位。
它一般分为语
音识别和语音识别两个技术。
随着现代科学技术的发展,人工智能深度学
习在语音识别技术方面取得了重大的成就,为语音识别技术的发展带来了
新的变革。
人工智能深度学习的语音识别主要基于深度神经网络的技术,包括深
度前馈网络、卷积神经网络和循环神经网络三大类。
这些技术在前馈网络
模型中实现了输入特征的抽象,实现了输入语音和输出结果的自动映射,
可以准确地识别出语音中的词汇,实现自动识别。
另外,人工智能深度学习还支持增强学习技术,可以通过强化学习算
法实现自动纠错以及优化语音语料库,从而提高语音识别的准确率。
此外,深度学习还可以支持自然语言处理(NLP),可以更好的理解
语音,实现更深层次的语音识别。
有了自然语言处理技术,人工智能深度
学习在语音识别中可以更加精准地捕捉到语音信息,更好地响应用户输入,让用户的指令更加准确地被处理。
总之,人工智能深度学习在语音识别技术方面取得了重大的成就。
基于多模态特征的语音识别技术说到语音识别技术,相信大家都不会陌生。
在人工智能领域的应用中,语音识别技术是一个非常重要的环节。
随着人工智能的发展,语音识别技术也得到了极大的发展和进步。
这些进步离不开基于多模态特征的语音识别技术。
首先,我们先来了解一下什么是多模态特征。
多模态特征是指通过多个不同传感器对同一个物理对象或同一个情感状态进行多层次、多维度、多模态感知,并提取出相应的特征信息。
这些传感器包括摄像头、麦克风、加速度计等。
在语音识别技术中,我们主要关注的是音频数据和语音特征。
在语音识别技术中,从多模态信息中提取语音特征是一个任务繁重的工作。
从音频数据中提取特征可以帮助我们更好地识别语音,在减少干扰的同时提取更多有用信息。
因此,许多科学家和工程师都试图将其他传感器的信息融合到语音信号中,以提高语音特征的准确性和鲁棒性。
多模态特征在语音识别技术中主要有两种应用方式:特征补充和特征融合。
特征补充是指将其他传感器中提取的特征信息与语音信号中的特征信息进行融合,以增加语音信号的特征值。
特征融合则是将不同传感器中提取的特征信息相互融合,形成一个更完整的特征信息。
这两种应用方式都有其独特的优点和适用范围,具体使用时需要根据实际情况进行选择。
特征补充和特征融合的具体实现方式也有很多种。
其中一种比较典型的实现方式是使用深度神经网络(Deep Neural Network,DNN)进行多模态特征融合。
对于语音识别任务,我们可以将多个传感器中的音频数据和其他传感器的数据分别输入到DNN模型中,然后将不同模态的特征信息进行融合,最终得到相对准确的语音识别结果。
除了DNN模型外,在多模态特征识别中,还有一些其他的声音和音频技术可以用来处理语音信号。
例如,声纹识别、语音声调和节奏分析、音频增强和降噪技术等。
在实际应用中,这些技术可以结合使用,以提高语音识别的准确度和鲁棒性。
总的来说,基于多模态特征的语音识别技术是当前语音识别领域的一个重要研究方向。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910284551.8
(22)申请日 2019.04.10
(71)申请人 天津大学
地址 300072 天津市南开区卫津路92号
(72)发明人 喻梅 程旻余童 高洁 刘志强
徐天一 于瑞国 李雪威 胡晓凯
(74)专利代理机构 天津市北洋有限责任专利代
理事务所 12201
代理人 李林娟
(51)Int.Cl.
G10L 15/22(2006.01)
G10L 15/25(2013.01)
G10L 15/06(2013.01)
G10L 25/30(2013.01)
(54)发明名称一种基于深度神经网络的多模态语音识别方法(57)摘要本发明公开了一种基于深度神经网络的多模态语音识别方法,包括以下步骤:基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;搭建中文的自动语音识别系统,使用深度神经网络-隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。
本发明降低了声学模型在词和句子的识别错误
率。
权利要求书1页 说明书8页 附图5页CN 110111783 A 2019.08.09
C N 110111783
A
权 利 要 求 书1/1页CN 110111783 A
1.一种基于深度神经网络的多模态语音识别方法,其特征在于,所述方法包括以下步骤:
基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;
获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;
搭建中文的自动语音识别系统,使用深度神经网络-隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。
2.根据权利要求1所述的一种基于深度神经网络的多模态语音识别方法,其特征在于,所述深度神经网络-隐马尔科夫模型的训练具体为:
基于受限玻尔兹曼机,对每一层进行预训练,训练算法是具有1步马尔可夫链蒙特卡罗采样的对比发散算法,第一个受限玻尔兹曼机采用高斯-伯努利单元,其余的RBM采用伯努利-伯努利单元;
训练属于无监督训练,只需提供输入数据目录,将训练数据的方差与小批量中的重建数据的方差进行比较。
2。