基于麦克风阵列的语音增强方法
- 格式:doc
- 大小:262.50 KB
- 文档页数:4
《基于麦克风阵列的语音增强研究》篇一一、引言随着智能设备的广泛应用,语音交互技术在多个领域取得了显著的发展。
为了提高语音交互的准确性和清晰度,语音增强技术变得越来越重要。
麦克风阵列技术作为一种有效的语音增强手段,得到了广泛的研究和应用。
本文将探讨基于麦克风阵列的语音增强研究,分析其原理、方法和应用前景。
二、麦克风阵列技术原理麦克风阵列是由多个麦克风组成的系统,通过分析和处理不同位置上麦克风采集到的信号,可以有效地抑制噪声、增强目标语音。
其工作原理主要包括波束形成、时延估计和相位校正等步骤。
(一)波束形成波束形成是麦克风阵列技术的核心部分,它通过将不同位置上的麦克风信号进行加权叠加,形成一个指向目标方向的波束。
这样可以有效地抑制来自其他方向的噪声,提高目标语音的信噪比。
(二)时延估计时延估计是麦克风阵列处理中的关键步骤之一。
通过估计不同麦克风之间的信号传输时延,可以确定声源的位置。
这有助于提高波束形成的准确性,进一步增强目标语音。
(三)相位校正相位校正是为了消除由于不同麦克风之间的传输路径差异导致的相位偏差。
通过对不同位置的麦克风信号进行相位校正,可以进一步提高语音增强的效果。
三、基于麦克风阵列的语音增强方法(一)基于波束形成的语音增强通过优化波束形成的算法和参数,可以有效地抑制噪声、增强目标语音。
常见的波束形成算法包括固定波束形成、自适应波束形成等。
这些算法可以根据不同的应用场景和需求进行选择和调整。
(二)基于多通道滤波的语音增强多通道滤波是一种基于频域的语音增强方法。
通过分析不同通道之间的信号差异,可以提取出目标语音并抑制噪声。
这种方法在处理复杂环境下的语音信号时具有较好的效果。
(三)基于深度学习的语音增强随着深度学习技术的发展,越来越多的研究者开始尝试将深度学习算法应用于麦克风阵列的语音增强中。
通过训练深度神经网络模型,可以有效地提取出目标语音的特征并抑制噪声。
这种方法在处理复杂环境下的语音信号时具有较高的准确性和鲁棒性。
《基于麦克风阵列的语音增强研究》篇一一、引言随着人们对音频质量要求的不断提高,语音增强技术逐渐成为音频处理领域的研究热点。
麦克风阵列技术作为一种有效的语音增强手段,通过多个麦克风的协同作用,可以实现对声源的定位、语音信号的分离以及语音增强的功能。
本文旨在研究基于麦克风阵列的语音增强技术,以期在复杂环境中实现高保真的语音识别与通讯。
二、麦克风阵列基本原理麦克风阵列是由多个麦克风按照一定规则排列而成的阵列系统。
其基本原理是通过不同麦克风接收到的信号之间的相位差和幅度差,结合阵列几何结构,实现对声源的定位和信号的分离。
麦克风阵列技术广泛应用于语音识别、语音增强、声源定位等领域。
三、基于麦克风阵列的语音增强方法基于麦克风阵列的语音增强方法主要包括声源定位、信号分离和后处理三个步骤。
1. 声源定位:通过多个麦克风的信号到达时间差和幅度差等信息,估计出声源的方向和距离。
声源定位是后续信号分离的基础。
2. 信号分离:在确定了声源位置后,采用适当的信号处理算法,如盲源分离、基于高阶统计的分离方法等,从混合信号中提取出目标语音信号。
这一步骤中,针对噪声环境和不同背景下的分离效果尤为关键。
3. 后处理:通过语音增益调整、噪声抑制等后处理技术,进一步提高语音信号的质量。
后处理环节可以有效消除背景噪声、回声等干扰因素,使语音信号更加清晰。
四、研究现状与挑战目前,基于麦克风阵列的语音增强技术在理论研究和实际应用方面都取得了显著的成果。
然而,在实际应用中仍面临诸多挑战。
如:如何提高声源定位的准确性、如何有效分离混合信号中的目标语音、如何处理不同环境下的噪声干扰等。
此外,随着人工智能和深度学习技术的发展,如何将先进的算法应用于麦克风阵列技术,提高语音增强的效果和效率,也是当前研究的重点。
五、研究方法与实验结果为了解决上述问题,本文采用深度学习算法与麦克风阵列技术相结合的方法进行语音增强研究。
首先,通过构建神经网络模型,实现对声源的精准定位和混合信号的有效分离;其次,利用深度学习算法对后处理环节进行优化,进一步提高语音质量;最后,通过实验验证了该方法的可行性和有效性。
软件开发0 引言随着科技的发展,智能家居热潮使语音识别逐步走向了生活的各方面。
但在嘈杂环境下,自动语音识别系统的性能会因噪声所带来的掩蔽及干扰导致其性能出现急剧下降,其主要原因在于设备未接收到有效的命令词而被唤醒前,很难精确的实时估测目标说话人所在的方位,导致波束形成[1]等算法无法在唤醒之前就开始工作,从而极大地降低了噪声场景下的唤醒性能。
本文针对该问题,提出一种可在嘈杂环境下有效提升语音识别系统性能的前端麦克风阵列语音增强方法。
该方法基于自适应噪声抵消的基本原理[2],在无需噪声统计特性等先验信息的情形下,可以获得十分良好的噪声抑制效果,改善噪声环境下拾取信号的信噪比,有效提升智能交互设备的唤醒率、识别率,明显改善嘈杂环境下智能语音交互设备的用户体验。
1 麦克风阵结构设计本文所采用的麦克风阵列结构及数据采集配置如图1所示,其中包含两组麦克风子阵列。
图中M为阵列阵元,其下标表示阵元所属的子阵及麦克风编号。
在所选择的麦克风阵列中,单边子阵阵元间距(1,1M与1,2M间距离)设置为1-2cm,此时阵元间采集噪声信号会呈强相关性,因此可利用各路噪声相关的阵列增强算法,例如多路自适应噪声抵消算法,盲源分离法等实现语音增强。
两个子阵之间间距一般设置为5-8cm,此时其阵元间所采集的噪声信号表现为弱相关,因此可采用利用各路噪声不相关算法,例如延迟求和波束形成和GSVD最有滤波及子空间法等实现语音增强。
正是基于所采用麦克风阵列的这些显著的结构特点,所提出的语音增强算法可适用于多种特性噪声的消除,且在应用场景发生变化的情形下具备更为稳健的噪声消除效果。
本文选取四元阵列的情形进行研究,即两个子阵都由两个间距为2cm的麦克风小阵构成,两个子阵间的间距设置为6cm。
2 频域自适应噪声抵消假定一个长度为L的自适应噪声抵消滤波器(Adaptive noise cancellation, ANC),其以第一个麦克风子阵的噪声信号作为参考信号,而第二个麦克风子阵所采集的信号为目标信号,结合语音激活检测(Voice activate detection, VAD)[3]所给出的信息,控制滤波器参数在非语音段更新,而在语音段不进行更新,从而实现对噪声的通道间传播路径进行的建模,再将预测所得的噪声信号从目标信号通道中消除。
《基于麦克风阵列的语音增强研究》篇一一、引言随着人工智能技术的快速发展,语音识别和语音交互技术已成为人们日常生活和工作中不可或缺的一部分。
然而,在复杂多变的实际环境中,语音信号常常受到各种噪声的干扰,导致语音质量下降,进而影响语音识别的准确性和语音交互的体验。
因此,如何有效地进行语音增强,提高语音信号的信噪比(SNR),成为了一个重要的研究课题。
麦克风阵列技术因其能够通过多个麦克风的协同作用,实现空间滤波和声源定位,为语音增强提供了新的解决方案。
本文将就基于麦克风阵列的语音增强研究进行深入探讨。
二、麦克风阵列技术概述麦克风阵列是由多个麦克风按照一定几何结构排列组成,通过采集声波到达各个麦克风的相位差和幅度差,实现声源定位和语音信号处理。
麦克风阵列技术具有空间分辨率高、抗干扰能力强、适用于复杂环境等优点,在语音识别、语音交互、机器人听觉等领域有着广泛的应用。
三、基于麦克风阵列的语音增强方法基于麦克风阵列的语音增强方法主要包括波束形成、噪声抑制和语音分离等技术。
1. 波束形成波束形成是麦克风阵列技术中常用的一种方法,它通过加权求和各个麦克风的信号,形成指向性波束,从而提高目标语音的信噪比。
常见的波束形成方法包括延迟求和波束形成、相位变换波束形成等。
2. 噪声抑制噪声抑制是针对麦克风阵列接收到的语音信号中的噪声进行处理,以降低噪声对语音质量的影响。
常见的噪声抑制方法包括谱减法、非负矩阵分解等。
在麦克风阵列中,可以通过空间滤波和声源定位,更准确地识别并抑制噪声。
3. 语音分离语音分离是通过分析多个声源的信号特征,将不同声源的语音信号分离出来。
在麦克风阵列中,可以利用声源定位技术,确定各个声源的位置,然后通过信号处理技术将不同声源的语音信号分离出来。
四、实验与分析为了验证基于麦克风阵列的语音增强方法的有效性,我们进行了相关实验。
实验结果表明,通过波束形成、噪声抑制和语音分离等技术,可以有效提高语音信号的信噪比,改善语音质量。
基于麦克风阵列的声源定位与语音增强方法研究共3篇基于麦克风阵列的声源定位与语音增强方法研究1随着数字通信技术的发展,声音信号处理已经成为了一个十分紧迫的问题。
由于现实环境中的各种干扰,音频信号可能会失真、弱化或干扰。
因此,对于一些需要精确处理声音的领域,比如语音识别、人机交互、视频会议等,如何有效的增强和定位声源就成为了一个十分重要的技术问题。
本文将从基于麦克风阵列的声源定位和语音增强两个方向分别进行研究并提供当前的一些方法及趋势。
一、声源定位声源定位是指通过分析进入麦克风阵列的声波,根据信号到达不同麦克风时差,来估计声源位置的过程。
其基本过程通常可以分为几个部分。
1、麦克风位置校准为了进行精确的声源定位,需要首先确定麦克风阵列的摆放位置。
通常的方法是通过一些定位仪器或自主机器人,将麦克风阵列在空间中的坐标位置进行测量并校准。
2、声波同步为了进行声源的到达时间分析,需要在各个麦克风间建立同步时钟。
通过将麦克风的信号进行时间同步,我们就能够进一步分析声源的到达时间差。
3、时差计算在排好位置并将麦克风信号同步后,使用时差估计算法计算麦克风之间信号到达的时间差。
对于小间距的麦克风阵列,我们可以采用信号交叉相关函数法(time delay estimation method);而对于大间距阵列,我们则可以采取声波到达角度的算法(angle of arrival estimation method)。
4、声源定位麦克风到达时间差后,声源定位应该是一个比较简单的问题。
基于规则的几何算法以及最小二乘法都是当前普遍使用的方法之一。
其中,最小二乘法因其具有较高的求解精度和易于实现的特点而受到了广泛的关注。
二、语音增强语音增强是指在复杂的背景噪声环境下,对语音信号进行降噪、去回声、声音增益等一系列信号处理操作的过程,以实现语音信号的最佳信噪比增益。
一些常用的方法包括:1、基于小波分解的语音增强基于小波分解的语音增强利用小波分析方法分离语音信号中的噪声和有用信号。
专利名称:面向麦克风阵列的通道注意力加权的语音增强方法专利类型:发明专利
发明人:唐闺臣,孙世若,梁瑞宇,王青云,谢跃,包永强,邹采荣
申请号:CN202011028613.8
申请日:20200925
公开号:CN112151059A
公开日:
20201229
专利内容由知识产权出版社提供
摘要:本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法,方法包括:从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;构建多通道语音增强模型;将麦克风阵每路带噪语音的短时傅里叶变换频谱作为多通道语音增强模型的输入特征,对多通道语音增强模型进行预训练;将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。
本发明采用U‑NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。
申请人:南京工程学院
地址:211167 江苏省南京市江宁科学园弘景大道1号
国籍:CN
代理机构:南京睿之博知识产权代理有限公司
代理人:刘菊兰
更多信息请下载全文后查看。
基于麦克风阵列的语音增强方法
概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。
在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。
这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。
应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。
本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。
最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。
1麦克风阵列
麦克风阵列是将两个麦克风的信号耦合为一个信号。
在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。
采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。
对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。
2基于麦克风阵列的语音增强方法
2.1基于自适应波束形成器的麦克风阵列语音增强
自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。
最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。
在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。
广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。
麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。
它的好坏直接影响着系统波束形成的性能。
系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。
将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。
2.2基于固定波束形成的麦克风阵列语音增强
固定波束形成技术是最简单最成熟的一种波束形成技术。
1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。
此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。
后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。
采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。
延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。
可调波束形成器结构如图2所示,它利用阵列形成不同波束角度时GSC的输出能量作为代价函数来估计波束对准声源时各通道语音的时延补偿值,以实现目标语音信号方向的定位.其基本思想是:假定目标信号入射角为α,利用不同的α求出对应的通道补偿时延值τ对各通道接收的语音信号进行时延补偿,然后通过传统GSC算法得到各自对应的增强语音,并比较不同α对应的输出信号能量,最大能量对应的α即为实际目标信号方向,相应的τ即为目标语音到达相邻麦克风的时延补偿值。
表1给出了2种比较算法的语音增强结果.从表中可以看出,在3种不同噪声、不同SNR下,该算法的消噪性能均优于传统的GSC算法。
2.3基于后置滤波的麦克风阵列语音增强
1988 年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。
基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。
它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性,依据某一准则实时更新滤波器权系数,对所接收到数据进行滤波,从而达到语音增强的目的。
图2 结合后置滤波的固定波束形成器
后置滤波方法存在以下不足:首先,算法的性能受到时延误差的影响,使增强后的语音信号有一定失真;其次,该方法对方向性的强干扰抑制效果不佳。
后置滤波方法极少单独使用,常与其他方法联合使用。
2.4基于子空间的麦克风阵列语音增强
子空间方法的基本思想是计算出信号的自相关矩阵或协方差矩阵,然后对其进行奇异值分解,将带噪声语音信号划分为有用信号子空间和噪声子空间,利用有用信号子空间对信号进行重构,从而得到增强后的信号。
由Asano 等提出的基于相干子空间的麦克风阵列语音增强方法是一种典型的子空间方法。
该方法首先将语音信号划分到不同频带,然后在每个频带再利用空间信息,进行子空间处理。
2.5基于近场波束形成的麦克风阵列语音增强
当声源位于麦克风阵列近场(即阵列的入射波是球面波)情况下,声波的波前弯曲率不能被忽略,如果仍然把入射声波作为平面波考虑,采用常规的波束形成方法来拾取语音信号,那么麦克风阵列系统输出效果会很不理想。
解决这个问题最直接的方法就是根据声源位置和近场声学的特性,对入射声波进行近场补偿,但是这种方法需要已知声源位置,这在实际应用中难以满足。
由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。
2.6基于相干性滤波器和广义旁瓣抵消器组合的麦克风小阵列语音增强算法
在语音段和非语音段采用不同的平滑系数分别进行噪声谱估计,可以加快跟踪噪声谱的变化,并能保证较小的目标语音畸变;而对于采用的NLMS 算法,在语音段和非语音段采用不同的步长对滤波器权系数进行更新,可以最大限度避免在长语音段对噪声信号跟踪失效的问题。
本语音增强算法结构如图 1 所示。
从图中可以看出,算法主要分为两部分:相干性滤波器和广义旁瓣抵消器,主要思想是利用基于VAD 的迭代相干性滤波器作为广义旁瓣抵消器的前置预处理滤波器,用以抑制包括混响和非相关性噪声信号在内的干扰,然后使用基于变步长NLMS 的广义旁瓣抵消器抑制残留的噪声信号。
3方法特点与对比
自适应波束:自适应如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。
但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。
固定波束:该类麦克风阵列语音增强方法实现简单且有韧性,但需要较多麦克风才能得到较好的噪声抑制能力。
因此,实际中很少单独使用。
后置滤波:与自适应波束形成麦克风阵列语音增强方法相比,后置滤波方法在对非相干噪声抑制方面,具有明显的优势。
但算法的性能受到时延误差的影响,使增强后的语音信号有一定失真。
该方法对方向性的强干扰抑制效果不佳。
后置滤波方法极少单独使用,常与其他方法联合使用。
子空间:基于子空间的麦克风阵列语音增强方法虽然降噪性受噪声场是否相关影响较小,在相干和非相干噪声场中均有一定的消噪效果,但是由于计算量较大,实现实时处理具有一定困难。
近场波束:这种方法需要已知声源位置,这在实际应用中难以满足。
由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。
相干性滤波器和广义旁瓣抵消器组合:通过模拟和实际试验,可以看出这个组合算法明显优于单独使用小阵列波束形成算法和相干性滤波器算法。
4总结
鉴于实际声学环境下噪声类型和噪声场的复杂性,许多学者将性能互补的方法相结合,以改善其中任何一种语音增强方法的噪声抑制能力。
在实际应用中应根据具体的使用环境的噪声特性,设计合适的麦克风阵列结构,选择最佳的算法及其具体的实现形式。
5参考文献
[1]采用可调波束形成器的GSC麦克风阵列语音增强方法_李芳兰(第34卷第12期电子与信息学报 2012年2月)
[2]基于麦克风阵列的语音增强算法概述_丁猛(2011 年第3 期大众科技No.3,2011(总第139 期))
[3]基于麦克风阵列的语音增强研究_周述畅(第22 卷第7 期 2012 年7 月计算机技术与发展)
[4]基于相干性滤波器的广义旁瓣抵消器麦克风小阵列语音增强方法_杨立春(第34卷第12期电子与信息学报2012年12月)
[5]用于麦克风阵列的阵元筛选方法研究_叶永(第25卷第11期 2012年11月传感技术学报)。