二次加速SRP—PHAT声源定位算法
- 格式:pdf
- 大小:327.56 KB
- 文档页数:5
一种基于麦克风阵列的声源定位算法研究王勇;刘颖;刘建平【摘要】麦克风阵列声源定位广泛应用于视音频会议系统及枪声定位系统等领域.提出了一种基于最小熵值(ME)的麦克风阵列声源定位新方法,其特点在于利用最小熵值方法对麦克风阵列进行时延估计,并与离散网格方法相结合,对声源进行空间搜索.实验结果表明,在同等混响或噪声条件下,该方法定位优于广义互相关-相位变换方法(GCC-PHAT).%The acoustic source is widely used in audio and video conference system and gunshot localization system. In this article, a novel acoustic source localization algorithm for microphone array based on minimum entropy and stochastic region contraction (ME) is proposed. The algorithm show that the acoustic source can be developed to estimate time delay between microphones on a basis of minimum entropy and localize the acoustic source in search space by using discrete grid search algorithm. Experimental results show that the proposed algorithm is much more robust than GCOPHAT in noise and reverberation environment.【期刊名称】《现代电子技术》【年(卷),期】2011(034)019【总页数】4页(P61-64)【关键词】麦克风阵列;声源定位;最小熵值;波达时延差【作者】王勇;刘颖;刘建平【作者单位】西安电子科技大学,陕西西安710071;武警工程学院,陕西西安710086;武警工程学院,陕西西安 710086【正文语种】中文【中图分类】TN911.3-340 引言基于麦克风阵列的声源定位是声学信号处理领域中的一个重要问题。
改进的SRP-PHAT声源定位方法
谭颖;殷福亮;李细林
【期刊名称】《电子与信息学报》
【年(卷),期】2006(028)007
【摘要】基于联合可控响应功率和相位变换(SRP-PHAT)的传声器阵列声源定位方法是一种鲁棒的声源定位方法.该方法在弱噪声和适度混响的环境下,可以获得较精确的波达方向角(DOA)估计,但在低信噪比或强混响的环境下,该方法的性能并不理想,而且庞大的运算量也限制了其在实时定位系统中的应用.针对这两方面的问题,本文提出了一种改进的SRP-PHAT传声器阵列声源定位方法,从而使定位方法的运算量大大降低.仿真实验表明,改进的SRP-PHAT定位方法即使在噪声干扰较大和混响影响较严重的环境下,仍具有较高的定位精度.
【总页数】5页(P1223-1227)
【作者】谭颖;殷福亮;李细林
【作者单位】大连理工大学,电子与信息工程学院,大连,116024;大连理工大学,电子与信息工程学院,大连,116024;大连理工大学,电子与信息工程学院,大连,116024【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.近场声源定位的改进最大似然方法研究 [J], 侯云山;王素芳;金勇
2.基于改进TDOA的近场声源鲁棒定位方法研究 [J], 曹洁;吴尧帅;李伟;王进花
3.改进DSB方法的语音信号多声源定位 [J], 王杰;黄丽霞;张雪英
4.面向声源定位的改进广义互相关时延估计方法 [J], 屈顺彪;俞华;芦竹茂;申冲;韩钰;王晨光
5.基于广义互相关改进的麦克风阵列声源定位方法 [J], 李保伟;张兴敢
因版权原因,仅展示原文概要,查看原文内容请购买。
二次加速SRP-PHAT声源定位算法乔杰;李致金;赵力【期刊名称】《数据采集与处理》【年(卷),期】2011(26)6【摘要】In microphone arrays application, sound source localization is a vitally important problem. Sound source localization algorithm based on steering response power-phase transform (SRP-PHAT) has high robustness and accuracy, especially in noisy and echo environment. But SRP-PHAT algorithm requires large computation, which is a big shortcoming in application. To solve the problem, a new algorithm is proposed by optimizing arrays construction and search strategy. Two-dimensional search space is firstly converted to one-dimensional one then a hierarchic search strategy is adopted in one-dimensional search space. Simulation results show that a bulk of computational expense is saved by using the new algorithm.%基于可控功率响应和相位变换(Steering response power-phase transform,SRP-PHAT)的声源定位算法具有较高的鲁棒性和准确性,特别是在强噪声和回响条件下.但SRP-PHAT类算法在工程应用中有一个巨大的障碍,那就是需要较大的运算量.为了解决该问题,本文从阵列拓扑结构和搜索策略两个方向出发,对SRP-PHAT类算法加速.首先,通过垂直布置的阵列将二维空间的搜索转化为一维空间的搜索;其次,采用层次搜索策略,由粗至精对一维空间进行搜索.仿真实验表明,采用该方法可以节约大量的计算量.【总页数】5页(P681-685)【作者】乔杰;李致金;赵力【作者单位】南京信息工程大学电子与信息工程学院,南京,210044;南京信息工程大学电子与信息工程学院,南京,210044;东南大学信息科学与工程学院,南京,210096【正文语种】中文【中图分类】TN912【相关文献】1.一种改进的联合SRP-PHAT语音定位算法 [J], 袁安富;孟君2.改进的SRP-PHAT声源定位方法 [J], 谭颖;殷福亮;李细林3.基于SRP-PHAT的实时声源定位算法设计与实现 [J], 刘生4.基于SRP-PHAT的实时声源定位算法设计与实现 [J], 刘生5.基于改进二次相关算法的声源定位仿真研究 [J], 简泽明;彭阳;高泽平;刘梦然因版权原因,仅展示原文概要,查看原文内容请购买。
SRP-PHAT的改进算法综述袁晓坤;才德;邓甲昊;栗苹;敬明旻【摘要】最大可控响应功率波束形成法( SRP - PHAT)是当前传声器阵列声源定位主流方法之一.针对该算法计算量庞大,不能进行实时声源定位的问题,对基于随机搜索的空间收缩快速算法(SRC)、由粗到精空间收缩快速算法(CFRC)、随机粒子滤波快速算法(SPF)等进行了分析、比较,总结了当前SRP - PHAT的改进方法.【期刊名称】《电声技术》【年(卷),期】2012(036)010【总页数】4页(P53-55,62)【关键词】最大可控响应功率波束形成法;声源定位;传声器阵列;搜索算法【作者】袁晓坤;才德;邓甲昊;栗苹;敬明旻【作者单位】北京理工大学信息感知与对抗国防重点实验室,北京100081;北京理工大学信息感知与对抗国防重点实验室,北京100081;北京理工大学信息感知与对抗国防重点实验室,北京100081;北京理工大学信息感知与对抗国防重点实验室,北京100081;中国石化石油工程技术研究院信息与标准化研究所,北京100101【正文语种】中文【中图分类】TN9111 引言传声器阵列信号处理技术是源于雷达、声呐等系统。
传声器阵列声源定位在通信、移动机器人和助听器装置等许多领域具有广泛应用价值[1]。
在这些应用中,最基本的就是要估计声源位置,并且需要兼顾定位精度和算法的实时性。
SRP-PHAT法将本身固有的稳健性、短时分析特性与时延估计中相位变换方法对信号周围环境的不敏感性相结合,使声源定位系统具有一定的抗噪性、抗混响性和稳健性[2]。
目前,SRP-PHAT法是一种对窄带和宽带信号均可适用的有效方法,得到了广泛研究和应用。
但是由于其全局搜索算法运算量较大,限制了该方法的实时性。
在保持定位精度不变的前提下,大量削减计算量,加快计算速度,以适应实时目标探测的要求就成为SRPPHAT算法对单目标定位研究的主要问题之一。
2SRP-PHAT算法具有的全局搜索算法尽管SRP-PHAT具有较强的稳健性,但由于存在较多局部极值,为求得全局最优解,早期的算法往往对空间网格上的所有点都进行考察,求得输出功率最大值点作为声源的估计点。
一种修正的近场声源定位时延估计方法杜要锋;尹雪飞;陈克安【摘要】时延估计是近场声源定位领域中的一项关键技术.相位转换广义互相关时延估计方法(PHAT-GCC)由于其低的计算复杂度和易于实现的特点使得此方法在实际的被动声定位系统中得到了广泛应用.但是此方法只能在高信噪比和适度混响条件下有较好的性能.针对此问题,给出了一种修正的PHAT-GCC方法,并在不同信噪比和混响环境下与PHAT-GCC方法进行比较,仿真实验表明,修正的方法在较低信噪比下的抗混响性能有所提高.【期刊名称】《电声技术》【年(卷),期】2010(034)002【总页数】5页(P47-50,81)【关键词】时延估计;近场;声源定位;广义互相关;混响【作者】杜要锋;尹雪飞;陈克安【作者单位】西北工业大学,电子信息学院,陕西,西安,710129;西北工业大学,电子信息学院,陕西,西安,710129;西北工业大学,航海学院,陕西,西安,710072【正文语种】中文【中图分类】TN912.31 引言声源定位问题是传声器阵列应用中的基本问题之一。
传声器阵列声源定位在车载导航、人机接口、声音检测设备、移动机器人、助听器等许多领域具有广泛的应用价值。
现有的声源定位技术主要分为三大类:基于最大输出功率的可控波束形成方法、基于子空间分解的高分辨谱估计方法和基于时延估计的双步定位方法。
可控波束形成方法[1]是对传声器所接收到的声源信号滤波并求加权求和来形成波束,进而通过搜索声源可能的位置来引导该波束,最终使波束输出功率最大的点就是声源的位置。
此方法计算量较大,且在实际应用中存在诸多缺陷,如分辨率受阵列孔径的限制,对于许多实际应用环境而言,增大阵列孔径来提高精度是不现实的;高分辨谱估计方法是利用不同的方法对阵列接收数据的协方差矩阵进行分解定出方向角。
其中以多重信号分类法(Multiple Signal Classification,MUSIC)最具代表性,该类方法精度较高,对相邻很近的2个声源具有较高分辨率,适合多声源定位问题。
第54卷 第6期2021年6月通信技术Communications TechnologyVol.54 No.6Jun. 2021文献引用格式:皮磊,郑翔,武欣嵘,等.SRP-NMF:一种多通道盲源分离算法[J].通信技术,2021,54(6):1333-1338.PI Lei,ZHENG Xiang,WU Xinrong,et al.SRP-NMF: a multi-channel blind source separationalgorithm[J].Communications Technology,2021,54(6):1333-1338.doi:10.3969/j.issn.1002-0802.2021.06.007SRP-NMF:一种多通道盲源分离算法*皮 磊,郑 翔,武欣嵘,陈美均(陆军工程大学,江苏 南京 210007)摘 要:将双通道盲源分离算法GCC-NMF扩展到广义多通道盲源分离问题中,提出了一种新的多通道盲源分离算法SRP-NMF。
该算法利用SRP-PHAT算法计算每个源信号到麦克风通道的到达时间差,对混合信号中的源信号进行定位和计数,并结合非负矩阵分解实现盲源分离算法。
实验使用WSJ0-2mix数据集和VCC数据集来评估分离结果。
通过实验数据发现,SRP-NMF算法比其他传统的算法的分离效果要好,分离准确性高,且能够保持对噪声的鲁棒性。
关键词:盲源分离;多通道信号;非负矩阵分解;到达时间差中图分类号:TP3 文献标识码:A 文章编号:1002-0802(2021)-06-1333-06SRP-NMF: A Multi-channel Blind Source Separation AlgorithmPI Lei, ZHENG Xiang, WU Xinrong, CHEN Meijun(Army Engineering University of PLA, Nanjing Jiangsu 210007, China)Abstract: This paper extends the dual-channel blind source separation algorithm GCC-NMF to the multichannel blind source separation problem and proposes a new multichannel blind source separation algorithm: SRP-NMF. The algorithm first uses the SRP-PHAT algorithm to calculate each source signal’s arrival time difference to the microphone channel and locates and counts the source signal in the mixed signal. Then, combined with non-negative matrix factorization, the blind source separation algorithm is realized. This paper uses the WSJ0-2mix data set and the VCC data set to generated multichannel mixture signals in experiments. The experimental results indicate that, SRP-NMF has a better separation effect than other traditional algorithms, with high separation accuracy, and can maintain robustness to noise.Keywords: blind source separation; multi-channel source signal; non-negative matrix factorization; time difference of arrival0 引 言鸡尾酒会问题[1]是一个经典的盲源分离问题,其目的是从混合信号中将源信号分离出来。
基于虚拟位置的声学二次定位方法海底电缆采用机械放缆方式将电缆连同检波器铺设到海底,由导航系统记录下检波器离开放缆船的位置,作为一次定位结果。
声学二次定位需要由放缆时导航系统记录的检波点位置坐标、声学应答器地址,声学应答器与检波器位置关系文件,这些信息都是放缆完成后导航系统产生的,因此声学二次定位需要电缆施放完成后方能进行。
本文介绍一种通过模拟放缆产生和前绘相同的检波点坐标文件,再通过手动输入声学应答器地址、关系文件的方法,在放缆过程中,同步进行声学二次定位。
标签:一次定位声学二次定位应答器地址关系文件前绘同步声学二次定位1引言浅海地区是海上和陆地的过度带,受潮流等因素影响,其浅层地质条件极为复杂。
该地区蕴藏着丰富的能源,多波地震勘探技术的应用能够适应该地区的特点,其前景一片光明。
在浅海过度带的地震勘探中,通过机械放缆的方式将四分量检波器铺放到海底,电缆入水后会受到水流,潮汐,以及放缆船的机械拖带作用的影响,使检波器很难铺放到前绘位置点上。
目前二次定位的方法主要有声波定位和初至波定位,初至波定位需要电缆整條放完,还要接到仪器船由仪器记录,时间长、效率低。
因此用声学二次定位确定检波点在海底的准确位置是非常快捷、实用的方法。
放缆船以2节的船速施放一条6公里电缆需要2小时,放缆完成后对电缆进行声学定位需要2小时,收起一条6公里电缆需要1.5小时。
一旦电缆施放到海底的位置与前绘差别较大,收缆重放至少要耽误7个小时,严重影响施工质量和施工效率,因此有必要在放缆过程中对电缆进行定位,为放缆工作提供参考,提高放缆成功率。
2 声学二次定位原理2.1声学定位原理声学二次定位原理是一种圆—圆定位方法,它利用勘探船上装载的GPS以及实时导航系统提供的声学探头的位置,再通过其它方法测定声学探头到声学信标之间的距离,以声学探头的位置为圆心,以测定的距离为半径画圆。
应用两个声学探头的位置点画出的两个圆能够确定出两个交点,其中之一就是声学信标的位置。
一种改进的联合SRP-PHAT语音定位算法
袁安富;孟君
【期刊名称】《南京信息工程大学学报》
【年(卷),期】2012(000)006
【摘要】提出了一种基于正交直线麦克风阵列的分级搜索 SRP-PHAT(可控响应功率-相位加权)语音定位算法。
利用正交直线麦克风阵列将二维搜索空间缩减为2个一维空间以减少计算量,并联合使用四叉树由粗到细的分级搜索(hierarchical search)策略分别在一维空间中搜索声源位置。
通过Matlab对联合算法进行了仿真,实现了声源定位,并与传统的全搜索SRP-PHAT算法和改进前的基于正交直线麦克风阵列的加速SRP-PHAT算法进行比较分析。
实验与仿真结果显示:该联合算法大大减少了计算量和定位时间,能准确定位声源位置。
【总页数】6页(P534-539)
【作者】袁安富;孟君
【作者单位】南京信息工程大学信息与控制学院,南京, 210044;南京信息工程大学信息与控制学院,南京, 210044
【正文语种】中文
【中图分类】TH71;TG803
【相关文献】
1.一种改进的SRP-PHAT宽带信源DOA估计算法 [J],
2.一种改进的SRP-PHAT宽带信源DOA估计算法 [J], 左炜;刘越;
3.改进的SRP-PHAT声源定位方法 [J], 谭颖;殷福亮;李细林
4.基于SRP-PHAT的实时声源定位算法设计与实现 [J], 刘生
5.基于SRP-PHAT的实时声源定位算法设计与实现 [J], 刘生
因版权原因,仅展示原文概要,查看原文内容请购买。
一种改进的联合语音定位算法S R P-P HA T袁安富1孟君1摘要0引言提出了一种基于正交直线麦克风阵列的分级搜索SRP-PHAT ( 可控响应功率-相位加权)语音定位算法.利用正交直线麦克风阵列将二维搜索空间缩减为2 个一维空间以减少计算量,并联合使用四叉树由粗到细的分级搜索(h i era rc h i ca l sea rc h)策略分别在一维空间中搜索声源位置.通过M at l a b对联合算法进行了仿真,实现了声源定位,并与传统的全搜索SRP-PHAT 算法和改进前的基于正交直线麦克风阵列的加速SRP-PHAT 算法进行比较分析.实验与仿真结果显示:该联合算法大大减少了计算量和定位时间,能准确定位声源位置.关键词声源定位;可控响应功率-相位加权算法;正交直线麦克风阵;分级搜索如今,SRP-PHAT 算法凭借其在实际环境下良好健全的性能,已经成为最受青睐的语音定位算法,但是庞大的计算量使得实时地执行算法变得困难.因此,自SRP-PHAT 算法被提出以来,许多研究者都尝试着减少其核心的可控响应功率搜索过程的计算量[1-4].文献[1]提出了一种基于正交线性麦克风阵列的加速SRP-PHAT 算法.在远场条件下,正交线性麦克风阵列把二维的搜索空间缩减成了 2 个成对的一维搜索空间,主要的计算过程可以分别在 2 个一维空间内进行.对于一个M 元阵列,此方案需要的计算量只有常规SRP-PHAT 算法的1 /M,定位精度没有损失,但是该方法只考虑了远场条件下基于正交线性麦克风阵列的情况,具有很大的局限性.文献[2]采取了一种在空间和频率上利用四叉树由粗略到细致进行网格划分的分级搜索策略,显著提高了算法的运算速度.这种策略利用了产生目标函数的信号的一些特性,比如说,语音的波长是随着定位空间的扩大而增长中图分类号T H71;T G803文献标志码A的.首先在一个粗略的网格里进行搜索可控响应功率(S R P)最大值,局部最大值所在区域被选中进行下一轮分级迭代搜索,但是这种方法很容易在开始搜索时选错初始网格,尤其是在调制反响环境中,此时算法会出现估计错误.仿真和实验显示,这种方案在混响时间超过300 ms 时,不能达到和传统SRP-PHAT 算法一样的健全性能[5].本文联合了上述 2 种算法的优势,提出了一种改进的联合SRP-PHAT 语音定位算法,即基于正交直线麦克风阵列的分级搜索SRP-PHAT 算法.在远场条件下,首先利用正交直线麦克风阵列将二维搜索空间削减为一对一维空间,然后分别在一维空间中执行分级搜索策略,寻找SRP 最大值以确定声源位置,因此联合算法进一步缩减了原来的文献[1-2]所示算法的计算量,并且声源定位精确度没有明显损失.收稿日期2011-03-01资助项目南京信息工程大学科研基金(2008-0326)作者简介袁安富,男,教授,硕士生导师,主要研究机电产品的动静态性能分析和优化设计.c h ar l e s-y u a n@ 163. com正交直线麦克风阵列模型1本文采用的18 元正交等间距直线麦克风阵列声源定位模型如图1 所示.声源信号的波达方向D O A(D i rect i o n of A rr i va l)通过坐标原点指向声源的方向向量表示,它与信号波的传播方向相反.麦克风阵元1响,还会因为家具等房间内的物体位置移动而变化.当这些因素变化显著时,需要假设其在短时间内保持恒定,因此,当声源和麦克风位置确定时,可认为RI R 在短时间内是时不变的.bm( t) 为第m 个麦克风接收到的噪声,包括麦克风系统中的通道噪声和环境噪声2 部分,其中环境噪声为主导成分.因此可认为各个麦克风所接收的噪声之间以及噪声与声源信号之间均是独立不相关的.时延估计算法的目的是计算2 个麦克风接收信号的直达时间差别,因此元5 位置重合.相邻麦克风阵元间的距离为d.语音信号声源位置采用球坐标表示为s = ( r,θ, ),其中r为声源与麦克风阵列参考点的距离,θ为方位角,为仰角.DOA 单位向量为us=[cos cos θ,co s s i ns i n ]T,则声源位置向量为s = r* u .麦克风阵元msT的位置向量为r m = [x z].γ为DOA 向量与Zy轴正向的夹角,β为DOA 向量与Y 轴正向的夹角,可得γ=π- ,cos β= cos s i n2RI R 可以分解成2 部分,一部分为直达声道的响应,剩余的另一部分设为h'm( t) .因此式(1)改写为xm( t)= αms( t -τm)+ h'm( t) * s( t) + bm( t) .(2)其中m = 1,2,…,M,αm = r m 是声音在大气中传播的幅度衰减因子,τm= rm/c 是信号从声源位置直接到达第m 个麦克风的传播时延,这里rm是声源到第m 个麦克风的距离,c为声音在空气中的传播速度.这时麦克风接收到的信号即为声源信号的延迟形式加上声源信号与剩余RI R 部分的卷积[7].信号到达麦克风m 和麦克风n 的时延差别记为τmn= τn-τm.- 1联合SRP-PHAT 算法3图1 正交直线麦克风阵列F i g.1 Ort h o go n a l li n ea r array of m i c ro ph o n es3. 1 基于正交直线麦克风阵列的分级搜索算法SRP-PHAT 算法联合了相位变换加权和可控响应功率,通过在所有可能覆盖声源位置的范围内搜索可控响应功率SRP 的最大值来确定声源位置.由文献[1]可知,可控响应功率是M 元麦克风阵列中所有麦克风对的广义互相关函数总和,即当麦克风阵列系统应用于一般会议室等室内环境时,若声源和麦克风阵列的距离小于500 c m,麦克风阵列信号接收模型应采用精确的近场模型,信号波波前为球面波波前;若声源与麦克风阵列相距较远,即r d 时,则满足远场条件,可以采用近似的平面波前模型.这时声源的位置向量实际上只是一个方向而已,与距离r 无关[6].本文研究远场条件下的声源定位算法,因此算法中声源位置的确定过程归结为方位角θ和仰角 的估测.M ( ω)e-jωτmm0(s)X2= ∫P P HA T( s)∑m(3)dω.Xm( ω)||m = 1其中,X ( ω)是x ( t) 的傅里叶变换形式,s = ( r,θ,m m)是语音信号声源位置的球坐标,τmm ( s)是可控波束形成过程中麦克风m 处的可控时延,即信号直达麦克风m 的真实时延与信号直达参考麦克风m时延的相对时延.当声源位于远场时,信号波波前可以近似认为是平面波,因此可控时延与声源的距离无关.信号模型2在一个室内混响环境中,某一位置处的信号可以认为与声源信号s( t) 是线性相关的.一个M 元麦克风阵列中第m 个麦克风接收到的信号可表示为τmm( s)= us·(rm-rm) /c.(4)其中u s是声源位置的单位方向矢量,r m 和r m 分别xm( t) = hm( t) * s( t) + bm( t) .(1)0是麦克风m 和参考麦克风m在直角坐标系中的位置向量,c是声音传播速度.在执行算法时,麦克风接收的信号都经过采样,信号处理过程处理的对象是其中m = 1,2,…,M,* 表示卷积. h m ( t) 为声源与第m 个麦克风之间的房间脉冲响应(R I R),描述了声源与麦克风位置之间所有声道的特性,包括声源直2其中 T s = f s 是采样周期,f s 是采样频率. 在 SRP- PHAT 算法中,声源位置可以通过麦克风阵列信号 的一帧数据估算,仍用 x m ( n ) 表示一帧数据,数据帧 的离散傅里叶变换记作 X m ( k ) . 把式( 3) 中的傅里叶 变换替换成各自的数据帧离散傅里叶变换形式,则 相位变换可控响应可以表示为 - 1度搜索,计算每个候选 γ 处的可控响应功率部分; 最后由式( 7 ) 、( 10 ) 计算出基于相位变换加权的可控 响应功率. 同样地,可控响应功率最大值对应的( β,γ) 即为算法的执行结果,再通过角度转化,便可以得 到声源位置( θ, ) . 这里的角度搜索过程都是全角度搜索,因此仍需要处理相当大的计算量. 若是在横向角度搜索和MX m ( k )Y ^ P HA T ( k ,s ) =∑ - j ωτmm 0( s ), ( 6)X m ( k ) m = 1 | |纵向角度搜索过程中应用文献[2]的分级搜索策略, 其中 ω 仍是连续信号的频率. 把总共 K 个离散帧的 可控响应相加,则可以得到基于相位变换加权的可 控响应功率K -1利用四叉树把一维角度搜索空间划分为多个子区,四叉树的所有节点都可以被继续分割成 4 个子节点进行迭代搜索; 在构建的能量分布图中,局部极值对 应的子区被选中进入下一轮算法的分级搜索; 当四P^ P HA T( s ) = ∑ Y ^ P HA T ( k ,s ) Y ^ PHAT * ( k ,s ) , ( 7)叉树不断分叉直至达到期望的级数和定位精确度,k = 0其中* 表示复共轭.图 1 所示直角坐标系中,麦克风阵元 m 的位置为即达到设定的最小子区大小时,迭代过程终止. 在分 级搜索的最后一级,能量最大的子区的中心角度作 为声源定位的结果. 假设麦克风阵列位于房间的一 ( m - 5) d 0]T , m = 1,2,…,9, 0( 14 - m ) d ]T,m = 10,11,…,18. r m = {[0 [0 面墙上 那么声源位置都将位于麦克风阵列的前方. , ( 8)首先建立一个 级的四叉树,一维搜索空间总共被l T参考麦克风 m 0 的位置向量为 r m= [0 0 0] .已 粗级划分成了 22l个子区,若存在多个声源时,这些 子区的大小需要足够小,使得不会有 2 个声源位于同一子区中. 需要注意的是,DOA 空间中的子区在房间坐标体系中并不是矩形的,需要先由已知的房间大小估计出声源位置距离麦克风阵可能的最远距离,参照此距离把 DOA 划分网格以( x ,y ,z ) 的坐标形式重新绘制成坐标系网格,再通过坐标系网格来知在远场条件下,声源位置与声源距离无关,由方位 角 θ 和 仰 角 确 定. 把 以 上位置向量代入 S RP - PHAT 算法的可控时延式( 4 ) ,并且由上文可知,声 源单 位 方 向 向 量 u s = [cos cos θ,cos s i n θ, s i n ]T ,DOA 向量与 Z 轴正向的夹角 γ 和 DOA 向量与 Y 轴正向的夹角 β 分别满足 γ = π- ,cos β =2cos s i n θ,则麦克风阵列中第 m 个麦克风的可控时 延为 选择截止频率和初始网格大小. 相对于全角度搜索,分级搜索策略的优势已经在文献[2]中得以证明,因此联合算法进一步缩减了原来的单一利用正交直线 麦克风阵列结构优势或分级搜索策略的算法的计算 量,集合了这 2 种算法的核心优势,并且声源定位精 确度没有明显损失.={( 14 - m ) dcos γ / c ,m = 10,11, (18)( m - 5) dcos β / c , m = 1,2,…,9, τmm 0 ( s ) ( 9)此时,相位变换可控响应( 6) 可以改写成 MX m ( k )Y ^ P HA T ( k ,s ) =∑ e - j ωτmm 0( s ) = X m ( k ) |m = 1 | 算法执行本文提出的基于正交直线麦克风阵列的分级搜 索算法在执行时,首先利用正交直线麦克风阵列的 几何特性,把二维的 DOA 空间划分成 2 个一维 D O A 空间; 然后分别在横向角度和纵向角度,利用四叉树 将一维搜索空间分级划分为多个子区,计算所有子 区中心处的可控波束形成输出的 S R P ; 能量最大的子区被选中为最有可能的声源位置,进入下一轮分 级迭代搜索; 四叉树不断分叉达到某一层度,即达到 设定的最小子区大小时,迭代过程终止. 在分级搜索的最后一级,能量最大的子区的中心角度作为算法执行的结果,即声源位置. 具体步骤如下.3. 2 9 X ( k ) 18 X ( k ) m -j ω( m -5) dcos β/ c m -j ω( 14-m ) dcos γ/ c∑ e + ∑ e = m =1 | X m( k ) | m =10 | X m ( k ) | ( k ,γ) . Y ^ PHAT ^ PHAT ( k ,β) ( 10) + Y 2 1通过式( 10 ) ,可以将 DOA 元素分离开来考虑,使得 二维的搜索空间被削减成为一对一维空间. 具体地说,就是Y ^ P HA T ( k ,β) 和Y ^ P HA T ( k ,γ) 可以分别在一个一 1 2维空间中计算,因此算法总的计算量会大大地减少.在一维搜索空间中寻找 SRP 最大值时,首先需要进 行横向寻优,在一维空间 β ∈[0,π]中进行角度搜 索,计算每一个候选 β 处的可控响应功率部分; 然后系数为0. 9,地板的反射系数为0. 3,墙壁ZOY 与对面墙壁反射系数分别为0. 7 和0. 25,墙壁ZOX 与对面墙壁反射系数分别为0. 25 和0. 85.麦克风阵列位于墙壁ZOY 上,阵列中心即图1 所示坐标系的原点位于房间坐标系的(0,2,1. 5)处.声音在空气中的传播速度为342 m /s.声源信号的内容为男声英文数字“o n e,two,t h re e,fo u r…”,数字间有短暂停顿,时长10第1 步.构建混响声学房间系统.对于M 元麦克风阵列,算法先由式(2 ) 、(5 ) 计算出M 个麦克风接收到的离散信号xm( n ) ,并求其离散傅里叶变换Xm( k).第2 步.按式(9)计算出正交直线麦克风阵列中信号到达各个麦克风处的可控时延τmm ( s).第3 步.进行横向寻优,在一维空间β∈[0,π]中进行四叉树分级角度搜索.先在频域对信号进行低通滤波处理,截止频率为 1 kH z,初始子区划分大小为4 ×4.因为角度搜索精度为1°,所以四叉树分叉阶次为6,即子区边界大小依次为π/4、π/8、π/16、π/32、π/64、π/128.在每一轮能量局部极值搜索过程中,按式(10 ) 依次计算每一个子区候选角度βs,由计算机通过放置于说话人嘴边的麦克风采集,信号采样频率为8 kHz,采样精度为16 b i t,单声道,PCM 格式.数据帧的大小为256 个采样点(32 m s),窗函数为汉宁窗.仿真时去除了语音信号中空白停顿的频谱,共选出100 个没有重叠的语音数据帧用来执行算法.算法执行得出的结果为估计声源位置的方位角θ和仰角 ,若其中任意一个估计值与实际声源位置方位角或仰角偏差超过5°,则认为是异常估计.通过衡量非异常估计的均方根误差(RM S E)来对比分析本文提出的联合SRP-PHAT 算法(算法3)、传统的全搜索SRP-PHAT 算法(算法1)以及阵列加速SRP-PHAT 算法(算法2 ) 的性能.均方根误差公式为[1]处的可控响应Y^PHAT( k,β),取得最大值的子区被选1中进入下一轮迭代搜索.第4 步.如上进行纵向寻优,在一维空间γ∈[0,π]中进行四叉树分级角度搜索,按式(10 ) 计算每个子区候选γ处的可控响应Y^P HA T( k,γ).2第5 步.由式(7)、(10 ) 计算出基于相位变换加权的可控响应功率P^PHAT ( s),可控响应功率最大值对应的(β,γ)即为算法的执行结果,通过角度转化,便可以得到声源位置(θ, ).4 算法仿真本文基于正交直线麦克风阵列,利用M at l a b 构建了一个存在混响和噪声的声学房间环境,对提出的基于正交直线麦克风阵列的分级搜索S R P-P H A T算法(以下简称为联合SRP-PHAT 算法)的性能进行了仿真,并与传统的全搜索SRP-PHAT 算法、文献[1]的基于正交直线麦克风阵列的加速S R P-P HA T算法(以下简称为阵列加速SRP-PHAT 算法)的定位性能进行比较和分析.正交直线麦克风阵列如图 1所示,麦克风之间距离均为0. 04 m.混响声学房间的仿真利用了镜像模型[8],由此可以计算出房间脉冲响应R I R.本文中RI R 计算到了第8 级反射,混响时间T60变化范围为50 ~ 200 m s.将声源信号与各个麦克风位置的RI R 进行卷积,可以得到各个麦克风输出的仿真信号.仿真出的房间是一个由平面反射界面(墙壁、天花板、地板)围成的矩形空间,各界面的反射系数与声源信号的频率无关,且不随声源信号的入射角度的改变而变化.本文仿真实验中,以房间地面的一角为坐标原点,构建如图 2 所示房间坐标图2 混响房间坐标系(单位:m)F i g.2 Coo r d i n ate sy stem of th e reve rbe ran t roo m(un i t:m)-1θ^i-θs|2 ^i-s|2= N [|槡na ∑].(11)ERM S E+|i其中θ^i和 ^i是用数据帧i执行算法时得到的声源方位角及仰角的估计值,θs和s是声源的实际方位角及仰角,Nna是所有非异常估计的个数.根据不同的混响时间、不同的信噪比(S NR)以及不同的声源位置,本文共做了3 个仿真实验,实验中由M at l a b 在麦克风处对声源信号添加适量的高斯白噪声,以获得所需信噪比.1实验 3 说明,在声源位置的方向角和仰角较大 时,算法定位的误差也随之变大. 该实验结果符合实 200 m s . 仿真结果如表 1 所示.实验2. 实际声源位置为 S 1 = ( 2 m ,37°,11°) , 混响时间 T 60 为 100 m s ,信噪比分别为 20、25、30 d B .仿真结果如表 2 所示.实验 3. 信噪比设为 30 dB ,混响时间 T 60 为 100ms ,实际声源位置分别为 S 1 = ( 2 m ,37°,11°) 、S 2 = ( 0. 5 m ,- 60°,30°) 、S 3 = ( 2 m ,4°,- 3°) . 仿真结果 如表3 所示. 从实验 1、2 可以发现,当信噪比较好、混响影响 不明显时,改进的 SRP-PHAT 定位方法与原全搜索 算法的错误估计率都较低,均有着良好的性能,但随 混响时间增加,噪声干扰变大时,3 种算法的性能都 有着不同程度的下降,全搜索算法在恶劣条件下有 较强鲁棒性. 联合算法的性能与另 2 种算法性能的 差距并不明显,在保证良好的抗噪性能和抗混响能 力的同时,极大地减少了算法计算量和定位时间.[9-10] 际人耳定位特性 . 5 结论在保证 SRP-PHAT 声源定位方法的抗噪声、抗 混响能力的前提下,为了降低其庞大计算量以提高实时处理速度,本文提出了改进的联合 S R P -P HA T 声源定位方法. 基于正交直线麦克风阵列,首先利用缩减二维搜索空间为一对一维搜索空间的加速策略,减少了 SRP-PHAT 算法的主要计算量,然后分别在一维空间中按由粗到细的分级搜索策略搜索能量峰值. 改进的 SRP-PHAT 方法计算量再次大幅度降低,声源定位精确度没有明显损失,能准确定位声源位置,并且在噪声和混响环境中能保持良好的鲁棒性.表 1 算法定位性能( 信噪比 = 30 dB ,混响时间变化)Ta b l e 1 P erfo rmanc e o f a l go r i t hm s w i t h SNR = 30 dB and va r i a b l e reve rbe ra nt t i m eT 60 / ms算法50100150200E RMSE / ( ° ) E RMSE / ( ° ) E RMSE / ( ° ) E RMSE / ( ° ) 非异常率 / % 非异常率 / % 非异常率 / %非异常率 / %算法 1 算法 2 算法3 90 88 842. 012 5 2. 125 7 2. 363 187 85 822. 270 6 2. 317 3 2. 479 287 81 802. 483 2 2. 476 6 2. 629 085 80 772. 505 5 2. 549 7 2. 825 0表 2 算法定位性能( 混响 100 m s ,信噪比变化)Pe rfo rman ce of a l go r i t hm s w i t h T 60 = 100 ms and va r i a b l e S NRTa b l e 2 信噪比 / d B算法202530E RMSE / ( ° )E RMSE / ( ° )E RMSE / ( ° )非异常率 / %非异常率 / %非异常率 / %算法 1 算法2 算法3 848075 2. 338 9 2. 408 22. 886 787 83802. 321 1 2. 670 02. 822 98785822. 270 6 2. 317 32. 479 2算法定位性能( 混响 100 m s ,信噪比 = 30 dB ,声源位置改变)表 3 Ta b l e 3 Pe rfo rman ce of a l go r i t hm s for d i ffe re n t l oca t i o n s w i t h T 60 = 100 ms and SNR = 30 d B声源位置算法( 37° ,11° )( - 60° ,30° )( 4° ,- 3° )E RMSE / ( ° ) E RMSE / ( ° ) E RMSE / ( ° ) 非异常率 / %非异常率 / %非异常率 / %算法 1 算法2 算法3 87 85 822. 270 6 2. 317 3 2. 479 285 82 792. 295 0 2. 353 4 2. 596 091 88 852. 167 9 2. 279 8 2. 386 0[6 ] 居太亮. 基于麦克风阵列的声源定位算法研究[D ].成都: 电子科技大学通信与信息工程学院,2006J U Ta ili a n g . Research on speech source l oca li zat i o n me th od s based on m i c ro ph o n e a rray s [D ]. C h e n g du : Un i -vers i ty of E l ectro n i c Sc i e n ce and Tec hn o l o gy of C h i n a ,2006D i B i a se J H ,S il ve r m a n H F ,B ra nd ste i n M S . Ro bu st l o - ca li za t i o n in reve rb e ran t ro o m s [M ]∥ M i cro ph o n e A r - ray s : S i g n a l P roc ess i n g Tec hn i qu es an d App li cat i o n s .B e r li n ,G e r m a n y : S p r i n ge r -V e r l a g ,2001: 157-180Allen J B ,Be r k l ey D A . I m a ge me th od for eff i c i e n t l y 参考文献 References[1 ] Ca i W P ,Wang S K ,Wu Z Y . A cce l e rate d s tee red re -sponse power m e tho d for sound source l oca li zat i o n u s i n g ort h o go n a l li n ea r a rray [J ]. App li e d A co u st i c s ,2010,71 ( 2) : 134-139Z ot k i n D N ,Du ra i swa m i R . A cce l e rate d speech sourcel oca li zat i o n v i a a h i e ra rc h i ca l search o f steere d response p owe r [J ]. IEEE T ra n sac t i o n s on Speec h an d Aud i o Pro- cess i n g ,2004,12( 5) : 499-508Dm oc h ows k i J P ,Bene sty J ,A ffes S . A ge n e ra li ze d steere d response power me th od for co mpu tat i o n a ll y v i a - b l e source l oca li zat i o n [J ]. IEEE T ra n sact i o n s on Aud i - o ,Speech and Language Process i n g ,2007,15 ( 8 ) : 2510-2526Do H ,S il v er m a n H F ,Yu Y . A rea l -t i m e S R P -P HA Tsource l ocat i o n i mp l e m e n tat i o n u s i n g stoc h a st i c re g i o n co n trac t i o n ( S R C ) on a l a rge -a p e rt u re m i c ro ph o n e array[C ]∥ P rocee d i n gs of I n te r n at i o n a l Conference on A- [7 ] [2 ] [8 ]s i mu l at i n g s m a ll -roo m aco u st i c s [J ]. J Acou st Soc Am ,[3 ] 1979,65( 4) : 943-950谭颖,殷福亮,李细林. 改进的 SRP-PHAT 声源定位方法[J ]. 电子与信息学报,2006,28( 7) : 1223-1227 TAN Y i n g ,Y I N Fu li a n g ,L I X ili n . Sound l oca li zat i o n me th od u s i n g m o d i f i e d SRP-PHAT a l gor i t hm [J ]. J o u r n a l of E l ectro n i cs & I n fo r m at i o n Te c hn o l o gy ,2006,28 ( 7 ) : 1223-1227孟君. 基于 DSP 的数字助听器多通道响度补偿方案[J ]. 南京信息工程大学学报: 自然科学版,2010,2 ( 5) : 420-425MENG J un . Mu l t i -c h a nn e l l o udn ess co mp e n sat i o n m et h- od for d i g i ta l h ea r i n g a i d s based on D SP [J ]. J o u r n a l of N a n ji n g Un i ve rs i ty of I n fo r m at i o n Sc i e n ce & Tec hn o l o gy : N at u ra l Sc i e n ce Ed i t i o n ,2010,2( 5) : 420-425[9 ] [4 ] [10] co u st i c s ,S p eec h I -124and S i g n a l P rocess i n g ,2007: I -121- [5 ] Perte rso n J ,K y r i a k a k i s C . An a l ys i s of fast l oca li za t i o n a l -go r i t hm s for aco u st i ca l e n v i ro nm e n ts [C ]∥ Procee d i n gs of the 39t h A s il o m ar Confe re nc e on S i g n a l s ,Syste m a nd Co mpu te r ,2005: 1385-1389A co mb i n e d S R P -P HAT m e t h o d f o r s o und s o u r c e l oca li za t i o nYUAN Anfu 1 MENG J un 11 Sc h oo l of I n fo r m at i o n and Co n tro l ,N a n ji n g Un i ve rs i ty o f I n fo r m at i o n Sc i e n c e & Tec hn o l o gy ,N a n ji n g 210044Ab s t r ac t In m i cro ph o n e array s a pp li cat i o n ,i t i s d i ff i c u l t to l oca li ze sound sou rce acc u rate l y and qu i c k l y in a n o i syand reverbera nt e n v i ro nm e n t . In order to so l ve t h i s p ro b l e m ,m a n y researchers have pre sented d i ffere n t a pp roac h es .The steered resp onse power-phase tran sform we i g h te d ( S R P -P HA T ) source l oca li zat i o n a l go r i t hm has been proved ro bu st ,h owe ver ,i t re qu i res h i g h co mpu tat i o n cost for searc h i n g the peak of steered resp onse power in a l arge l oca -t i o n s p ace . Thus ,an i mp rove d SRP-PHAT me tho d u s i n g an ort h ogo n a l li n ear array was pre sen ted in t h i s paper ,w h i c h reduced a two -d i m e n s i o n searc h i n g space to a co up l e of o n e -d i m e n s i o n o n es . Then the para me ters of d i rect i o n of arr i va l ( D O A ) were separate d ,and c o mp ute d res p ect i ve l y in the o n e -d i m e n s i o n searc h i n g space w i t h coarse -f i n estrateg i es of h i era rc h i ca l searc h . T h i s a l gor i t hm was based on the o b servat i o n that the wave l e n gt h s of the sound fro m aspeech source are co mp ara b l e to the d i m e n s i o n s of the space b e i n g searched and that the source was b roa db a nd .Asyste m at i c ser i es of co mp ar i so n s w i t h p rev i o u s a l gor i t hm s were made b as i n g on M at l a b . S i mu l at i o n s show that t h em a i n co mpu tat i o n a l l oa d of SRP-PHAT a l go r i t hm s has been great l y cut down ,and there i s no l oss in accuracy in t h e proposed m et h o d . The performa nce of the a l go r i t hm can be furth er i mp rove d by u s i n g co n stra i n ts from co mpu ter v i -s i o n .K e y w o r d s sound source l oca li zat i o n ; S R P -P HA T ; ort h ogo n a l li n ear arra y ; h i erarc h i ca l search。
基于GCC-PHAT的改进近场声源定位算法梁音;张华;陈利民;龙学焜;王伟;肖中奇【摘要】GCC-PHAT combined with SRP searching algorithm had proved to be ineffective on narrowband sound source and the localization results deteriorated severely with the decreasing of SNR.To solve these problems,proposed an improved algorithm for near field model which introduced a weighting factor by calculating the PAPR of received signals in the frequency domain,and then make logarithmic transformation to compress the dynamic range,as well as the establishment of a threshold to suppress noise,etc.,and further optimized the sound source position searching strategy.A lot of simulation results showed that the improved algorithm has strong ability to resist noise and have good estimation effects on both broadband and narrowband sound sources,it's very suitable for real-time processing.%结合GCC-PHAT与SRP搜索的算法被广泛应用于声源定位系统,但其定位结果随信噪比降低而恶化严重,且难以估计窄带声源.针对这些问题,提出一种用于近场模型的改进算法.首先计算阵列信号求和功率谱的峰均比,再经对数变换和设置噪声抑制阈值等步骤,得到反映频点信噪比的加权因子,将其应用在GCC-PHAT中,并进一步优化SRP搜索策略.大量仿真结果表明:改进的算法具有强的抗噪能力,且对宽带和窄带声源信号均有良好的估计效果,很适合实时处理.【期刊名称】《南昌大学学报(理科版)》【年(卷),期】2016(040)006【总页数】6页(P557-562)【关键词】声源定位;近场;时延估计;可控功率响应;对数峰均比;宽带-窄带【作者】梁音;张华;陈利民;龙学焜;王伟;肖中奇【作者单位】南昌大学机电学院江西南昌 330031;南昌大学信息工程学院,江西南昌 330031;南昌大学机电学院江西南昌 330031;南昌大学机电学院江西南昌330031;南昌大学信息工程学院,江西南昌 330031;南昌大学信息工程学院,江西南昌 330031;南昌大学信息工程学院,江西南昌 330031;南昌大学信息工程学院,江西南昌 330031【正文语种】中文【中图分类】TN912麦克风阵列是声源定位的基础。