基于麦克风阵列声源定位的发展历程及关键技术
- 格式:doc
- 大小:31.00 KB
- 文档页数:8
不知道麦克风阵列是何方神圣?这篇文章告诉你!上个世纪七八十年代,麦克风阵列技术已经开始应用到语音技术的研究中,2000年左右,业界开始慢慢深入,进行基于麦克风阵列相关算法的专题研究。
到了物联网时代,市场的刺激和产品的需求,极大的推动了相关的技术进展,尤其是2014年亚马逊echo的正式发布,这一领先性的语音技术迅速进入到民用级产品的应用范畴中。
一般来说,人耳能听到的声音频率在20~20000赫兹之间,而很有意思的是,听觉其实是一种预警机制,除了听到声音,更重要的是具备分辨声源方向的能力,屏蔽主赫兹以外的声音更是为了对人体起到一定的保护作用,为有效交流提供保证(否则整个世界就真的太吵了)。
那么,相似地,麦克风阵列,其实就相当于机器之耳,不仅只是为了采集音频,识别信号,传输信息,还为了更好的声源定位和噪音降解,杂音屏蔽等。
思必驰于2015年年底推出了环形6+1远场麦克风阵列,也是目前国内唯一一款6+1环麦,亚马逊echo核心功能的“中国版”技术。
目前被广泛运用在机器人和音箱等智能家居产品中。
那么这款环麦具体有什么样的功能和优势?麦克风阵列能解决的问题【语音增强】解决噪声环境下的识别噪声环境是影响语音识别的一个重要因素,普通家居环境下的噪音有混响、回声、背景噪音、人声干扰等多种类型。
不同步的语音相互叠加产生音素的交叠掩蔽效应,严重影响语音识别的效果。
解决该问题需要从抑制噪声和语音增强两方面入手。
思必驰环形6+1远场麦克风阵列利用拾音波束成形,采用独特算法,有效抑制波束之外的噪声,同时融合语音信号的空时信息,从含噪声的语音信号中提取出纯净语音,有效地增强说话人语音。
【声源定位】辅助多功能联动对麦克风拾音来讲,声源的位置的不确定性为语音交互带来了阻碍。
思必驰环形6+1远场麦克风阵列实现360°环形拾音,多麦克定向,准确计算目标说话人的角度和距离,实现对目标说话人的跟踪以及后续的语音定向拾取,精准度控制在±10°以内,成为智能语音交互中捕捉说话人语音的重要方式。
一文带你全面熟悉智能语音之麦克风阵列技术的原理麦克风阵列技术是智能语音领域的关键技术之一,其原理主要涉及麦克风的排列方式、信号处理算法和声源定位技术。
麦克风阵列技术的应用广泛,包括语音识别、语音指令控制、语音唤醒等领域。
首先,麦克风阵列技术中麦克风的排列方式非常重要。
麦克风阵列一般采用线性阵列或圆形阵列的方式,麦克风之间的间距要适当,以便在获取声音信号时保持一定的角度分辨率。
常见的线性阵列包括线性辐射阵列和线性非辐射阵列,前者可实现波束形成,后者可消除噪声对波束形成的影响。
而圆形阵列则可以提供全方位的感知能力,适用于多声源定位和追踪。
其次,麦克风阵列技术中的信号处理算法是实现语音增强和噪声削减的关键。
常见的信号处理算法包括自适应波束形成、空间滤波、噪声估计和消除等。
自适应波束形成算法通过调整麦克风阵列的权重来强化目标信号,抑制背景噪声。
空间滤波算法可以根据麦克风阵列的几何形状和声源位置,对声音进行滤波和增强。
噪声估计和消除算法可以检测到现场的噪声状况,并进行实时消除,提高语音信号的清晰度和可听性。
最后,麦克风阵列技术中的声源定位技术是实现多声源分离和定位的关键。
常见的声源定位技术包括基于时延差的定位、基于空间谱的定位和基于声学特征的定位等。
基于时延差的定位技术通过计算麦克风阵列上各个麦克风上的声音到达时间差,推断声源的位置。
基于空间谱的定位技术通过分析麦克风阵列接收到的声音的空间谱信息,推断声源的方向。
基于声学特征的定位技术则通过分析声音的特征参数,如声音的频率、幅度、谐波等特征,推断声源的位置。
总的来说,麦克风阵列技术通过合理的麦克风排列方式、信号处理算法和声源定位技术,实现了对语音信号的增强和噪声削减,提高了语音识别和语音控制的准确性和可靠性。
麦克风阵列技术的广泛应用将进一步推动智能语音技术的发展。
基于ODE_FIND 麦克风阵列的室内组声跟踪技术开发室内组声跟踪技术是一项目前较为热门的技术,它可以将麦克风阵列与ODE_FIND技术相结合,实现对多个声源的准确定位与跟踪。
本文将就基于ODE_FIND的麦克风阵列室内组声跟踪技术的开发进行探讨。
在室内环境中,声音的反射、衰减等因素会对声源的定位产生影响,为了准确地确定声源的位置,我们可以利用麦克风阵列并采用ODE_FIND技术。
麦克风阵列能够收集到多个方向上的声音信号,通过分析这些信号的差异性,可以实现对声源的定位。
ODE_FIND技术是一种基于信号处理和数学模型的算法,它能够通过对信号的推导和分析,找出最佳的解决方案。
在基于ODE_FIND的麦克风阵列室内组声跟踪技术中,我们可以利用ODE_FIND算法对麦克风阵列收集到的声音信号进行分析和处理,从而精确地定位声源的位置。
具体而言,我们需要进行以下几个步骤来开发基于ODE_FIND的麦克风阵列室内组声跟踪技术:1. 硬件搭建:首先,需要搭建一个麦克风阵列系统,包括多个麦克风组件及其连接设备。
麦克风的位置和数量要根据实际应用需求进行设计。
麦克风阵列应能够实现对声源的全向接收,即能够同时接收到声源在不同方向上的声音信号。
2. 信号采集与预处理:通过麦克风阵列采集声音信号,并对声音信号进行预处理,包括滤波、放大等步骤,以确保采集到的信号质量。
3. 音源定位算法:使用ODE_FIND算法对预处理后的声音信号进行处理,以确定声源的位置。
ODE_FIND算法能够通过对信号的解析与推导,找出声源位置的最佳估计。
4. 算法验证与优化:对开发的算法进行验证和优化,通过模拟实验和实际测试,检验算法的准确性和稳定性。
根据测试结果,对算法进行调整和优化,以提高声源定位的准确度和可靠性。
基于ODE_FIND的麦克风阵列室内组声跟踪技术的开发,可以应用于各种场景,如会议室、演播室、语音识别等。
通过准确地定位声源,可以实现声音的智能拾取和处理,为用户提供更好的音频体验和交互效果。
基于TDOA 算法的分布式阵列麦克风定位研究语音是人类进行交流沟通最主要的方式之一,他能方便快捷的承载这巨大的信息。
随着社会的迅速发展,进入了高度信息化,语音也室作为重要的信息载体之一,语音数据处理的整个过程可以分为两个部分:A/D转换,即把原始声音的模拟输入转化为数字化信息;D/A转换,即把数字信息转化为模拟数据。
他的传送、存储、识别、合成和增强室现代信息数字化中非常重要、基础的组成部分之一。
而现在人工智能技术的发展,尤其是自然语言处理技术的高速发展,语音处理已经成为现在智能家居、交通、办公、通信等新兴领域中的核心技术之一。
尤其像现在线上教育、云会议等方式的流行,语音信号处理是一个非常具有价值及必要的研究技术。
麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。
也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
麦克风按照指定要求排列后,加上相應的算法(排列+算法)就可以解决很多房间声学问题,比如声源定位、去混响、语音增强、盲源分离等。
语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。
声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。
去混响技术能很好的对房间的混响情况进行自适应的估计,从而很好的进行纯净信号的还原,显著的提升了语音听感和识别效果。
声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。
近场模型和远场模型根据声源和麦克风阵列距离的远近,可将声场模型分为两种:近场模型和远场模型。
近场模型将声波看成球面波,它考虑麦克风阵元接收信号间的幅度差;远场模型则将声波看成平面波,它忽略各阵元接收信号间的幅度差,近似认为各接收信号之间是简单的时延关系。
面向语音识别的自适应麦克风阵列技术研究自适应麦克风阵列技术是一种用于语音信号处理的技术,它通过调整麦克风阵列的方向和信号增益,来削减来自非目标方向的噪声,在复杂噪声环境下提高语音信号的识别准确率。
目前,自适应麦克风阵列技术已经广泛应用于语音识别、智能手机等领域。
本文旨在介绍面向语音识别的自适应麦克风阵列技术的研究进展和未来发展趋势。
一、麦克风阵列技术原理麦克风阵列技术是基于声学特性的研究,通过麦克风阵列对声场进行采集,从而获取到目标信号和干扰噪声。
麦克风阵列是由多个麦克风组成的,按照一定的几何形状排列。
根据波束形成原理,当目标声源和干扰声源位于不同方向时,各个麦克风的相位和幅度不同,通过对各个麦克风的信号进行加权和相位调整,可以使目标声源的信号增强,干扰噪声信号减弱,从而提高声音的清晰度和辨识度。
在麦克风阵列技术中,主要有两种波束形成算法:波束形成和自适应波束形成。
波束形成算法是一种基于固定权系数矩阵的波束形成方法,它把各个麦克风信号进行加权平均,形成一个固定的波束方向。
这种方法简单可行,但缺点也比较明显,由于固定的权系数不适用于噪声情况的变化,因此会使得目标信号的增益被过多压缩,同时不能对噪声进行有效消除。
自适应波束形成算法是目前应用较多的一种波束形成方法,它可以根据实时的声学环境来自动地调整阵列麦克风的权值,从而使目标信号被增强,噪声被抑制。
自适应波束形成算法的核心是根据算法目标和误差方差,通过自适应的控制算法,不断调整权值。
二、自适应麦克风阵列技术在语音识别中的应用自适应麦克风阵列技术在语音识别领域具有重要作用。
语音识别系统的核心是对声音的模式识别,然而在复杂的环境中,各种噪声会干扰到语音信号的识别,因此精度就会受到极大的影响。
通过应用自适应麦克风阵列技术,能够有效地削减来自非目标方向的噪声,提高了语音信号的识别准确率和鲁棒性。
一个经典的示例是语音助手,比如苹果公司的Siri和亚马逊的Alexa,它们需要在嘈杂的环境下准确地识别用户语音指令,因此需要有效的阵列处理技术。
第41卷增刊I垡中科技大学学报(自然科学版)V01.4l Sup.I 2013年10月J.Huazhong U ni v.of Sci.8L Tech.(Natu ral Sc i e n c e Edition)Oct.2013基于小型麦克风阵列的声源定位技术赵圣1崔牧凡2尤磊1王鸿鹏1(1哈尔滨工业大学深圳研究生院深圳物联网关键技术与应用系统集成工程实验室,广东深圳518055;2国家计算机网络应急技术处理协调中心,北京100029)摘要针对传统的时延估计算法不能精确地估计出麦克风之间的时延和易受环境与噪声影响等缺点,利用广义互相关(GCc)算法进行时延估计并对其进行改进,结合自行设计的小型麦克风阵列和提出的空间定位方法,最终实现了声源定位系统,可以计算出声源与目标之间的距离和方位角.实验表明:本声源定位系统能达到比较高的定位精度,具有一定的实用价值.关键词麦克风;声音;定位;广义互相关;四元阵列;数据采集卡中图分类号TN912文献标志码A文章编号1671—4512(2013)S1一0188一04Sound source localization technology based on small microphone arr a y2 yo乱LPiZ^口o S^已咒g C“i^彳“,矗,z W么挖g Ho押g户P卵g(1 Engi nee ring L ab ora to ry fo r K ey T ec h no l o gy an d S y st e m I n t e gr a t i on of I n t er n e t of T h in g s,H a r bi nlnstitute of Tec h no l og y S h e nz h e n Gr adu at e S ch o ol,G ua n gd o ng,S h en z he n,5l 8055;2National Computer Network Emergency Re s po n se Co ord ina tio n C ent er of China,Be巧ing 1 O0029)Abstract As the traditional time delay estimation algorithm c a n n ot accur ately e stimate t he time delay between the micro phon e and vulnerable to e nv ir on me nt al noi se and other shortcomings,G C C algo—rit hm was used and its improvement was used fo r time delay estimation.Ultimatelya sound s o u r c e lo—calization system was i mplemen ted,combi ned with the mic roph onea rra y designed by the author and the spatial orientat ion method w as pr op ose d.It c a n be cal cula ted the distan ce and az imu th between th e sound s o u r c e and the ta rg e t.After experimental verifi cat ion,the sound sour ce localization syste m can achieve high p ositioni ngit ha s some practical value.accur acy,soKe y words microphones;acoustics;position;generalized cross—correlation;four—cross array;data a c—auis itio n c ar d声源定位是许多领域里的一个基本问题,包应用到社会生活的各个方面并发挥了其优越性.括声纳、雷达、电话会议或视频会议、移动电话位例女口NIST(national institute of standardsand置定位、导航和全球定位系统、地震震中定位和地technology information technology Lab)设计了下爆炸.矿f『J微震活动、传感器网‘{I}.先进的人机·种线州:均匀的麦克风阵歹U M.、RT,Ⅲ阵列n1.交互、说话人跟踪,监视和声源追踪等。
声学信号源定位与识别技术研究声学信号源定位与识别技术是一门研究声音信号的来源和特征的学科。
它广泛应用于声纹识别、语音识别、音频处理等领域。
本文将探讨声学信号源定位与识别技术的原理、应用和未来发展趋势。
一、声学信号源定位技术声学信号源定位技术是指通过分析声音信号的到达时间差、声音强度差和频率特征等信息,确定声音信号的来源位置。
常见的声学信号源定位技术包括基于麦克风阵列的波束形成技术、基于声纳的声纹识别技术和基于声音特征的定位技术。
波束形成技术通过将多个麦克风组成阵列,利用声音信号的相位差和幅度差来确定声音信号的来源方向。
这种技术可以提高信号的信噪比,减少环境噪声对定位的影响,广泛应用于会议语音识别、语音增强等领域。
声纳技术是一种基于声波传播的声纹识别技术。
它通过分析声音信号的频率、幅度和时域特征,确定声音信号的来源身份。
声纳技术在军事、安防等领域有着广泛的应用,如水下目标识别、声纹识别等。
基于声音特征的定位技术是一种利用声音信号的频谱、时频特征进行定位的方法。
通过分析声音信号的频谱特征,可以确定声音信号的来源位置。
这种技术在音频处理、环境监测等领域有着重要的应用价值。
二、声学信号源识别技术声学信号源识别技术是指通过分析声音信号的频谱、时域特征和声音模型,确定声音信号的来源类型。
常见的声学信号源识别技术包括语音识别技术、音乐识别技术和环境声音识别技术。
语音识别技术是一种将声音信号转化为文字的技术。
通过分析声音信号的频谱、时域特征和语音模型,可以识别出声音信号的内容。
语音识别技术在智能助手、语音翻译等领域有着广泛的应用。
音乐识别技术是一种将声音信号转化为音乐信息的技术。
通过分析声音信号的频谱、时域特征和音乐模型,可以识别出声音信号的音乐类型、曲目等信息。
音乐识别技术在音乐推荐、版权保护等领域有着重要的作用。
环境声音识别技术是一种将声音信号转化为环境信息的技术。
通过分析声音信号的频谱、时域特征和环境模型,可以识别出声音信号的来源环境,如交通噪声、自然环境声等。
《麦克风阵列下子带分析的多声源定位算法研究》一、引言随着音频处理技术的不断发展,多声源定位技术在麦克风阵列系统中得到了广泛的应用。
麦克风阵列技术通过多个麦克风的协同工作,能够有效地提高音频信号的捕获范围和定位精度。
子带分析作为音频信号处理的一种重要技术,可以有效地提高多声源定位的准确性和鲁棒性。
本文旨在研究麦克风阵列下子带分析的多声源定位算法,以提高音频处理的效率和精度。
二、背景与相关技术多声源定位技术主要依靠麦克风阵列的音频信号处理,结合阵列信号处理技术和数字信号处理技术进行实现。
在过去的几十年里,已经出现了多种基于麦克风阵列的多声源定位算法,如基于时延估计的算法、基于波束形成的算法等。
然而,这些算法在面对复杂环境下的多声源定位时仍存在一定的问题和挑战。
子带分析作为一种音频信号处理技术,通过将原始音频信号分解为多个子带信号进行分别处理,能够提高多声源定位的精度和鲁棒性。
子带分析将音频信号按照不同的频带进行划分,然后在各个频带上分别进行滤波和处理,从而实现频率和时域上的高精度分析。
因此,结合麦克风阵列和子带分析进行多声源定位是一种值得研究的技术手段。
三、麦克风阵列下的子带分析多声源定位算法本文提出了一种基于麦克风阵列的子带分析多声源定位算法。
该算法首先通过麦克风阵列捕获音频信号,然后利用子带分析技术将音频信号分解为多个子带信号。
在每个子带上,采用一种改进的时延估计算法进行声源定位。
通过比较不同麦克风之间的声音到达时间差(TDOA),可以估计出声源的位置信息。
同时,结合阵列信号处理技术和数字信号处理技术,对多个子带上的声源位置信息进行融合和优化,最终得到准确的声源位置估计结果。
四、算法实现与性能分析在算法实现方面,我们采用了基于快速傅里叶变换(FFT)的子带分析方法,将音频信号分解为多个子带信号。
在每个子带上,我们使用了一种改进的时延估计算法,该算法能够有效地提高声源定位的精度和鲁棒性。
在融合和优化阶段,我们采用了加权融合的方法,根据每个子带的信息贡献程度进行加权,以获得更准确的声源位置估计结果。
目录一、绪论 (1)1.1 课题研究背景和意义 (1)1.2 国内外研究现状和发展趋势 (2)1.2.1研究历史和现状 (2)1.2.2发展趋势 (2)1.3本文所要研究的内容 (2)二、麦克风阵列的处理模型和方法介绍 (4)2.1麦克风阵列信号处理模型 (4)2.1.1远场模型 (4)2.1.2远场麦克风阵列均匀线阵模型 (5)2.2基于时延估计声源定位方法的介绍 (6)2.2.1广义互相关时延估计法 (6)2.2.2互功率谱相位时延估计法 (7)2.2.3基于基音加权的时延估计法 (7)2.2.4基于声门脉冲激励的时延估计法 (7)2.2.5 基于LMS 的自适应时延估计法[8] (8)2.2.6 基于子空间分解的时延估计法 (9)2.2.7基于声学传递函数比的时延估计法 (9)三、麦克风声源定位的研究与设计 (11)3.1广义互相关时延估计设计流程 (11)3.2 时延估计定位算法实验研究 (12)3.3互相关延时估计方法 (12)3.4互相关延时估计加权函数性能分析 (15)3.5声源定位的模型分析 (16)3.6时延估计的测量与计算 (17)四、总结 (20)4.1 本文研究的问题与难点 (20)4. 2课题研究总结 (20)参考文献 (22)致谢 (24)摘要随着科技的进步和发展,麦克风阵列的声源定位技术已经成为人们研究的重要课题之一。
用麦克风阵列接受语音信号就是声源定位技术的一种,接受到的语音技术再输出到计算机,经过计算机技术的分析和处理,然后可以确定声源是从哪个方位传过来的。
声源定位技术的广泛应用在许多领域,如定位技术,在军事上的语音识别,视频会议的定位技术。
麦克风阵列对于噪声、声源定位、跟踪这些方面都比单个麦克风要好,从而大大提高语音信号处理质量。
本文主要是用麦克风阵和时延估计声源定位方法对于声源的定位。
首先介绍了几种常见的声源定位方法和各自的优缺点,在此基础上研究基于时延估计的声源定位方法(GCC),比较远场定位和近场定位的差别,确定本文研究的方法远场定位法。
一种基于麦克风阵列的声源定位算法研究一种基于麦克风阵列的声源定位算法研究引言基于麦克风阵列的http://LWlm声源定位是声学信号处理领域中的一个重要问题。
麦克风阵列声源定位技术是指利用空间分布的多路麦克风拾取声音信号,通过对麦克风的多路输出信号进行分析和处理,得到一个或多个声源的位置信息。
尽管可将用于声纳和雷达系统的波束形成技术引入麦克风阵列,但由于语音信号为宽带信号,具有短时平稳特性,且所处环境还具有高混响,噪声大等特点,这些算法针对语音信号的定位精度非常低,需要对算法进行改进。
一般来说,常用的声源定位算法划分为三类[4]:一是基于波束成型的方法;二是基于高分辨率谱估计的方法;三是基于波达时延差(TDOA)的方法。
其中基于波束成形方法通过对麦克风阵列接收信号进行滤波、加权求和,直接控制麦克风阵列指向使波束具有最大输出功率的方向,可在目标源多于一个的条件下对多声源进行定位[5],但存在对初值敏感的问题。
另外还需要知道声源和噪声的先验知识,该方法存在计算量大,不利于实时处理等缺点。
基于高分辨率谱估计的方法在理论上可以对声源的方向进行有效估计,但由于该算法是针对窄带信号,因此若要获得较理想的精度,就要付出很大的计算量代价。
此外这些算法无法处理高度相关的信号,因此混响会给算法的定位精度带来较大影响[6]。
基于时延估计的方法是利用广义互相关等时延估计算法求出信号到阵列不同麦克风的相对时延,并利用时延信息与麦克风阵列的空间位置关系估计声源位置。
该方法计算量小,易于实时实现,近年来得到了高度重视。
本文主要采用基于时延估计的方法进行声源定位。
1 基于TODA方法的基本原理利用TDOA进行声源定位可分为两个部分:首先,通过采用广义互相关方法(GCC)[7]等,并利用平滑相干变换(Smoothed Coherence Transform,SCOT)、相位变换(Phase Transform,PHAT)或最大似然(Maximum Likelihood,ML)进行加权,得出声源到两两麦克风之间的时延差。
科技成果——麦克风阵列声源识别、定向和定位技术成果简介
利用麦克风阵列技术准确定向声源,采用模式识别技术辨别并区分话音和其它声响,采用时延和几何方法确定声源方位,实时处理,算法稳定,抗噪能力强。
应用于监控摄像头辅助系统(引导摄像头转向异常方向,标定录像带中的异常时刻,异常情况时报警等),室内防盗系统(识别破门破窗等异常声响并录音或报警),办公室夜间防盗系统(识别并定向或定位夜间出现的各类异常声响并录音或报警),交通监控系统,保护区监控系统(如偷猎者方位,非法车辆识别、定位和报警等),视像会议系统中的话者定向,机械异常声响识别和定位,基于麦克风阵列的语音获取系统的话者定向或定位,灾场搜寻系统(机器人载,无人机载,营救人员穿戴)。
项目水平国内领先
成熟程度样机
合作方式
合作开发、专利许可、技术转让、技术入股。
龙源期刊网 http://www.qikan.com.cn 基于TDOA麦克风阵列声源定位技术 作者:李德宝 归达举 叶懋 来源:《科技资讯》2016年第13期
摘 要:随着科技的进步和发展,声源定位技术已经成为人们研究的重要课题之一。基于声达时间差(TDOA)是阵列语音信号处理的核心技术,其作用是估算出同一声源信号到达不同麦克风时,因为传输的距离不相同而引起的时间差。麦克风阵列对于室内环境噪声抑制、声源定位、跟踪这些方面都比单个麦克风有优势,从而优化语音信号采样质量。该文主要讲的是用麦克风阵列和时延估计声源定位方法对声源进行定位及跟踪。
关键词:麦克风阵列 声源定位 声达时间差(TDOA) 中图分类号:TN912.34 文献标识码:A 文章编号:1672-3791(2016)05(a)-0003-02 基于麦克风阵列的声源定位技术的研究在全国的关注度越来越高,基于麦克风阵列的声源定位技术是指经过麦克风阵列对声音信号进行采集,从而进行信号处理得到声源到达阵列的波达方向。目前,在全球所有的电子产品都趋向于高度智能化发展的今天,声源定位技术依然扮演着语音通信领域中举足轻重的技术角色。譬如在视频通话中,利用声源定位技术操控摄像头,能够自动搜寻发言者。在20世纪70年代,就已经有很多高校和研究室在这一通信领域进行研究探索,从此基于麦克风阵列的声源定位,语音信号处理中的说话人识别,语音合成等语音信号处理成为科技研究的热点。与单麦克风系统相比之下,麦克风阵列系统在语音信号处理方面具有显著优势:多个麦克风组成的麦克风阵列能够利用互补性能,对背景噪声进行消除和增强语音信号,从而提高语音识别的效果,同时能在一定范围内对声源信号进行实时定位与跟踪,但是单个麦克风却没有能力做到这一点。因此,具有良好的抗噪性、良好的抗混响性能以及简单的计算量或较快的运算速度是一个优秀的时延估计方法所具备的优点。
1 时延估计算法 基于声达时间差的麦克风阵列声源定位的技术主要分为两个步骤:第一步估算语音信号到达阵列中阵元间的时间差(TDOA),进而通过几何关系来确定声源的位置。首先估算时延是该定位技术中的核心内容。声达时间差声源定位的定位精度主要取决于对TDOA的估计。而且时延估计的技术不被阵列结构所限制,运算量少,有相对的精度,因此是当前最常用的技术。声源在受到噪声,混响较小的情况下,能够利用简易的广义互相关方法(GCC)来估算时延,处理声源的定位问题。然而当噪声增大时,混响的变强,简易的广义互相关方法和许多常用的加权广义互相关方法已经完全不能解决估算时延的问题。优化相位互相关方法,锐化了互相关函数的峰值,从中起到了相对的抗混响的作用,增强了估算时延的精度。利用麦克风阵列每一个麦克风接收信号的互补性,采用多信道互相关系数(MCCC)方法来估算任意一对麦克风之间的时延。这种方法能抵抗中度混响和噪音的影响,增强时延估算的性能。然而这种方法龙源期刊网 http://www.qikan.com.cn 在噪音和混响复杂的应用情况中效果不是很完美,并且这种途径对麦克风间的物理结构关系有较高的限制,倘若每个麦克风之间的结构十分繁杂,该途径在时延估量方面也可能会被弱化。时延估计的算法有很多,但是由于该系统主要应用在室内场所,其噪声空间相对平稳以及混响相对较小,故采用TDOA算法中运算量较小的GCC方法来对第一步的时延进行估计分析。其示意如图1所示。
基于麦克风阵列声源定位的发展历程及关键技术摘要:回顾了基于麦克风阵列的声源定位系统的发展历程,对声源定位关键技术进行了讨论,分析了现有算法并对各算法的优缺点进行比较,文章的最后对麦克风声源定位技术的难点进行了概述,为进一步研究麦克风阵列信号处理奠定基础。
关键词:麦克风阵列关键技术信号处理1 发展历程早在20世纪70、80年代,就已经开始将麦克风阵列应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点[1]。
1985年Flanagan将麦克风阵列引入到大型会议的语音增强中,并开发出很多实际产品。
1987年Silverman将麦克风阵列引入到语音识别系统,1992年又将阵列信号处理用于移动环境下的语音获取,后来将其应用于说话人识别。
1995年Flanagan在混响环境下用阵列信号处理对声音进行捕获。
1996年Silverman和Brandstein开始将其应用于声源定位中,用于确定和实时跟踪说话人的位置[2]。
目前麦克风阵列系统已有许多应用,其中在民用上包括视频会议、语音识别、车载系统环境、大型场所的会议记录系统以及助听装置等;军用上包括声纳系统对水下潜艇的跟踪及无源定位直升机和其他发声设备上。
在国外,很多著名的公司和研究机构,如IBM,BELL等,正致力于麦克风阵列的研究和产品,而且已经有了一些初期产品进入市场[3]。
这些产品已经应用到社会生活的各个场合并体现出了极大的优越性。
遗憾的是,在国内,到目前为止还没有自主产权的麦克风阵列产品。
因此,研究我国自主的基于麦克风阵列的语音处理算法和技术具有重要的意义。
我国一些企业、研究所和高校做了大量的相关工作,但是目前对声源定位的研究才算刚刚起步。
2 声源定位关键技术基于麦克风阵列的声源定位是指用麦克风拾取声音信号,通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或者多个声源的位置信息,其使用的关键技术有以下几个方面。
2.1 模型的建立麦克风阵列的阵元按一定的方式布置在空间不同的位置上组成阵列,阵列能够接收空间传播信号,经过适当的信号处理提取所需的信号源和信号属性等信息。
阵列按阵元在空间分布形式的不同,可以分为任意离散阵、直线阵、平面阵、圆弧阵和均匀圆阵。
不同的阵列模型有各自的优缺点,可以用来处理不同的实际情况。
均匀直线阵由于结构简单,并且同时间序列的均匀采样完全对应,可以采用绝大多数基于时间序列的算法,因此受到很大的重视,应用也十分广泛。
然而均匀直线阵列也有很多局限性,不适合多波束的形成,不能直接用于180°范围内的定位,往往是利用多个阵列组合定位,但增加了系统复杂度和实现成本,而且在麦克风阵列的算法处理中也需要进行切换。
平面阵虽然可以在整个平面对目标进行测向,但对于低空甚至是超低空飞行的目标来说,由于在z轴方向没有基元,测向精度受到限制。
均匀圆阵是阵元均匀分布在一个圆环上的圆形阵列,方向增益基本一致,可以提供360°的方位信息,但其对应一个二维空间,在时域无法找到对应的采样定理,会给算法实现带来麻烦,并且由于其圆对称性,均匀圆形阵列对相干声源的解算能力比较弱。
但因其不需扇区切换,处理较为容易。
三维阵列结构较复杂,可以选择的算法不是十分丰富,实现成本较高,但是对整个三维空间定位性能好,适用于需要对整个三维空间定位的系统。
在利用麦克风阵列进行声源定位时,必须已知各个麦克风阵元之间的相对位置关系。
不同的阵型结构对算法精度的影响也非常大,因此需针对不同的应用环境选择与之相对应的阵列结构。
特别是对多个声源目标进行定位时,过小的阵列口径会极大地影响阵列的应用范围。
因此,要根据不同的应用需求选取不同的阵列模型。
2.2 算法的选取麦克风阵列接收的声音信号本身就是复杂的信号,因此声源定位算法必须能够适应信号的各种特性。
不同的声源信号,采取的定位算法也可能不同:例如,在对说话人进行定位时,由于拾取到的语音信号没有经过调制,也没有载波,阵列之间的时延和相位差与信号源的频率关系密切,此时麦克风阵列处理的信号应该看做是一个宽带信号,而传统的定位算法是对窄带而言的。
下面就两种经典的算法进行比较。
MUSIC算法的基本思想是将任意阵列输出的协方差矩阵进行特征分解,得到相互正交的信号子空间和噪声子空间,然后利用两者的正交性进行DOA估算。
MUSIC算法对波达方向的估计性能很好,可以高分辨地准确表现各信号的波达方向,如果参与运算的数据长度足够长或信噪比足够高,且信号模型准确的话,MUSIC算法可以得到任意精度的波达方向估计值。
但是MUSIC算法是以信号子空间和噪声子空间能够准确得到为前提,如果信噪比低或样本数不够,MUSIC算法的分辨率会大幅下降。
基于时延估计(TDOA)的声源定位法在运算量上优于其他方法,实时性好,可以在实际中低成本实现,但也有不足之处:其一是估计时延和定位分成两阶段来完成,因此在定位阶段用的参数已经是对过去时间的估计,这在某种意义上只是对声源位置的次最优估计;其二是时延定位的方法比较适合于单声源的定位,而对多声源的定位效果就不好;其三在房间有较强混响和噪声的情况下,往往很难获得精确的时延,从而导致第二步的定位产生很大的误差;其四是由于阵列结构和系统采样率等条件的限制,其定位精度远远不能与超分辨类算法相比。
任何一种算法都不可能适用于所有情况,我们在不断完善算法,优化其性能的同时,应根据不同的应用环境来选择最佳算法,从而达到最佳效果。
3 麦克风阵列处理的难点采用多个麦克风构成一个麦克风阵列,在时域和频域的基础上增加一个空间域,对接收到的来自空间不同方向的信号进行空时处理,这就是阵列麦克风信号处理的核心思想。
阵列信号处理理论的完善和发展,促进了基于阵列麦克风的信号处理理论的发展。
很多用于阵列信号处理的新算法、新技术和新体系,都可以用于阵列麦克风。
可以说,阵列信号处理理论的发展为阵列麦克风的研究带来了新的契机[4]。
基于麦克风阵列的语音信号处理是阵列信号处理的一种,但它又不同于传统的阵列信号处理,其主要技术难点如下。
3.1 麦克风阵列模型的建立麦克风主要用于处理语音信号,同时阵列麦克风的拾音范围都有限,因此,声源大都位于麦克风阵列近场范围内。
这使得传统阵列处理,如雷达、声纳等,所用的平面波前远场模型不再适用,必须使用更为精确的球面波前模型[5]。
球面波前模型必须考虑由于传播路径不同所带来的幅度衰减的不同,即除了信号的到达方向外,还需要考虑声源与阵列之间的距离。
所以,进行麦克风阵列研究,必须建立适用于麦克风阵列的近场模型。
3.2 阵列宽带信号的处理传统的阵列处理的信号一般是窄带信号。
阵元之间接收到的信号的时延和相位差主要由载波确定。
在麦克风阵列处理中,信号没有经过调制,也没有载波由于语音信号的最高频率和最低频率之比很大,这导致相同的时间延迟却有不同的相位差,阵元之间接收到的信号的时延和相位差由信号源的特性来决定。
麦克风接收到的语音信号频率一般在300Hz~3000Hz之间,阵列之间的时延和相位差与信号源的频率关系密切。
因此,麦克风阵列处理的信号可以看成是一个宽带信号,这使得阵列处理更加困难。
3.3 非平稳信号的处理传统的阵列处理的接收信号一般为平稳信号,而麦克风阵列中的接收信号为非平稳的语音信号。
语音信号可以看成是在20ms~40ms 的时间内是近似平稳的,即语音信号具有短时平稳性。
结合上面的宽带情况,麦克风阵列处理一般先把接收信号经过一个短时傅立叶变换,求出其短时谱,然后在频域进行处理。
每一频率对应一个相位差。
麦克风阵列的信号处理是将宽带信号在频域上分成多个子带,对每一个子带应用传统的窄带处理,从而得到接收信号的空间谱。
3.4 混响的影响传统的阵列信号处理中,噪声和信源通常是不相干的.而麦克风阵列多位于室内等较封闭的环境中,除了环境噪声和其他声源的影响外,声源本身在室内的混响也会对准确定位造成影响。
4 结语麦克风阵列信号处理是数字信号处理的一个新领域,具备许多传统阵列信号处理无法比拟的优势,是目前国内外的研究热点。
但其在低信噪比或强混响的环境下,很多算法的性能都不是很理想,如TDOA,时延的估计精度会受到采样频率的限制。
尽管许多方法试图通过插值来提高估计精度,但是这样的插值只提供了一种平滑的方法,并没有提高时间分辨率。
所以期待能有一种更加精确的时延估计方法,使得TDOA估计不受采样频率的限制。
对于实际的定位系统而言,稳健的时延估计将为下一步精确的定位奠定基础。
庞大的运算量也限制了许多算法在实时定位系统中的应用,如music算法,如何提高在低信噪比环境下的性能与定位系统的抗噪声能力,在复杂度与性能之间取得折衷,将是下一步的研究工作。
相信随着研究的不断深入,麦克风阵列信号处理也必定会具备越来越广阔的应用前景。
参考文献[1]Mumolo E,Nolich M,Menegatti E,et al..A multi agent system for audio-video tracking of a walking person in a structured environment[C]//Proceedings of Workshop on Multi agent Robotic Systems trends and industrial applications,Padova,Italy,2003.[2]Valin J M,Michaud F,Rouat J.Robust localization and tracking of simultaneous moving sound sources using beamforming and particle filtering[J].Robotics and Autonomous Systems Journal,2007,55(3):216~228.[3]张贤达.现代信号处理[M].清华大学出版社,2003.[4]S.Doclo,Multi-microphone noise reduction and dereverberation techniques for speech applications,Ph.D.Thesis,ESAT,Katholieke University Leuven,Belgium,Chapter 9,Near-Field Broadband Beamforming,2003:217~232.[5]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.。