基本语音增强方法

  • 格式:doc
  • 大小:52.00 KB
  • 文档页数:5

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基本语音增强方法概述

摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺点作简要论述。

关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间

现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。

一、语音的特性

语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。

人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别重要了。

二、时域方法

此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。

(1)经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音

的传递函数来实现语音增强目的的。经典的算法常常只通过计算无声期间的统计平均来估计噪声功率谱,这是假设噪声的功率谱在发声前和发声期间基本没有变化前提下的,这样的估计和假设显然是不够全面的。另外,经典的算法能有效地抑制变化范围不大或是稳定的噪声,但是对实际中的变化范围很广的噪声效果不是很好。当然,也有很多改进的维纳滤波法,比如:计算无声段的统计平均得到初始噪声功率谱功率谱、计算语音段间带噪语音功率谱,并平滑处理初始噪声功率谱和带噪语音功率谱,更新噪声功率谱。也可以将维纳滤波扩展为卡尔曼滤波,适用于非平稳过程。

(2)子空间增强算法是将语音信号看成K 维向量空间,并将带噪信号分解为不相关的信号空间和噪声空间,以此消除噪声。这种方法主要利用基于特征值分解的KL 变换对语音信号进行分解,通过对信号失真误差和残留噪声两种判别函数的控制以平衡语音质量和可懂度。也可以将子空间增强算法与人耳的掩蔽阈值结合,基于掩蔽特性的子空间增强算法在主客观上作了良好的折衷,去噪效果明显,且语音出现的同时保留了一定的平滑背景噪声而非突兀噪声,主观感觉较舒适。

三、频域方法

这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。

(1)谱减法(SS:Spectral Subtraction)是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱。

设s(t)为纯净语音信号,n(t)为噪声信号,y(t)为带噪语音信号,则有: y(t) = s(t) + n(t)

傅里叶变换后可得功率谱密度,假定语音信号与加性噪声是相互独立的,则可以由发声前只有噪声时的功率谱得出语音的功率谱,而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。由于人耳对于相位变化不敏感,且Ephraim Y 和 Malah D 证明在一定条件下语音相位的最小均方误差(MMSE)估计值就是带噪语音相位本身,因此, 基于STSA估计的语音增强方法一般都直接采用带噪语音的相位作为增强语音的相位。

但是,语音和噪声的非平稳性会造成谱估计的不完全准确,所产生的音乐噪声严重影响了语音的可懂度,如在进行谱减时,若该帧某频点噪声分量较大,就会有很大一部分噪声残留,在频谱上呈现随机的尖峰,在听觉上形成有节奏性起伏的类似音乐的残留噪声,俗称为音乐噪声。大多语音增强算法在追求减小噪声的同时,也导致较严重的语音畸变度,尽管噪声去除的效果很有效,但语音畸变度很大。

采用平滑系数来改进谱减法的做法十分普遍。先验信噪比估计中平滑系数和噪声谱估计中平滑系数较小时,语音畸变和噪声残留都较少,但残留的音乐噪声显著;反之,语音畸变和噪声残留较多,但残留的音乐噪声较少。所以,对于纯噪声帧和带噪语音帧的平滑系数取值应该是不一样的,同济大学研究出来的SAP参数,则是根据人耳掩蔽效应将带噪语音状态继续分化为噪声被掩蔽的状态和噪声未被掩蔽的状态来改进SAP参数,再利用改进的SAP参数自适应调节语音平滑系数。这样更符合语音和噪声的特性,可以在去噪度、残留“音乐噪声”和语音畸变度之间取得很好的均衡。

(2)自适应抵消法

自适应抵销法以噪声干扰为处理对象,将其抑制掉或进行非常大的衰减,以提高信号传递和接受的信噪比质量。利用由自适应滤波器所构成的自适应噪声干抵消系统,可以获得自动跟踪捕捉噪声干扰源和高信噪比的优异性能。但是需要一个在实际环境中很难获得的参考噪声源,且伴随一定的音乐噪声,实际中并不很实用。

自适应噪声对消原理

(3)隐马尔可夫模型法

可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同

的模型。HMM的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强,甚至于在只有带噪信号的情况下,利用HMM对状态转移概率进行建模,将可能为噪声的信号部分滤除就可以做到语音增强。

(4)短时幅度谱估计法

基于短时幅度谱估计的语音增强算法中,采用了最小均方误差准则或者最大似然准则估计原始语音信号的幅度谱,使得语音信号的时域波形或者频谱在某种准则下失真最小。

四、统计方法

统计法较充分地利用了语音和噪声的统计特性,一般要建立模型库,通过训练过程获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况。这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等

五、其他方法

(1)小波变换

小波变换在时域和频域同时具有良好的局部化特性,信号和噪声的小波系数在不同尺度上有不同的性质,所以,我们可以构造相应的规则,减小由噪声产生的系数,同时最大限度地保留真实信号的系数,最后经过小波系数重构,得到真实的信号。

这几种语音增强算法并不是独立的,它们可以互相融合,取长补短,但是目前为止还没有找到一种可以与人耳的灵敏度想媲美的、舒适的语音识别方法。

参考文献:

1、《改进的基于人耳掩蔽效应谱减语音增强算法》赵晓群, 黄小珊

2、《基于人耳掩蔽效应的语音增强算法研究》陈国明,邹采荣

3、《基于人耳掩蔽效应的子空间语音增强算法实现》夏菽兰,章明,赵力