一种MMSE语音增强算法的研究与实现

基于听觉掩蔽效应的MMSE语音增强算法

ＣｍｐｔｒＥｇｅｒｎｎｐｌａｏｓ２０，３２）１０１１ｏｕｅｎｉｅｉｇａｄＡｐｉｔｎ，０７４（７：４－４．ｎｃｉ
ＡｂｔａｔＴｉａｅｏａｅｏｔｅｅｏｓｐｏｌｍｓｆｔｅｅｉｕｌｏｓａｄｈｓｅｃａｅｒｔｎｒｕｈｂｔｅｓｒｃ：ｈｓｐｐｒｆｃｓｓｎｈｓｒｕｒｂｅｏｈｒｓｄａｎｉｉｅｎｔｅｐｅｈｂｒａｉｂｏｇｔｙｈＭＭＳｏＥｍｅｈｄｆｒｓｅｃｎａｃｍｅｔｗｅＳＲｓｌｗ．ｈｐｏｏｅｌｏｔｍｎｏｐｒｔｓｔｅｔｏｏｐｅｈｅｈｎｅｎｈｎＮｉｏＴｅｒｐｓｄａｇｒｈｉｃｒｏａｅｈｍａｋｎｐｏｅｔｓｏｈａｏｄ — ｉｓｉｇｒｐｒｉｆｔｅｅｒｔａ — ｅｓ
增强算法的目的就是得到信号幅值的估计值彳，并满足估计误差的均方值
ＩＥ（７｛＝
ｌ
目前，语音增强的算法有很多，常用的基于短时幅度谱估计的算法有谱减法、维纳滤波法和最小均方误差估汁（ＭＭＳＥ）
ａｄｔｅｄｃｅｓｎｆｔｅｓｅｃｂｒａｉｎｎｈｅｒａｉｇｏｈｐｅｈａｅｔ．ｏＫｅｒｓｐｅｈｅｈｎｅｎ；ｎｍｕａｑａｅＥｒｏ（ｙｗｏｄ：ｓｅｃｎａｃｍｅｔＭｉｉｍＭｅｎＳｕｒｒｒＭＭＳ；ｓｉｇｐｏｅｉｓｒｓｄａｏｓｅｖｌＥ）ｍａｋｎｒｐｒｅ；ｅｉｕｌｎｉｅｒｍｏａｔ

mmse方法

mmse方法MMSE方法简介MMSE（最小均方误差）方法是一种常用的信号处理技术，它通过估计信号的统计特性来还原原始信号。

在实际应用中，MMSE方法在信号恢复、降噪等领域发挥着重要作用。

MMSE方法的基本原理MMSE方法基于最小化估计信号与原信号之间的均方误差，通过对信号的统计特性进行估计来进行信号重建。

其基本原理如下：1.首先，通过对原始信号的观测数据进行采样和测量，得到一组离散的观测值。

2.然后，通过对观测值进行统计分析，得到信号的均值和协方差矩阵等统计参数。

3.接下来，利用得到的统计参数以及观测数据，通过最小化均方误差的优化问题，求解出对信号的估计值。

4.最后，根据得到的估计值，进行信号恢复或降噪等相关处理。

MMSE方法的应用领域MMSE方法在信号处理领域有着广泛的应用，主要包括以下几个方面的应用：1. 信号恢复MMSE方法可以应用于信号恢复问题，例如在图像处理中，通过对观测图像进行采样和测量，利用MMSE方法可以估计原始图像的统计特性，从而进行图像的恢复和重建。

2. 信号降噪MMSE方法可以应用于信号降噪问题，例如在音频处理中，通过对观测音频信号进行采样和测量，利用MMSE方法可以估计原始音频信号的统计特性，从而对观测信号进行降噪处理，提高信号的质量和清晰度。

3. 信号估计MMSE方法可以应用于信号估计问题，例如在通信领域，通过对接收到的信号进行采样和测量，利用MMSE方法可以估计发送端信号的统计特性，从而实现信号的准确估计和解调。

MMSE方法的优缺点MMSE方法作为一种常用的信号处理技术，具有以下优点和缺点：优点：•MMSE方法基于最小化均方误差，可以在一定程度上提高信号的重建或估计质量。

•MMSE方法利用了信号的统计特性，可以对观测数据进行更精确的处理和分析。

缺点：•MMSE方法的计算复杂度较高，对计算资源要求较高。

•MMSE方法对统计参数的估计依赖较大，对观测数据的准确性要求较高。

音频信号处理中的语音增强算法研究综述

音频信号处理中的语音增强算法研究综述引言：在现实生活中，由于各种环境因素的干扰，语音信号往往受到噪声的影响而变得模糊不清。

为了提高语音信号的质量和可理解性，研究者们致力于开发各种语音增强算法。

本文将对音频信号处理中的语音增强算法进行综述，从传统方法到深度学习方法，分析其原理、应用和优缺点。

传统语音增强算法：1. 统计模型方法统计模型方法是传统语音增强算法中常用的一种方法。

该方法通过对语音信号和噪声进行建模，通过最大似然准则来估计语音信号的参数，进而实现语音增强。

代表性的算法有谱减法(Spectral Subtraction)、最小均方误差法(Minimum Mean Square Error)等。

这些算法在一定程度上能够减小噪声的影响，提高语音信号的质量，但也存在一定的缺点，例如对于非平稳噪声和低信噪比情况下的处理效果并不理想。

2. 子空间方法子空间方法是基于统计模型方法的另一种改进方法。

该方法通过运用降维、投影等技术，将噪声信号和语音信号从不同的子空间中进行建模和分离。

其中，主成分分析(Principal Component Analysis)和独立分量分析(Independent Component Analysis)是常用的子空间方法。

这些方法具有较好的噪声抑制效果，但也存在对信号相关性的依赖性，对噪音类型的预先知识要求较高等问题。

深度学习方法：随着深度学习的快速发展，越来越多的研究者开始将其应用于语音增强领域，并取得了显著的成果。

1. 卷积神经网络(CNN)卷积神经网络是一种使用卷积层和池化层进行特征提取的神经网络模型。

在语音增强领域，研究者们通过将噪声信号和语音信号输入到CNN中，以降低噪声的影响并提取有用的语音特征。

例如，Deep Convolutional Neural Networks(DCNN)被广泛应用于单麦克风语音增强任务中，取得了较好的增强效果。

2. 循环神经网络(RNN)循环神经网络是一种具有记忆能力的神经网络模型，适用于连续序列数据的处理。

基于MMSE-MLSA与感知滤波的语音增强算法

基于MMSE-MLSA与感知滤波的语音增强算法董胡;马振中;赵娜;刘刚;童欣【摘要】在语音通信过程中,纯净的语音信号可能受到各种不同类型的干扰噪声信号的影响,例如白噪声、色噪声等.针对常见语音增强算法在低信噪比的复杂噪声环境下语音增强后存在语音失真及残余噪声的问题,提出了一种结合改进对数谱幅度的最小均方误差(MMSE-MLSA)谱估计与感知滤波的语音增强算法.该算法采用MMSE-MLSA对含噪语音作初级谱估计增强处理,使用次级感知滤波器进一步掩蔽初级增强信号中的残余音乐噪声.仿真实验结果表明,在低信噪比的复杂噪声环境下,该算法能有效降低语音失真及去除残余音乐噪声,与另外两种语音增强算法比较,增强效果更加突出.【期刊名称】《计算机技术与发展》【年(卷),期】2019(029)008【总页数】4页(P67-70)【关键词】语音增强;最小均方误差;感知滤波;掩蔽阈值;谱估计【作者】董胡;马振中;赵娜;刘刚;童欣【作者单位】长沙师范学院信息科学与工程学院,湖南长沙 410100;长沙师范学院信息科学与工程学院,湖南长沙 410100;长沙师范学院信息科学与工程学院,湖南长沙 410100;长沙师范学院信息科学与工程学院,湖南长沙 410100;长沙师范学院信息科学与工程学院,湖南长沙 410100【正文语种】中文【中图分类】TN912.30 引言当前，常见的语音增强算法众多，诸如：谱减法、维纳滤波法、小波包去噪、MMSE-LSA法等。

谱减法及维纳滤波法总体来说计算量稍小，易实现，但也易出现音乐噪声[1-5]。

小波包去噪法有较强的时频分析能力，适合非平稳信号处理，但阈值的设定是小波包去噪的关键点，阈值太大或太小都将影响去噪效果[6-8]。

MMSE-LSA算法的语音增强效果优于谱减法、维纳滤波法和小波包去噪法，但需要预测或假设语音频谱的分布，在低信噪比的复杂噪声环境下，其语音增强效果有待改善[9-10]。

针对上述语音增强算法所描述的问题，提出了一种改进对数谱幅度最小均方误差谱估计(MMSE-MLSA)与感知滤波结合的语音增强算法。

一种基于谱减法的语音增强算法研究

一种基于谱减法的语音增强算法研究引言在日常生活中，我们经常会遇到语音信号受到噪声干扰的情形。

语音增强技术可以消除这些噪声，提高语音信号的质量和可听性。

语音增强技术的研究和发展，对于语音通信、语音识别、语音合成等领域都具有重要意义。

目前，基于谱减法的语音增强算法成为研究的热点之一。

本文主要探讨谱减法的基本原理、实现过程及其在语音增强中的应用。

一、谱减法的原理谱减法是一种在频域上处理语音信号的方法，它主要基于以下两个假设：1.噪声信号的能量分布比语音信号的能量分布更广泛，即噪声信号在不同频率上具有不同的能量；2.声音信号的一些部分不依赖于噪声信号，可以在不改变语音信号质量的前提下被减少。

因此，谱减法的基本原理是将语音信号和噪声信号分解为频谱，然后通过频谱相减，再对结果进行逆变换，得到增强后的语音信号。

谱减法的基本步骤如下：1.采集语音信号和噪声信号，并将它们通过FFT 变换转换为频域。

2.对语音信号和噪声信号的频谱进行平滑滤波，获得平滑后的信号谱。

3.求出平滑后语音信号与噪声信号的频谱差值。

4.根据信噪比的大小，确定噪声频谱可以减去的大小，从而减少噪声的影响。

5.对减少了噪声频谱的信号进行IFFT 逆变换，得到增强后的语音信号。

二、谱减法的实现过程1.采集语音信号和噪声信号在采集语音信号和噪声信号时，应尽可能选择质量好的麦克风和录音设备，保证信号的清晰度，避免信号本身存在的噪声干扰。

2.对语音信号和噪声信号的频谱进行平滑滤波平滑滤波的目的是去除语音信号和噪声信号中的高频成分，使其更加平滑。

常用的平滑滤波方法包括：高斯平滑、中位数滤波和均值平滑等。

其中，高斯平滑在实际应用中最为常见。

高斯平滑的过程是：对于每一个频率上的振幅，计算它和周围几个点的平均值，通过利用高斯函数将这些平均值加权，最终得到平滑后的振幅谱。

3.求出平滑后语音信号与噪声信号的频谱差值经过平滑处理后，获得了平滑后的语音信号频谱和噪声信号频谱。

强背景噪声环境下语音增强算法的研究及应用毕业论文

密级：内部★ 2 年强背景噪声环境下语音增强算法的研究及应用Research and Application of SpeechEnhancementin Strong Noise Environment(申请清华大学工学硕士学位论文)培养单位：学科：研究生：指导教师:关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定，即：清华大学拥有在著作权法规定范围内学位论文的使用权，其中包括：（1）已获学位的研究生必须按学校规定提交学位论文，学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文；（2）为教学和科研目的，学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读，或在校园网上供校内师生浏览部分内容；（3）根据《中华人民共和国学位条例暂行实施办法》，向国家图书馆报送可以公开的学位论文。

本人保证遵守上述规定。

（保密的论文在解密后遵守此规定）作者签名：导师签名：日期：日期：摘要摘要人们在语音通信过程中不可避免地会受到各种噪声的干扰，影响了通信质量。

同时，噪声的存在也使低速率语音编码以及语音识别等语音处理系统的性能下降。

语音增强作为一种预处理手段，不失为解决噪声污染的一种有效途径。

在各类语音增强技术中，基于短时谱幅度估计的语音增强算法处于主流位置，得到广泛应用。

本文针对短时谱幅度估计在低输入信噪比以及非平稳噪声环境下，性能不够理想这一不足加以研究改进，完成稳健的语音增强算法设计和实时实现。

根据对短时谱幅度估计算法进行分析，指出了影响其性能的关键技术：噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数的修正等，为算法改进指明了研究方向。

首先，提出了一种快速估计噪声统计特性的算法，减小了噪声估计的跟踪延时，在一定程度上改善了噪声过估计的现象，因而能够在低输入信噪比以及非平稳噪声干扰环境下快速准确地跟踪噪声特性。

其次，研究了一种基于高斯模型和一致最大势检验的语音激活检测算法，由于检测门限与噪声估计相适应，因而提高了检测性能，尤其在非平稳噪声干扰环境下得到了良好的检测效果。

音频信号处理技术在语音增强中的应用研究

音频信号处理技术在语音增强中的应用研究一、引言语音增强是音频信号处理领域的一个重要研究方向，其主要目的是提高语音信号的质量和清晰度。

随着科技的不断发展，音频处理技术也得到了很大的发展，它广泛地应用于通信、语音识别、音频编辑、音乐处理、人机交互等领域。

因此，在语音信号处理中，应用音频信号处理技术进行语音增强具有重要的研究价值和应用价值。

二、研究现状在语音信号处理中，语音增强方法可以归纳为传统的基于数字信号处理（DSP）和机器学习（ML）的两类方法。

传统的DSP方法包括数字滤波器、谱减法、频率掩蔽法等，这些方法在去噪和增强语音信号方面有着广泛的应用。

然而，传统的DSP方法往往会受到环境噪声、语音信号谐波、截断误差等各种因素的影响，导致其在处理实际语音信号中的效果并不理想。

为了克服传统DSP方法的局限性，研究人员开始尝试引入机器学习的方法进行语音增强。

近年来，基于稀疏表示的降噪算法在语音增强领域中受到了广泛的关注。

该方法的基本思想是将降噪的过程看作是基于字典的稀疏表示。

通过使用字典对语音信号进行表征，可以将其分解成一组基本的特征向量，从而实现去除噪声的目标。

另外，深度学习技术也在语音增强中得到了广泛的应用。

例如，使用深度卷积神经网络进行语音增强，在模拟的环境中取得了较好的成果。

三、音频信号处理技术在语音增强中的应用在语音增强中，音频信号处理技术主要包括频域处理、时域处理、自适应滤波等方法。

1、频域处理频域处理是语音增强中最常用的一种方法。

它的基本思想是将语音信号转换到频域中进行处理，然后再将其转换回时域。

在频域中，可以使用一些常见的滤波器对语音信号进行增强。

例如，噪声门限谱减法（Noise Gate Spectral Subtraction）是一种常用的降噪算法。

该方法通过估计信号和噪声的功率谱，从频谱中减去噪声功率，然后将其转换回时域。

还可以对语音信号进行短时傅里叶变换，并使用基于滤波器的方法去除噪声。

logmmse降噪原理

logmmse降噪原理
Log-MMSE（最小均方误差）降噪算法是一种基于频域的语音增强算法，它首先将语音信号从时域转换到频域，然后对频谱进行估计和修复，最后再将频域信号转换回时域得到增强后的语音信号。

具体来说，Log-MMSE降噪算法主要包括以下几个步骤：
1.预处理：将时域的语音信号通过快速傅里叶变换（FFT）转换为频
域信号，得到语音信号的频谱表示。

2.估计噪声：利用高斯模型、线性预测模型等统计模型和算法对信
号的频谱进行建模，准确地估计出语音信号和噪声信号的频谱特征。

3.根据频谱的估计结果，使用最小均方误差准则对频谱进行修复。

具体来说，通过计算频谱的信噪比（SNR），可以确定修复因子，用于抑制噪声和恢复语音信号。

拉普拉斯分布下的mmse谱减语音增强算法

Journal of Computer Applications 计算机应用, 2020, 40( 3) : 878 - 882
ISSN 1001⁃9081 CODEN JYIIDU
2020⁃ 03⁃ 10 http：/ / www. joca. cn
文章编号：81（2020）03-0878-05
关键词：语音增强；谱减；最小均方误差；短时对数谱；谱平坦度中图分类号：TP391. 9 文献标志码：A
Speech enhancement algorithm based on MMSE spectral subtraction with Laplacian distribution
WANG Yongbiao1，2，ZHANG Wenxi1，2*，WANG Yahui1，KONG Xinxin1，LYU Tong1，2
Abstract: A Minimum Mean Square Error（MMSE）speech enhancement algorithm based on Laplacian distribution was proposed to solve the problem of noise residual and speech distortion of speech enhanced by the spectral subtraction algorithm based on Gaussian distribution. Firstly，the original noisy speech signal was framed and windowed，and the Fourier transform was performed on the signal of each processed frame to obtain the Discrete-time Fourier Transform（DFT） coefficient of short-term speech. Secondly，the noisy frame detection was performed to update the noise estimation by calculating the logarithmic spectrum energy and spectral flatness of each frame. Thirdly，based on the assumption of Laplace distribution of speech DFT coefficient，the optimal spectral subtraction coefficient was derived under the MMSE criterion， and the spectral subtraction with the obtained coefficient was performed to obtain the enhanced signal spectrum. Finally，the enhanced signal spectrum was subjected to inverse Fourier transform and framing to obtain the enhanced speech. The experimental results show that the Signal-to-Noise Ratio （SNR） of the speech enhanced by the proposed algorithm is increased by 4. 3 dB on average，and has 2 dB improvement compared with that of the speech enhanced by the oversubtraction method. In the term of Perceptual Evaluation of Speech Quality （PESQ）score，compared with that of oversubtraction method，the average score of the proposed algorithm has a 10% improvement. The proposed algorithm has better noise suppression and less speech distortion，and has a significant improvement in SNR and PESQ evaluation standards.

基于短时对数谱估计MMSE的语音增强算法研究

基于短时对数谱估计MMSE的语音增强算法研究
袁伟军;刘珩
【期刊名称】《电声技术》
【年(卷),期】2007(31)10
【摘要】结合语音激活检测(VAD)技术对短时对数谱估计最小均方误差(LSA-MMSE)语音增强算法进行了改进.通过实验表明,LSA-MMSE增强算法在消除背景噪声、增加语音清晰度和提高语音自然度等方面比谱减法更加有效.
【总页数】5页(P59-62,65)
【作者】袁伟军;刘珩
【作者单位】中国农业大学,信息与电气工程学院,北京,100083;中国农业大学,信息与电气工程学院,北京,100083
【正文语种】中文
【中图分类】TN912.35
【相关文献】
1.基于短时对数谱的MMSE语音增强算法研究 [J], 陈红梅;陈健
2.一种基于短时谱估计和人耳掩蔽效应的语音增强算法 [J], 陈国明;赵力;邹采荣
3.基于短时谱估计的语音增强研究 [J], 雷建军;杨震;刘刚;郭军
4.基于短时谱估计的语音增强改进算法 [J], 李真;吴文锦;任慧
5.基于DSP实现的改进型短时对数谱语音增强算法研究 [J], 刘熙沐;王二庆;曹亮;因版权原因，仅展示原文概要，查看原文内容请购买。

强背景噪声环境下语音增强算法的研究及应用

密级：内部★ 2 年强背景噪声环境下语音增强算法的研究及应用Research and Application of SpeechEnhancementin Strong Noise Environment(申请清华大学工学硕士学位论文)培养单位：学科：研究生：指导教师:可编辑修改关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定，即：清华大学拥有在著作权法规定范围内学位论文的使用权，其中包括：（1）已获学位的研究生必须按学校规定提交学位论文，学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文；（2）为教学和科研目的，学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读，或在校园网上供校内师生浏览部分内容；（3）根据《中华人民共和国学位条例暂行实施办法》，向国家图书馆报送可以公开的学位论文。

本人保证遵守上述规定。

（保密的论文在解密后遵守此规定）作者签名：导师签名：日期：日期：精品文档可编辑修改摘要人们在语音通信过程中不可避免地会受到各种噪声的干扰，影响了通信质量。

同时，噪声的存在也使低速率语音编码以及语音识别等语音处理系统的性能下降。

语音增强作为一种预处理手段，不失为解决噪声污染的一种有效途径。

在各类语音增强技术中，基于短时谱幅度估计的语音增强算法处于主流位置，得到广泛应用。

本文针对短时谱幅度估计在低输入信噪比以及非平稳噪声环境下，性能不够理想这一不足加以研究改进，完成稳健的语音增强算法设计和实时实现。

根据对短时谱幅度估计算法进行分析，指出了影响其性能的关键技术：噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数的修正等，为算法改进指明了研究方向。

首先，提出了一种快速估计噪声统计特性的算法，减小了噪声估计的跟踪延时，在一定程度上改善了噪声过估计的现象，因而能够在低输入信噪比以及非平稳噪声干扰环境下快速准确地跟踪噪声特性。

其次，研究了一种基于高斯模型和一致最大势检验的语音激活检测算法，由于检测门限与噪声估计相适应，因而提高了检测性能，尤其在非平稳噪声干扰环境下得到了良好的检测效果。

语音信号增强技术的研究与应用

语音信号增强技术的研究与应用语音信号是人类交流的重要工具。

在不同场景和环境中，语音信号会受到各种干扰和噪声的影响，导致人们难以清晰地听到对方说话的内容。

为解决这个问题，语音信号增强技术应运而生，它是一种通过信号处理技术，对语音信号进行分析和处理，增强语音信号的可听性和可懂性的技术。

一、语音信号增强技术的研究语音信号增强技术分为单信道和多信道两种类型。

在单信道语音信号增强技术中，信号处理的对象只有单个麦克风采集的语音信号。

在多信道语音信号增强技术中，信号处理的对象为多个麦克风采集的语音信号。

目前，单信道语音信号增强技术主要有时间域滤波、频域滤波、时-频域滤波、降噪等几种方法。

时间域滤波是将语音信号通过一组滤波器，去除或减小频率低于一定阈值的能量。

频域滤波是利用傅里叶变换将语音信号从时域转换成频域，去除频率低于一定阈值的频率成分。

时-频域滤波是将时间域和频域滤波结合起来，更精确地去除噪声。

降噪则是去除背景噪声，同时保留人声信号。

多信道语音信号增强技术则主要有基于波束形成的方法和基于矢量传感器的方法。

基于波束形成的方法是利用多个麦克风采集的语音信号之间的相位差异来重建语音信号。

基于矢量传感器的方法则是通过多个矢量传感器采集的语音信号之间的空间差异来重建语音信号。

二、语音信号增强技术的应用语音信号增强技术被广泛应用在各种场景中，包括电话会议、语音识别、智能家居等领域。

在电话会议中，往往会出现多个人同时讲话的情况，这时语音信号增强技术能够有效地分离不同人的语音信号，提高会议的可听性和可懂性。

在语音识别中，语音信号增强技术能够减小语音信号中的噪声和干扰，提高语音识别的准确性和鲁棒性。

在智能家居中，语音信号增强技术能够减小由于环境噪声的干扰，提高语音智能设备的识别准确性和响应速度。

三、语音信号增强技术的未来发展目前，语音信号增强技术在各种场景中都得到了广泛应用，但是还存在一些问题和挑战。

其中主要的问题是如何在复杂的噪声环境中准确地分离出原始语音信号，并且不对其进行任何形式的改变。

基于MMSE和小波变换的语音增强算法

基于MMSE和小波变换的语音增强算法潘小龙;张卫强;郦元宏【摘要】提出一种最小均方误差与小波变换相结合的改进算法来提高语音识别系统的性能。

首先通过小波变换对带噪语音进行多尺度分解，然后对不同尺度的小波系数采用MMSE 算法，最后对MMSE 处理过的小波系数进行重构得到增强语音。

实验结果表明：与传统算法相比较，提出的新算法去噪效果显著，有效地提高了语音的质量。

%Anew algorithm combining MMSE with wavelet transformation is put forward to improve the performance of speech recognition. Firstly, the noisy speech is processed with wavelet transformation by multi-scale decomposition, then the multi-scale wavelet coefficient is determined with MMSE algorithm. Finally the wavelet coefficient is reconstructed to enhance the speech quality. By comparing the presented algorithm with the traditional ones, as indicated by the result of MATLAB experiment, the developed algorithm is found to be of better performance in terms of speech enhancement.【期刊名称】《宁波大学学报（理工版）》【年(卷),期】2016(029)003【总页数】4页(P68-71)【关键词】最小均方误差;小波变换;语音增强【作者】潘小龙;张卫强;郦元宏【作者单位】宁波大学信息科学与工程学院，浙江宁波 315211;宁波大学信息科学与工程学院，浙江宁波 315211;宁波大学信息科学与工程学院，浙江宁波315211【正文语种】中文【中图分类】TN912.35语音识别在安静的环境中可以有较好的性能，但现实环境中不可避免地夹杂着噪声，对语音识别产生了较大影响，因此对带噪语音的处理就显得特别重要. 目前，语音增强方法主要有基于语音短时谱幅度估计法（Short Time Spectral Amplitude，STSA）、基音周期法、语音参数模型法、听觉场景分析法等.在基于语音短时谱幅度估计法（STSA）中，最小均方误差（Minimum Mean-Square Error， MMSE）比谱减法等传统方法能更多地利用语音和噪声统计特性的先验知识［1］，对语音系数的先验概率进行估计，并在此基础上按照最小均方误差的准则对语音系数进行估计. MMSE准则中，下信号短时间可以看成是平稳信号，但当信号为非平衡时，其去噪效果大大降低，而且在低信噪比情况下，由语音增强失真引起的包括语音频谱变形和增强后的剩余噪声对信号有较大的干扰，从而降低语音识别系统的精度. 为解决上述问题，人们提出了基于小波变换的语音增强算法. 鉴于小波变换在低信噪比情况下去噪效果好和处理非平稳信号的优势，可以改善MMSE在低信噪比下信号的失真，因此，将MMSE与小波变换结合在一起处理语音信号可以有效提高语音识别系统的性能.对于传统去噪算法如谱减法［2］等进行语音增强后所产生的“音乐噪声”，MMSE算法可以较好地解决该缺陷，这是由于MMSE方法能更多地利用语音和噪声统计特性的先验知识. 以下基于MMSE的短时频谱分析来介绍MMSE原理.语音短时频谱可用指数形式作如下表示［3］：上述公式将信号分为若干帧信号，其中，i代表信号为第i帧，X（k，i）和Y（k，i）分别为纯净语音和带噪语音的频谱函数，A（k，i）和N（k，i）分别为纯净语音和带噪语音的语音短时谱幅度. 对于带噪语音信号目的是使纯净语音的短时谱幅度估计值与纯净语音短时谱幅度最接近，亦即使信号失真度最小.假设各频谱分量之间相互独立，则可以推导出语音短时谱的MMSE估计值为：其中，a（k）为A（k）的一帧信号所对应的谱幅度.假设噪声谱服从零均值高斯分布，则：假设语音谱服从高斯分布，则其幅值和相位的联合分布为：其中， D（k）为噪声的谱幅度；λX（k）为纯净语音能量期望植；λD（k）为噪声能量期望值，可由语音间歇时静音帧估计得到，代入式（3）可得公式如下：其中，为超几何函数［4］，则：其中，和分别为先验信噪比和后验信噪比. 可将式（8）写成如下形式：其中，为增益函数. 因此由以上公式可得到纯净语音谱幅度估计值，对其添加含噪信号的相位及反傅里叶变换后就可得到增强后的语音.作为时频域分析方法，傅里叶变换能将信号不同时刻的相同频率成分都映射到同一频率点上，因此无法对信号某个时间点的某个频率的特征进行分析，相当于不能表述信号的时频局部性质，这正是非平稳信号的关键. 小波变换是空间和频率的局部变换，因而能有效地从信号中提取信息，克服上述缺点. 小波去噪首先进行多尺度小波变换，然后对小波系数进行处理，去除噪声中的小波系数，保留原始信号的小波系数，对小波系数进行小波逆变换（小波重构），最后得到去噪后的近似真实信号［5-6］. 假设函数（）xφ为平方可积函数，即且满足以下容许性条件：则称（）xφ为小波基函数. 对于任意实数为小波变换的尺度因子，b为平移因子，对其进行离散小波变换，此时通常定义其中，，jkZ∈. 由小波基（）xφ生成的依赖于（a，b）的离散小波函数如下所示［7-8］：则信号f（t）以x（φ）为基的小波变换为：在实际应用中，通常取02a=，01b=. 由此可见，离散小波变换的提出，使得小波变换在计算机的分析成为可能.带噪声语音通过小波变换划分得到不同尺度的小波系数，小波变换的有用信号能量主要集中在大的小波系数和特定的频率范围内，而噪声分布于整个小波域内，因此小波分解后有用的信号系数幅值会大于噪声的系数幅度，可采取阈值方法来得到有用信号. 然后对各个尺度的小波系数进行MMSE处理，最后对处理过的小波系数进行小波重构，得到增强后的语音信号. 新算法的整体框架如图1所示.首先对带噪声语音进行Mallat小波分解，得到不同尺度的分解系数，在频域中对应不同频率的子带信号. 假定0～P频率空间为F0，经过一级分解后被分为0/2P-的低频子空间F1和/2PP-的高频空间W1，然后将低频空间一直分解下去，得到Fn、Wn、…、W2、W1，它们之间的空间互不相交，它们所对应的小波系数为cd1、cd2、cd3、cd4、cd5、ca5（其中cdn为高频系数， ca5为第五层的低频系数）. 然后对不同频率范围、尺度的小波系数进行MMSE估计，得到改进的小波系数. 最后对处理过的小波系数利用Mallat算法进行重构，得到增强语音. 运用小波变换进行去噪处理，可选择不同小波基函数. 仿真选Daubechies为正交小波基，阶次为4，分解层数为5层；语音为在噪声环境下的“宁波”两个字的发音信号， 16kHz的采样率， PCM， 16位，单声道； MMSE对小波系数进行最小均方误差估计.图2为带噪信号经过小波去噪处理和新算法处理过的信号对比. 由图可见，新算法中的信号幅度比小波去噪算法处理过信号幅度有所减小，噪声部分幅度变得更为平滑，对噪声有较好的抑制作用.图3～图5为去噪前语音信号小波系数、小波去噪后小波系数和新算法去噪后小波系数的图形. cd1～cd5分别对应滤波前第1层高频系数到第5层高系数，其频率范围对应8000～16000Hz， 4000～8000Hz， 2000～4000Hz， 1000～2000Hz， 500～1000 Hz， ca5为第5层低频系数，频率范围为0～500Hz. cd1～cd5分别对应滤波后第1层高频系数到第5层高系数. 对比不同方法滤波的图形，可见利用新算法滤波后的小波系数噪声明显减少，这使得小波重构的信号对噪声有较好的抑制作用.文中语音采集通过Cooledit处理软件完成，采集1～10这10个数字的英语发音作为实验对象. 采用16000Hz的采样频率，单声道录音，精度为16位，通过对24个人录音，得到240个语音数据，其中120个数据用来训练语音识别模型，另外120个数据用来进行语音识别测试. 提取每帧信号的24阶MFCC作为语音特征参数，噪声为高斯白噪声.通过语音识别可以得到加噪语音、MMSE去噪、小波变换去噪以及新方法去噪后的语音识别率，从表1数据中可以得出改进方法的去噪效果较其他2种方法有一定的提高.5 结论MMSE相比于谱减法等传统方法更多地利用了语音和噪声统计特性的先验知识，但前提是信号短时平稳，这大大局限了该方法的应用. 而小波变换在非平稳和低信噪比的情况下具有较好的语音增强能力. 提出的新方法结合了MMSE方法和小波变换的各自优点，实验结果表明新方法处理后得到的信号损害较小，而且去噪效果较好，从而提高了语音识别系统的性能，相比于传统的去噪方法有一定的提高. 但其算法复杂度较高，并且对波形会造成一些损害，有待于今后继续深入研究.【相关文献】［1］宁更新. 抗噪声语音识别新技术的研究［D］. 广州：华南理工大学， 2006.［2］熊燕. 抗噪声语音识别技术研究［J］. 信息科技及现代服务， 2006（7）：204-205.［3］方瑜. 语音增强相关问题研究［D］. 北京：北京邮电大学， 2011.［4］丁沛. 语音识别中的抗噪声技术［D］. 北京：清华大学，2003.［5］王苏敏，谢小云，邓茜. 基于小波去噪的语音识别系统［J］. 数字技术与应用， 2012（5）：232.［6］毛艳辉. 小波去噪在语音识别预处理中的应用［D］. 上海：上海交通大学， 2010.［7］胡惠英，吴善培. 小波去噪在语音识别中的应用［J］.北京邮电大学学报，1999， 22（3）：31-34.［8］崔晓，张松炜. 基于小波和先验信器噪比维纳滤波的语音增强［J］. 河南师范大学学报（自然科学版）， 2013，41（1）：43-46.。

一种基于快速噪声估计的MMSE语音增强算法

一种基于快速噪声估计的MMSE语音增强算法
陈照平;马建芬;张雪英
【期刊名称】《计算机工程与应用》
【年(卷),期】2007(43)22
【摘要】提出一种基于快速噪声估计的MMSE语音增强算法,实验表明这种算法比起谱相减法和基于语音短时对数谱的最小均方误差(MMSE-LSA)算法能更显著地提高算法的客观性能,在非平稳噪声环境中能快速估计出变化的噪声功率谱.
【总页数】3页(P113-114,119)
【作者】陈照平;马建芬;张雪英
【作者单位】太原理工大学信息工程学院,太原030024;太原理工大学计算机与软件学院,太原030024;太原理工大学信息工程学院,太原030024
【正文语种】中文
【中图分类】TN912
【相关文献】
1.一种基于自适应噪声估计的宽带语音增强算法 [J], 周璇;鲍长春;夏丙寅;梁岩;何玉文
2.一种基于MMSE-LSA和VAD的语音增强算法 [J], 晏光华
3.一种改进的基于听觉掩蔽的自适应β阶MMSE语音增强算法 [J], 陈照吉
4.一种基于巴克域噪声估计的语音增强算法 [J], 赵汉武;邹霞;张雄伟;闫佩君
5.一种基于统计信息噪声估计的语音增强算法 [J], 郑晓坡;陈志华
因版权原因，仅展示原文概要，查看原文内容请购买。

最小均方误差mmse算法

最小均方误差mmse算法
最小均方误差（MMSE）算法是一种常用的信号处理算法，用于估计信号的参
数或恢复原始信号。

该算法通过最小化估计值与实际值之间的均方误差来优化参数估计。

在通信系统、雷达系统、图像处理等领域都有广泛的应用。

MMSE算法的基本原理是通过对信号的统计特性进行分析，利用最小均方误差的准则来估计信号的参数。

在处理实际问题时，首先需要确定信号的统计模型，通常假设信号服从高斯分布。

然后，通过观测信号和已知的信号模型，计算出估计值，并通过最小化均方误差来获得最优的参数估计。

在数字通信系统中，MMSE算法通常用于信道估计、信号检测和信号解调等方面。

在信道估计中，MMSE算法可以通过估计信道的参数来提高通信系统的性能。

在信号检测中，MMSE算法可以帮助识别复杂信号中的目标信号。

在信号解调中，MMSE算法可以通过估计信号的参数来还原原始信号，减小信号传输中的失真。

除了在通信系统中的应用，MMSE算法也被广泛用于雷达系统、图像处理、语音处理等领域。

在雷达系统中，MMSE算法可以用于目标检测和跟踪。

在图像处
理中，MMSE算法可以用于图像去噪和图像恢复。

在语音处理中，MMSE算法可
以用于语音增强和语音识别等方面。

总的来说，最小均方误差（MMSE）算法是一种基于统计准则的信号处理算法，通过最小化估计值与实际值之间的均方误差来优化参数估计。

在通信系统、雷达系统、图像处理和语音处理等领域都有广泛的应用，为信号处理领域的研究和应用提供了有力的支持。

预加重与MMSE结合的语音增强方法

第2期
金学骥 ,叶秀清等 :预加重与 MMSE 结合的语音增强方法
301
上述改进方法都对 MMSE 法有一定的改善 ,而本文将用一种新的思路来改善 MMSE 法。若能预先将带噪语音的信噪比提高 ,且基本不损失信号中的语音信息 ,用这样的预加重处理结果作为 MMSE 法语音增强的输入 ,将对增强效果十分有利。
序列中序号 ,
x ( k) = [ x ( k) , x ( k + 1) , …, x ( k + M - 1) ] T 代
表纯净语音序列 ,
w ( k) = [ w ( k) , w ( k + 1) , …, w ( k + M - 1) ]T ]
代表噪声序列 ,
y ( k) = [ y ( k) , y ( k + 1) , …, y ( k + M - 1) ]T ]
值对当前帧进行加权处理。加权过程使用一个梳状
滤波器 ,由当前帧与最大相关序列加权而成 :
y’ (k) = 1 1+δ[αmaxy(k) + max(0α, max - δ) y(k - lmax) ] (6) 其中δ为相关大小阈值 , lmax 为最大峰值位置。
从上式看出 ,当αmax 小于阈值δ(一般取 0. 120. 4) 时 , 说明与 y’ ( k) 与过去的序列相关性不大 ,可以认为当前帧为噪声 ,就不必与过去的序列加权 ,式 (6) 第二项取为零。当αmax 大于阈值δ时 ,则当前帧与过去的某一时刻的序列有较大的相关关系 ,可认为当前帧在一定程度上为语音 ,就用当前帧与最大相关序列共同对信号加权。
=
π 2,
I0
(
·)