基于优选信息熵的语音端点检测方法
- 格式:docx
- 大小:42.54 KB
- 文档页数:9
《基于深度学习的语音端点检测》篇一一、引言语音端点检测(Voice Activity Detection, VAD)是语音信号处理中重要的预处理步骤。
其主要任务是从混合信号中分离出纯净的语音信号,从而提高后续语音处理的准确性和效率。
传统的语音端点检测方法大多基于阈值或者基于模型的方法,这些方法在噪声环境下往往效果不佳。
近年来,随着深度学习技术的发展,基于深度学习的语音端点检测方法逐渐成为研究热点。
本文旨在探讨基于深度学习的语音端点检测方法,并分析其优势和挑战。
二、传统语音端点检测方法传统的语音端点检测方法主要包括基于阈值的方法和基于模型的方法。
基于阈值的方法主要是通过设定一个固定的阈值来判断语音信号的起始和结束点。
然而,这种方法在噪声环境下效果不佳,因为噪声可能会使阈值设置不准确。
基于模型的方法则是通过建立语音信号的模型来检测语音端点,这种方法虽然可以在一定程度上提高准确性,但仍然难以应对复杂的噪声环境。
三、基于深度学习的语音端点检测方法随着深度学习技术的发展,越来越多的研究者开始将深度学习应用于语音端点检测。
基于深度学习的语音端点检测方法主要利用神经网络来提取语音信号的特征,并通过训练模型来学习语音和噪声的区分特征。
这种方法可以有效地应对复杂的噪声环境,提高语音端点检测的准确性。
在具体实现上,深度学习模型通常采用卷积神经网络(CNN)或循环神经网络(RNN)等结构。
这些网络可以自动提取语音信号中的时频特征和上下文特征,从而更好地识别语音和噪声的区分特征。
此外,还可以采用无监督学习或半监督学习方法来训练模型,以适应不同环境和不同语种的语音信号。
四、实验与分析为了验证基于深度学习的语音端点检测方法的性能,我们进行了多组实验。
实验结果表明,基于深度学习的语音端点检测方法在各种噪声环境下均取得了较好的效果。
与传统的语音端点检测方法相比,基于深度学习的方法具有更高的准确率和更低的误报率。
此外,我们还分析了不同网络结构和参数对实验结果的影响,为后续研究提供了有价值的参考。
一种基于谱熵的语音端点检测方法李战明;尚丰【摘要】在低信噪比环境下,为了提高语音端点检测的效果,提出了一种适应于低信噪比环境的语音端点检测方法。
基于子带谱熵法,引入正参数对基本的谱熵法进行算法改进,得到改进后的子带谱熵法,通过增加预判环节选择合适的正参数,加犬语音信号与噪声信号的区分度,进一步改善在低信噪比环境下算法的效果,得到新的语音端点检测算法。
仿真实验表明,新的算法不仅快速高效,具有较强鲁棒性,而且适合在低信噪比环境中较准确的检测出语音端点。
【期刊名称】《电子技术与软件工程》【年(卷),期】2015(000)001【总页数】3页(P200-202)【关键词】语音端点检测;子带谱熵;参数可变鲁棒性【作者】李战明;尚丰【作者单位】兰州理工大学,甘肃省兰州市730050;;【正文语种】中文【中图分类】TN912.31 引言随着语音识别、语音增强等技术的飞速发展,端点检测越来越重要。
端点检测的目的是在复杂环境下识别出噪音信号与语音、噪音混合信号,确定语音信号的开始与结束端点,以便进一步的语音信号处理。
在助听器、手机等硬件环境下,由于实时性与准确性要求较高,计算量即不能过大以免硬件不能满足要求,又要求语音信号处理快速、准确。
准确的端点检测可以大幅度减少计算量,提高系统的语音处理效率。
现阶段运用的端点检测算法有短时能量与短时过零率双门限法、自相关函数法、方差法、谱距离法、能零比与能熵比等。
在噪音环境下这些方法的效果并不是很理想,语音信号的能量并不大,所以单纯用能量参数并不能很好的将语音信号检测出来。
Shen提出了一种基于信息熵的端点检测方法,信息熵只与语音信号的统计学特性有关,与单纯的能量幅值大小无关,所以这种方法能够较好地将语音信号与噪音信号检测出来,并且计算量不大,适用于助听器、手机等硬件环境。
但是对于周期性能量较为集中的噪音而言,误判率较高。
为了消除每帧信号FFT变换后的谱线幅值受噪音影响,把每条谱线的谱熵值改为子带的谱熵,从而改善在周期性噪音环境中端点检测的效果。
基金项目:863计划个人信息处理终端SoC (2003AA1Z1350)及上海市科委AM 基金资助收稿日期:2004-09-04 第22卷 第11期计 算 机 仿 真2005年11月 文章编号:1006-9348(2005)11-0117-03一种新的基于信息熵的带噪语音端点检测方法严剑峰,付宇卓(上海交通大学微电子学院,上海200030)摘要:在自动语音识别和变速率语音编码技术中,语音端点检测是前端处理的一个重要环节。
而在实际的噪声环境下,一些传统的端点检测方法已不适用。
该文提出了一种新的基于信息熵的语音端点检测方法,该方法通过对语音信号的短时功率谱进行谱分析,由此构造熵函数作为端点检测的特征参数。
实验结果表明,该方法在噪声环境下性能优于传统的基于能量的端点检测方法。
而且相对于基于频谱谱熵的算法[1],在低信噪比(S NR <0dB )情况下,该文方法有更好的鲁棒性,可使平均检测精确度进一步提高约5%。
关键词:语音端点检测;信息熵;功率谱;语音识别中图分类号:T N912.3 文献标识码:AA Novel Approach to En tropy -ba sed Endpo i n t D etecti on of No isy SpeechY AN J ian -feng,F U Yu -zhuo(I nstitute of M icr o Electr onics,Shanghai J iaot ong University,Shanghai 200030,China )ABSTRACT:I n the technol ogy of s peech recogniti on and variable bit rate s peech coding,accurate deter m inati on of s peech is a crucial part .Some traditi onal endpoint detecti on methods are ineffective in real noisy envir on ments .This paper p resents a novel entr opy -based app r oach t o s peech endpoint detecti on .I n the p r oposed method,we analyzethe short -ter m power s pectru m of s peech signal,fr om which the entr opy is derived and used as a feature in endpoint detecti on .Experi m ental results sho w that this method out perfor m s the traditi onal energy -based methods .Compared with the s pectral entr opy -based algorith m[1],it possesses a better r obustness in l ow S NR envir on ments (S NR <0d B )and can i m p r ove the p recisi on of endpoint detecti on about 5%.KE YWO RD S:Speech endpoint detecti on;Entr opy;Power s pectru m;Speech recogniti on1 引言在自动语音识别(ASR )及变速率语音编码技术中,正确确定语音段的起始端点,不仅可以减少后续处理的运算量,而且对于提高语音识别的准确率也极为重要。
基于谱熵梅尔积的语音端点检测方法
基于谱熵梅尔积的语音端点检测方法是一种改进的语音端点检测算法,它结合了谱熵和梅尔频率倒谱系数的特点,提高了语音端点检测的准确率。
首先,该方法通过提取带噪语音信号的梅尔频率倒谱系数中的第一维参数MFCC0,将其与谱熵的乘积作为最终区分语音段和背景噪声段的融合特征参数。
梅尔频率倒谱系数能够有效地描述语音信号的短时特性,而谱熵则可以反映语音信号的平坦程度,用于区分语音段和噪声段。
其次,该方法结合模糊C均值聚类算法和贝叶斯信息准则(BIC)算法对MFPH特征参数门限值进行自适应估计。
模糊C均值聚类算法可以将特征参数进行聚类,使得相似的特征参数归为一类,从而更好地进行语音端点检测。
贝叶斯信息准则(BIC)算法则可以用于估计最佳的聚类数目,提高聚类的准确性和稳定性。
最后,该方法采用双门限法进行语音端点检测。
在确定了特征参数门限值后,通过比较语音信号的特征参数与门限值的大小关系,可以判断语音信号的起始点和结束点,从而实现语音端点检测。
实验结果表明,与传统方法相比,基于谱熵梅尔积的语音端点检测方法在低信噪比环境下具有更高的准确率。
这主要是因为该方法综合考虑了语音信号的短时特性和频谱平坦度,能够更准确地描述语音信号的特点,从而提高了语音端点检测的准确率。
一种基于信息熵的语音端点检测方法
陈四根;和应民
【期刊名称】《应用科技》
【年(卷),期】2001(028)003
【摘要】根据语音信号的波形特征,利用熵函数的性质,构造了一种特殊的熵函数,通过判断此函数值的大小,确定是语音还是无声状态。
实验表明,此方法计算简单而且具有很高的准确性。
【总页数】2页(P13-14)
【作者】陈四根;和应民
【作者单位】哈尔滨工程大学电子工程系,黑龙江哈尔滨 150001;哈尔滨工程大学电子工程系,黑龙江哈尔滨 150001
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.一种基于改进信息熵的语音端点检测方法研究 [J], 宣章健;蔡晓霞;褚鼎立
2.基于优选信息熵的语音端点检测方法 [J], 张敏;曾晓辉
3.一种新的基于信息熵的带噪语音端点检测方法 [J], 严剑峰;付宇卓
4.基于信息熵的语音端点检测方法的研究 [J], 白顺先
5.一种基于近邻传播聚类的语音端点检测方法 [J], 林琴;涂铮铮;王庆伟;郭玉堂因版权原因,仅展示原文概要,查看原文内容请购买。
计算机时代2009年第3期0引言端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。
有效的端点检测不仅能使语音信号处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。
常用端点检测的主要依据是短时能量和短时过零率[1,2],但在应用过程中,其效果都难尽人意,这是因为语音信号中噪声的存在以及清音与无声状态很相似等[4]。
本文研究了信息熵特点,在此基础上构造了信息熵函数,提出了一种改进的基于信息熵的语音端点检测算法。
1基于短时能量过零率的端点检测1.1短时能量和过零率⑴短时能量设语音波形时域信号{x(n)},短时能量的定义为:⑴式中,E n 表示在信号的第n 个点开始加窗函数时的短时能量。
短时能量主要有以下几个方面的应用:首先,利用短时能量可以区分清音和浊音(浊音的能量比清音的能量大);其次,可以利用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等。
短时能量由于对信号进行平方运算,人为增加了高低信号之间的差距。
在端点检测中常采用短时平均幅度来表示能量的变化,其公式为:⑵⑵短时平均过零率设语音波形时域信号{x(n)},短时平均过零率的定义:⑶短时平均过零率是指每帧内信号通过零值的次数。
短时平均过零率在端点检测中的主要应用是判断清音和浊音、有声和无声。
1.2基于短时能量和过零率的端点检测方法此方法也称双门限的端点检测,它在短时能量检测方法的基础上加上短时平均过零率,利用能量和过零率作为特征来进行检测。
本系统具体实现步骤为:⑴对一段语音信号进行分帧、加窗。
本系统取帧长30ms (240点),帧移12.5ms (100点)。
计算短时平均幅度M[i]和短时过零率ZCR[i](i 为帧序号)。
⑵确定短时平均幅度和短时过零率的高低门限:EMPH (能量高门限)、EMPL (能量低门限)、ZCRH (过零率高门限)、ZCRL(过零率低门限)。
本系统中,EMPH=min(max[M[i]/12,10],EMPL=min(2,max(M[i]/30),ZCRH=10,ZCRL=5。
车载环境下基于样本熵的语音端点检测方法赵欢;王纲金;胡炼;彭秀娟【期刊名称】《计算机研究与发展》【年(卷),期】2011(48)3【摘要】在语音处理中一个关键性问题是如何准确找到语音的起止位置,目前提出许多的语音端点检测算法不能得到理想的检测结果.由于样本熵是近似熵的改进算法,提出车载环境下基于样本熵的语音端点检测方法.并采用模糊C均值聚类算法和贝叶斯信息判决算法进行样本熵特征门限估计,以及使用双门限法进行语音端点检测.在TIMIT连续语音库上的实验表明,车载噪声环境下,样本熵法和近似熵法的检测正确率均远高于谱熵法和能量谱熵法,而样本熵法相对于近似熵法具有更好的检测效果,特别是当信噪比小于等于OdB时,样本熵法的检测性能优于近似熵法近10%.因此,样本熵法在车栽智能语音领域具有很好的应用前景,能够为车载导航提供准确的语音端点检测技术.%One of the key issues in practical speech processing is to precisely locate endpoints of the input utterance to be free of non-speech regions. Although lots of studies have been performed to solve this problem, the operation of existing voice activity detection (VAD) algorithms is still far away from ideal. This paper proposes a robust feature for VAD method in car environments based on sample entropy (SampEn) which is an improved algorithm of approximate entropy (ApEn). In addition, we adopt fuzzy C means clustering algorithm and Bayesian information criterion algorithm to estimate the thresholds of the SampEn characteristic, and use dual thresholds method for VAD.Experiments on theTIMIT continuous speech database show that, in the car noise environments, the detection accuracy of SampEn and ApEn are both much higher than that of spectral entropy (SE) and energy spectral entropy (ESE). SampEn method has better detection performance than ApEn,especially when the SNR is not more than 0 dB, and SampEn method detection performance is superior to ApEn nearly 10%. Therefore, the SampEn method has a good application prospect in automotive field and can provide accurate VAD techniques for car navigation.【总页数】6页(P471-476)【作者】赵欢;王纲金;胡炼;彭秀娟【作者单位】湖南大学计算机与通信学院,长沙,410082;湖南大学计算机与通信学院,长沙,410082;湖南大学计算机与通信学院,长沙,410082;湖南大学计算机与通信学院,长沙,410082【正文语种】中文【中图分类】TP391.42【相关文献】1.车载环境下的语音端点检测方法 [J], 冯璐;王路露;张磊;张华东2.一种自适应样本熵的语音端点检测方法 [J], 景新幸;赵靖;杨海燕3.模糊熵在车载环境下语音端点检测中的应用 [J], 恩德;张凤磊;张昭;忽胜强4.车载环境下语音端点检测的研究 [J], 张恒;周萍5.车载环境下的语音端点检测 [J], 涂志强;梁亚玲;杜明辉因版权原因,仅展示原文概要,查看原文内容请购买。
基于优选信息熵的语音端点检测方法张敏;曾晓辉【摘要】为提高噪声环境中语音端点检测的准确率,提出一种基于信息熵的检测方法.将分帧语音信号按照不同阶数重新量化,选择其中波动范围大的信息熵作为该信号的优选信息熵,通过多次仿真实验确定较优门限,设计状态机对多段带噪语音进行端点检测.实验结果表明,该方法具有较好的抗噪声性能,在同等环境中的检测误判率较低.%To enhance the accuracy of endpoint detection in noisy environment, a detection method based on optimum information entropy is proposed. According to the method, framed speeches are re-quantized with different groups of quantization level, and the group which has greatest range of entropy is chosen to calculate the optimum information entropy of the noisy speech. Thresholds are set by simulations and a state machine is employed to detect the endpoints of noisy speeches. Experimental results show that the method has better noise immunity and lower misjudgment rate.【期刊名称】《计算机工程》【年(卷),期】2012(038)019【总页数】5页(P170-174)【关键词】端点检测;波动范围;信息熵;门限;状态机;误判率【作者】张敏;曾晓辉【作者单位】成都信息工程学院通信工程学院,成都610225;成都信息工程学院通信工程学院,成都610225【正文语种】中文【中图分类】TP181 概述语音端点检测,又称语音激活检测(Voice Activity Detection, VAD),是语音信号预处理的关键技术之一,即从包含语音的一段信号中,确定出语音的起始点和结束点。
端点检测在传统的语音增强、语音编码和压缩,以及语音识别等领域中非常重要。
在新兴VOIP业务中,端点检测可应用于从声音信号流里的识别,以及消除长时间的静音期,在不降低业务质量的情况下,可节省宝贵的带宽资源[1]。
早期的孤立字识别系统通常工作在实验室环境下,在这种背景环境中,可以认为是无噪的。
对于高信噪比环境下录制的语音,其背景噪声的能量远低于语音能量,基于能量和过零率的方法已可检测到比较准确的语音端点。
在实际应用中,分析的对象通常是混杂了各种干扰噪声的连续语音信号,当语音能量与背景噪声能量相当时,采用传统能量和过零率检测方法已很难准确地检测出语音的端点。
为解决该问题,语音信号的更多特征参数被引入到语音端点检测中,如短时分形维数[2]、时域特征[3]、谱熵[4-6]、倒谱[7]、小波变换系数[8]。
本文提出一种基于优选信息熵的语音端点检测方法。
围绕语音信号的时域波形展开分析,选取较优的信息熵,并对不同信噪比的连续语音段进行测试。
2 常用语音端点检测技术语音是时变的、非平稳的、非遍历的随机过程,但在一段时间内(10 ms~30 ms),人的声带和声道形状具有相对稳定性,因此,可将语音分为若干分析帧,每一帧的语音可以认为是稳定的,而端点检测通常在分析语音短时特征的基础上进行。
2.1 短时能量语音信号一般可分为静音段(或噪声段)、清音段、浊音段,一般来说,浊音段的平均能量大于清音段,清音段的平均能量大于静音段。
假设将待分析的语音信号分帧,则一帧信号{x(n)}的短时能量定义为:其中,w(n)为窗函数;N为窗长,一般0<n<N−1。
从式(1)可见,语音帧的能量包含噪声信号和语音信号 2个部分,比静音帧或者噪声帧的能量累计值大,所以,在信噪比较高的情况下,短时能量可以作为区分浊音段和清音段以及噪声段的依据,但在低信噪比情形下,此方法就失效了。
2.2 短时过零率短时过零率是语音信号的另一重要特征,对于连续语音信号而言,过零率表示一定时间内信号穿越零电平的次数。
对于离散信号而言,过零率代表相邻2个样点符号的改变次数。
信号{x(n)}的短时平均过零率定义为:其中,sgn[·]为符号函数,过零率粗略地反映了信号的频谱特性。
一般来说,在同一段语音中,清音段的平均过零率大于浊音段,而噪声段的过零率变化范围较大,但过零率容易受低频交流信号的影响,在实际的端点检测中,通常使用短时能量和过零率结合判别的方法。
2.3 信息熵法假设语音信号x(n)的帧长为N,在一帧语音中,最大幅度值与最小幅度值分别为Amax、Amin,分别统计这一区域中x(n)=xi,xi∈(Amin,Amax)出现的次数ni,则令xi这一值出现的概率计为Pi=ni/N,则语音信号的信息熵定义为:信息熵实质上反映了语音信号幅度的分布情况。
语音信号相对于背景噪声而言其幅度的波动范围大,在整个幅度区间内分布较广,所以,熵值较大,而静音段(或噪声段)的幅度小,且分布相对集中,因此,熵值小。
类比于传统检测方法,信息熵方法通过实验确定一个门限,然后对每帧语音的熵值进行比较,认为熵值大于等于门限时为语音帧,小于门限则为静音帧,即可检测出带噪语音信号的端点。
3 改进方法鉴于传统端点检测方法在低信噪比情况下,其检测结果都不太理想,本文根据信息熵的定义,深入分析了不同参数条件下,用信息熵法检测语音端点性能的区别,最终通过实验获得一组较优的参数,并应用于5 dB、0 dB和−5 dB 3种信噪比的带噪语音分析。
3.1 信息熵的优选文献[1-2]提到的信息熵计算公式,当 x(n)=xi在整个(Amin,Amax)区间内,如果只出现过一次,即没有完全相同的2个信号样点存在,则信息熵值恒为 lbN,其中,N为语音帧帧长,语音段和噪声段的信息熵值都相同,无法检测端点。
本文对样点区间(Amin,Amax)进行了分段,构造新的取值空间:其中,i表示对单帧信号重新量化时采用的阶数。
对单帧信号x(n)在新的取值空间中进行量化,统计本帧中每个量化值出现的次数,以计算出现概率,进而计算信息熵。
假设量化因子α取值从1~15,则量化阶数i为2(α+1),即对带噪信号分别采用4阶量化、8阶量化、…、215阶量化,分析不同量化阶数对于信息熵波动范围的影响,影响结果如图1所示。
图1 不同量化阶数对信息熵的影响结果从图1可知,量化阶数不同,所得的信息熵曲线形状相似,但波动范围不同,考虑在相似波形的条件下,波动范围越大,峰谷差值越大,则意味着语音段与静音段越容易被区分出来,所以,本文选取了α=5,即64阶对带噪信号做了重新量化。
由信号采样率为 16 kHz可知,当α≥15时,取值空间的重构将会失效。
式(4)参数 Amax和Amin代表新取值空间的上下限。
如果它们采用单帧信号的最大值和最小值时,端点检测的效果不太理想。
如果采用整段信号的最大值和最小值作为Amax和Amin,求得的信息熵在语音段和噪声段有明显的区别,通过设定适合的门限,即可进行端点检测。
3.2 检测过程的状态机设计在检测过程中,引入时滞机制,即设定语音和噪声的最小持续期,引入过渡状态和渐消状态来累计语音信号和噪声信号的持续时间,并以预先设定的2个最小持续期参数作为辅助条件判别信号的状态。
信号被分成静音状态、过渡状态、语音状态和渐消状态,通过如图2所示的过程,状态机完成端点检测,其中,H_th为设定的信息熵高门限;L_th为设定的信息熵低门限;h为当前帧的信息熵。
图2 语音端点检测过程的状态机检测过程如下:(1)将待测语音信号分成相邻有重叠的语音帧,每帧语音加汉明窗处理。
(2)按照优化方式计算每帧的信息熵值。
(3)设定语音段划分基准门限。
在一般情况下,基准门限值取信号最初的 10帧的信息熵的平均值,如果分帧较短,可采用更多帧求基准门限。
根据经验值,取 H_th为基准门限的1.3倍;取L_th为基准门限的1.03倍,在实际检测中,可以根据所处的噪声环境微调系数,类似可编程对讲机采取的方式。
(4)假设信号初始为静音状态,实验证明,信号的信息熵有一个渐变的过程,如果当前帧的信息熵 h已经大于H_th,则可以直接判定信号进入语音状态;如果h>L_th,则进入过渡状态;如果h<L_th,则驻留在静音状态。
(5)在过渡状态,如果当前帧的信号熵 h<L_th,则信号回到静音状态;如果h>H_th或者处于过渡状态的信号累计达到 2帧,则信号进入语音状态;如果L_th≤h≤H_th,且过渡状态帧累计不够,则信号保持在过渡状态。
(6)在语音状态,如果该状态的累计时间小于语音的最小持续期(如本文设定的32 ms),则信号停留在语音状态;当累计时间大于语音的最小持续期后,且当前帧的信息熵h<L_th×0.95,则信号进入结束状态。
图3 纯净语言信号的归一化幅度(7)在渐消状态,如果当前帧的信息熵h≥L_th×0.99,则信号由渐消状态恢复到语音状态,这是为了避免因信息熵的波动而引起的误判;如果h<L_th×0.99时,则信号停留在渐消状态,程序同时统计信号持续在渐消状态的时间,如果大于设定的噪声最小持续期(如本文设定 16 ms)时,则信号进入静音状态。
(8)当程序循环到新的一帧信号时,根据上一帧信号的状态和本帧的信息熵大小,分别进入分支过程(4)~过程(7),直到输入的语音信号结束。
4 实验结果与分析通过实验来说明本文方法的有效性。
实验选用了TIMIT标准语音库中一段语音作为纯净语音信号,其内容为“Have a test-run on the family first, to be sure timing and seasoning are right”,其采样频率为16 kHz,16 bit量化,帧长设为4 ms,帧间交叠50%,即每帧有64个样点,帧间交叠32个样点。
本文选用了莱斯大学提供的NOISE数据库中的白噪声、粉色噪声、babble噪声、工厂噪声等作为了叠加的噪声信号,对生成的4种带噪信号分别进行了端点检测。
按照3.1节方法求得优选信息熵后,分别采用短时过零率、短时能量和改进信息熵3种方式对信噪比为 0 dB的带噪语音进行了分析,得到带噪语音的3种特征如图3~图6所示。
图4 SNR=0 dB带噪信号的短时过零率图5 SNR=0 dB带噪信号的短时能量图6 SNR=0 dB带噪信号的信息熵需要说明的是,在图3和后续各图中提及的语音信号幅度指通过Matlab中的wavread函数获取的归一化语音幅度,范围为−1~1,无量纲;而短时能量定义为每一帧所有采样点归一化幅度平方的累计,所以短时能量也无量纲。