当前位置:文档之家 > 浅谈语音压缩编码的发展和应用

浅谈语音压缩编码的发展和应用

科技情报开发与经济

SCI-TECHINFORMATIONDEVELOPMENT&ECONOMY2006年第16卷第22期

近30年来,通信技术一直在发生着深刻的变化,编码技术日臻完善,高质量、低速率的语音编码算法纷纷出现,各国相继成立了一些国际通信标准化组织,及时地制定专门的通信编码标准,语音编码技术的发展也体现在这些不断制定的标准中。由于实现方式的不同,语音压缩编码技术种类很多,一直向着高质低速方向发展,并出现了不少令人振奋的成果。

1理论基础

随着信息技术的发展,信道资源显得更加宝贵,为了在有限的信道内

进行更多的信息传输,必须对语音信号进行压缩。语音信号能够压缩的基本依据是语音信号中存在的冗余和人类的听觉感知机理。语音信号存在多种多样的冗余,可分别从时间域和频率域描述。

从时间域分析:幅度的非均匀分布,即语音中的小幅度样本出现的概率高,信息主要集中在低功率上;采样数据间的相关,相邻的语音信号间有很强的相关性,研究表明,当采样率为8kHz时,相邻样值之间的相关系数大于0.85,如果采样率提高,相关性将更强;周期间的相关,浊音语音段具有准周期性,反映在波形上出现图形的重复,即信息冗余;语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双工话路的典型效率约为通话时间的40%,即静止系数为0.6;长时自相关,除了样本间、同期间的相关外,在较长的时间间隔上,语音信号也存在相关,统计表明,8kHz采样时的平均相关系数高达0.9。从频率域分析:非均匀的长时功率谱密度,从相当长的时间内统计平均,语音信号的功率谱呈现强烈的非平坦性,这说明语音信号对给定的频段利用的不充分,存在固定的冗余度;语音特有的短时功率谱密度,语音信号的短时功率潜在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大的频率,称为共振峰

(Formant),语音特征主要由前3个共振峰频率决定,随着频率的增高,对整个功率谱的影响会快速递减。

语音压缩的第二个依据是人的听觉生理和心理特性对语音的感知,其影响主要表现在:第一,人的听觉系统(HumanAuditorySystem,HAS)对声音具有掩蔽效应(MaskEffect),即一个强的声音能够抑制另一个同时存在相对较弱的声音,利用这一性质可以抑制与信号同时存在的量化噪声。第二,对不同频段的声音的敏感程度不同。人的听觉对低频端比较敏感,而对高频端不太敏感,这主要是因为浊音的周期和共振峰在这里。第三,人耳对语音信号的相位变化不敏感。人耳的听觉不像人的视觉对感知的信号相位那样敏感,一定程度的相位失真对听觉来说是可以容忍的。人耳听不到或感知极不灵敏的语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩。

语音压缩编码的目的是用尽可能低的数码率获得尽可能好的合成语音质量,同时又使要编码过程的计算代价尽可能小。降低数码率的实质就是压缩频带宽度,数码率低意味着算法的复杂度增加,延迟变大。所以语音压缩编码算法的研究一直在这个矛盾中向前发展。

2语音压缩编码的发展及应用

近10多年来,语音编码技术取得了突飞猛进的发展,出现了多个国

际标准和区域标准,已具备了比较完善的理论和技术体系,随着高速信号处理器的诞生,使多种算法复杂、计算量很大的编码技术的实时化变得容易起来,语音压缩编码进入了实用阶段。

目前语音编码主要分为三类:波形编码、

参数编码和混合编码。2.1波形编码

最早的语音编码系统采用波形编码方法,这种方法主要是基于语音

信号的波形,力图使合成语音与原始语音的波形误差最小。由于语音信号的全部信息都蕴含在原始波形里,所以这种方法编码后的合成语音质量非常好,且适应能力强,抗信道干扰性能好。所采用的压缩方法一般是基于各种有效的数学变换,通过将波形从一个域变换为另一个更易于提取特征参数的域来达到对变换后的参数进行量化编码的目的,在数学上,这实质上是一个曲线拟合或数据近似的问题。主要的有以下的编码器:脉冲编码调制

(PCM)、自适应增量调制(ADM)、自适应差分编码(ADPCM)、自适应预测编码(APC)、自适应子带编码(ASBC)、自适应变换编码(ATC)。波形编码的性能和压缩比特率决定于所用的变换方法的性能,由于语音波形的动态范围很大,目前所用的变换算子的作用又有限,因此,波形编码的比特率不能压得很低,一般在16kb/s以上,再往下,性能就下降很快。新近蓬勃发展的小波变换,尽管具有分层的思想、“显微镜”的功能、与图像的视觉感知相吻合,但用于语音编码效果不理想,因为与人的听觉感知不相吻合。国际电报电话咨询委员会CCITT(现已并入国际电信联盟ITU)于1972年制定的G.71164kb/s的脉冲编码调制

(PCM)和ITU在1984年公布的G.72132kb/s自适应差分脉冲编码调制(ADPCM)编码器标准等都属于这一类编码器。

2.2参数编码

参数编码始于1939年美国人HomerDudey发明的声码器,它是根

据语音信号的特征参数来编码,所以又叫

“声码器技术”。这种编码方法是通过对人的发声生理过程的研究,建立一个模拟其发声的数字模型来达到提取其特征参数进行量化编码的目的,它力图使合成语音具有尽可能的可懂性,保持原语音的语意,而合成语音的波形与原始语音的波形可能有相当大的差别。由于它是以滤波器为主来构造语音产生模型,发送的只是滤波器的参数和相关的特征值,可以将比特率压得很低,但合成语音质量不是很好。这种方法在低数率声码器中普遍采用。

主要声码器有通道声码器、共振峰声码器、同态声码器、线性预测(LPC)声码器等。其中LPC声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数,较好地解决了编码速率和语音质量的问题,以其成熟的算法和参数的精确估计成为研究的主流,并已走向实用。美国政府1980年公布的2.4kb/s线性预测编码算法LPC-10就是采用的这种方法。1986年,美国第
三代保密电话装置采用了2.4kb/s的LPC-10e

主要声码器有通道声码器、共振峰声码器、同态声码器、线性预测(LPC)声码器等。其中LPC声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数,较好地解决了编码速率和语音质量的问题,以其成熟的算法和参数的精确估计成为研究的主流,并已走向实用。美国政府1980年公布的2.4kb/s线性预测编码算法LPC-10就是采用的这种方法。1986年,美国第三代保密电话装置采用了2.4kb/s的LPC-10e

(LPC-10的增强型)作为话音处理方法。2.3混合编码

20世纪80年代后期,综合波形编码和参数编码的混合编码算法成为主流,这种算法也假定了一个语音产生模型,但同时又使用与波形编码相匹配的技术将模型参数编码,吸收了两者的优点。所谓混合编码有

文章编号:1005-6033

(2006)22-0157-02收稿日期:2006-09-15

浅谈语音压缩编码的发展和应用

(太原铁路机械学校,山西太原,030006)

要:近30年来,高质量、低速率的语音编码算法不断出现。编码技术种类很多,按

照波形编码、参数编码和混合编码的分类方法论述了语音编码的发展进程、各种标准及其应用。

关键词:语音编码;波形编码;参数编码;混合编码;编码标准中图分类号:TN912.3

文献标识码:A

157

下载Word文档免费下载:

浅谈语音压缩编码的发展和应用下载

(共2页)

TOP相关主题