一种基于MELP模型600bps声码器的设计
- 格式:docx
- 大小:40.53 KB
- 文档页数:7
2009年第07期,第42卷 通 信 技 术 Vol.42,No.07,2009 总第211期Communications Technology No.211,Totally一种基于MELP的600b/s极低速率语音编码马庆利①,季新生①,张连海①,刘成群②(①解放军信息工程大学 信息工程学院,河南 郑州 450002;②中国人民解放军69015部队,新疆 乌鲁木齐 830000)【摘 要】为满足无线通信的要求,文中在传统的MELP的基础上,提出了一种速率为600b/s的语音编码算法。
该算法利用帧间冗余,把连续的4帧构成一个超级帧进行联合量化。
对线谱对采用两帧联合量化、双向线性内插技术,对能量参数采用分离均值矢量量化等技术。
仿真实验证明该语音编码算法有较好质量。
【关键词】语音编码; 多帧联合量化; 超级帧【中图分类号】TN912.3【文献标识码】A【文章编号】1002-0802(2009)07-0268-03A New 600b/s Very Low Bit-Rate Speech Coder Based on MELPMA Qing-li①, JI Xin-sheng①,ZHANG Lian-hai①,LIU Cheng-qun② (①Institute of Information Engineering, Information Engineering University, Zhengzhou Henan 450002, China;②PLA Unit 69015 Urumchi Xinjiang 830000, China)【Abstract】In order to meet the needs of wireless communication, a new 600b/s speech coding algorithm based on MELP(mixed excitation linear prediction) is proposed and implemented in this paper. In this algorithm the four consecutive MELP frames are grouped into a superframe and jointly quantized by utilizing the inter-frame redundancy properties. The algorithm uses such techniques as two-frame LSP(Linear Spectrum Pair)joint quantization and bidirectional prediction in LSP quantization, mean-removed vector quantization for gain parameters etc. Simulation results indicate that the proposed coder is of fine quality.【Key words】speech coding; multi-frame joint quantization; superframe0 引言在短波通信、卫星通信中由于受到信道质量和费用问题,不宜采用扩大通信信道的带宽来增大通信容量,特别是在强大人为干扰下或环境噪声极强条件下的军事通信、数字语音保密通信等,极难新建或扩展信道,在这种情况下,极低速语音编码成为唯一选择。
低码率语音编码MELP的SOPC实现李锐【摘要】讨论了低码率语音编码MELP的编解码过程,有效降低了语音编码码率并能使说话者个人语音特征减弱,特别适合需要弱化说话者语音特点的场合.给出了其FPGA的硬件实现框图,据此可进行具体的硬件设计.同时给出了MELP编解码框图,可用于进一步的软件编制.【期刊名称】《微型机与应用》【年(卷),期】2010(029)007【总页数】3页(P18-20)【关键词】MELP;NIOS Ⅱ;SOPC【作者】李锐【作者单位】南京邮电大学,电子科学与工程学院,江苏,南京,210003【正文语种】中文【中图分类】TN912.34语音编码技术在当今数字通信尤其在无线系统中发挥着越来越重要的作用。
利用语音编码技术可有效降低信息存储量、提高信道利用率。
混合激励线性预测(MELP)语音编码算法能在较低码率下提供较高的语音质量、自然度和清晰度,已成为美国国防部新的2.4 Kb/s的语音编码标准。
Nios II处理器是Intel公司为Altera公司推出的32位精简指令处理器软核。
在Altera公司推出的软件SOPC中加载Nios II软核和相应的外围接口以及与定义相应的自定义指令,对设计进行综合,下载到FPGA中就可以方便地实现一个具有高速DSP功能的嵌入式处理器[1]。
由硬件实现复杂的算法通常比软件实现更高效。
利用Altera公司的Nios II嵌入式处理器的定制指令,可以把用户自定义的功能直接添加到Nios II CPU的算术逻辑单元(ALU)中,以加快专项任务的执行速度。
自定义指令的优势就在于可以将程序代码中的瓶颈部分改用硬件指令支持,用自定义的指令使程序得到加速。
1 MELP的构成MELP声码器的采样率为8 kHz,每个样点值用16 bit量化,每 180个样点为 1帧,帧长 22.5 ms,每帧量化 bit数为 54 bit,总的速率为 2.4 Kb/s。
MELP声码器是建立在传统的二元激励LPC模型基础上,采用了混合激励、非周期脉冲、自适应谱增强、脉冲整形滤波和傅氏级数幅度值等5项新技术,使得合成语音能更好地拟合自然语音。
基于DSP芯片的MELP声码器的算法实现摘要:论文对MELP编解码算法的原理进行了简要分析,讨论了如何在定点DSP芯片TMS320VC5416上实现该算法,并研究了其关键技术,最后对测试结果进行了分析。
关键词:MELP;语音编码;定点DSP芯片TMS320VC54161 引言1996年3月,美国政府数字语音处理协会(DDVPC)选择了2.4kbps混合鼓舞线性推测(MELP)语音编码器作为窄带保密语音编码的产品以及各种应用的新标准由于MELP具有良好的音质、极低的码率,以及良好的抗误码特性,能够应用在IP PHONE、移动通信、卫星通信等领域,专门在需要大量储备话音的场合和保密通信等方面,具有专门好的进展前景。
编码算法有硬件实现和软件实现两种方式,软件实现灵活性强,但处理速度较慢,一样不能满足实时处理的要求。
硬件实现分为专用法和通用法两种。
通用法是基于通用数字信号处理器芯片实现编码算法的,它具有体积小、功耗低、运算速度快等优点,其灵活性要紧表现在软件易于更换以及对各种算法的处理和复杂算法的实现上,专门适用于语音信号、视频信号等压缩处理。
MELP算法复杂度较高,因此实时实现必须借助于高性能的数字信号处理芯片。
目前国内还没有用于研究声码器算法的专用芯片。
因此,从功耗和性能多方面考虑,本文采纳通用法实现MELP声码器算法,选择TI公司的TMS320VC5416 DSP芯片作为主处理器,完成声码器的要紧功能。
2 MELP编解码算法2.1 编码部分编码器基于线性推测分析合成技术,采样率为8kHz,以180采样值(22.5ms)为一帧进行编码,总体框图见图1。
输入的原始语音信号通过隔直滤波(即高通滤波),得到目标信号S(n)。
再对目标信号作以下处理:①低通滤波后用归一化互相关法进行基音粗估,然后依照[0Hz,500Hz]子带信号围绕粗估基音估算分数基音;②带通分析,在5个子带运算话音强度,以决定各子带的清/浊音判决,其中[0Hz,500Hz]子带强度用于确定非周期标志位;③运算LPC和尖峰值,用L-D算法提取10个LP系数,然后乘以带宽扩展系数,使用得到的系数运算残差信号,对残差信号的160个抽样运算尖峰值;④使用截止频率为1kHz的6阶巴特沃兹滤波器低通滤波残差信号,结合上一子帧的基音和当前子帧的分数基因,搜索出最终基音周期;⑤使用一个基音自适应窗采纳一帧两次的方法对增益进行量化;⑥LPC分析,并转换成线谱对LSP参数量化;⑦将量化后的LSP参数转换为LPC参数并进行逆滤波操作,残差信号补0至512点,对其进行512点FFT,利用频谱峰点检测算法找到前10次谐波对应的傅立叶系数输出。
一种甚低码率声码器的设计李强;张玲;朱兰;明艳【期刊名称】《重庆邮电大学学报(自然科学版)》【年(卷),期】2018(030)006【摘要】在混合激励线性预测(mixed excitation linear prediction,MELP)模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器.为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantiza-tion based on Gauss mixture model,GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率.采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试.测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度.【总页数】7页(P776-782)【作者】李强;张玲;朱兰;明艳【作者单位】重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065;重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065;重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065;重庆邮电大学信号与信息处理重庆市重点实验室,重庆400065【正文语种】中文【中图分类】TP919.81;TP39【相关文献】1.甚低码率网络数字视频服务器的设计 [J], 程德强;钱建生;黄书慧2.一种基于Q4401声码器的基带信号处理器的设计与实现 [J], 傅世友3.一种600b/s甚低速率声码器的研究 [J], 陈亮;张雄伟4.一种低码率声码器系统的设计及实现 [J], 刘嘉勇;方勇;朱立东;葛艳5.一种低码率声码器的算法研究及DSP实现 [J], 朱立东因版权原因,仅展示原文概要,查看原文内容请购买。
MELP低比特率数字语音编码技术研究
刘宽海;葛万成
【期刊名称】《信息技术》
【年(卷),期】2003(027)008
【摘要】主要介绍了一种新的低比特率MELP(Mixed Excitation Linear Prediction)混合激励线性预测语音编码技术,其中着重分析了该编码算法所采用的几项关键技术.给出了采用MELP压缩编码算法后的输出比特流在各个参数上的比特分配表,并通过计算机仿真,对MELP合成语音与原始语音的质量做了比较,最后就MELP语音编码技术与现今其它几种不同的低速率语音编码技术的合成语音质量在DRT、DAM及MOS得分三个方面做了比较.
【总页数】3页(P52-54)
【作者】刘宽海;葛万成
【作者单位】同济大学电子与信息工程学院,上海,200029;同济大学电子与信息工程学院,上海,200029
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.一种变比特率MELP语音压缩编码的研究与实现 [J], 马欣;李文元;刘常澍;张毓忠
2.低比特率远程监控视频压缩编码方法 [J], 王晓日;慕晓冬;柯冰;许夙辉
3.基于人眼视觉特性的低比特率图像压缩编码 [J], 王力;王向阳
4.低比特率Bandelet域图像压缩编码算法研究 [J], 王向阳;金海波
5.一种新的用于低比特率视频编码的全零块预先判别方法 [J], 仇晶
因版权原因,仅展示原文概要,查看原文内容请购买。
基于MELP的变速率分类型语音编码算法肖玉娟;赵利【摘要】提出了一种基于混合激励线性预测的变速率分类型语音编解码算法.该算法在MELP编码前用语音活动检测法判决有声无声,并且将过渡帧划分为2个子帧,根据语音的特征把语音帧分为静音帧、浊音帧、清音帧和过渡帧4类,分别进行分析和合成,做到在降低语音编码率的同时得到较好的语音质量.【期刊名称】《电声技术》【年(卷),期】2013(037)002【总页数】4页(P54-57)【关键词】变速率语音编码;分类型;混合激励线性预测;VAD过渡帧【作者】肖玉娟;赵利【作者单位】桂林电子科技大学信息与通信学院,广西桂林541004;桂林电子科技大学信息与通信学院,广西桂林541004【正文语种】中文【中图分类】TN912.31 引言语音作为人类交流信息的主要手段之一,在通信系统中占据重要的地位。
随着数字通信技术的发展,带宽资源日益紧张,所以为了节省带宽,对低速率语音编码算法进行研究非常有必要。
2.4 kbit/s速率的MELP编译码器在1997年被选为美国联邦窄带安全语音通信应用标准[1]。
该编译码器已应用到水下听觉通信系统,并且通过随机的联合信源信道编码最大限度利用带宽资源[2-4],对MELP的进一步研究和改进,对于与之相结合的系统各项性能的提高具有很大意义。
研究表明,人们在电话交流时,约60%的时间为聆听对方讲话和通信中静音期,单向通话的时间通常只占40%或更少。
静音段的参数(背景噪声参数)用很少的比特就可表示,从而使编码平均速率大大降低[5]。
一般的低速语音编码都是直接将语音帧判决为浊音帧或清音帧,这种简单的划分方法好处是对激励源模型要求低。
缺点是当语音帧为过渡帧,即语音处于清浊音过渡阶段时被组成一帧,此时简单地把该语音帧判决为清音帧或浊音帧,不仅判决存在困难而且各语音参数的提取也会不准确[6],将过渡帧分为2个子帧——前半子帧和后半子帧,并且前后两子帧类型不同,即过渡帧有UV帧和VU帧两种类型,进一步细分过渡帧类型能有效地减少清浊音判决错误并提高参数估计的准确性[7]。
基于TR600芯片的过程调用设计与硬件实现随着大规模集成电路的不断发展,软硬件界面的划分也发生了变化,VKSI设计方法的改进、IP技术的标准化以及系统在片(SOC)设计的日渐成熟,为软件功能逻辑硬件化实现提供了技术条件和实现手段。
作为软件程序设计的重要部分,过程调用功能使用频度相当高,尤其在结构化设计中起到重要作用,因此,其硬件实现方法的优劣对于软件能否很好地移植到逻辑电路中起到了非常重要的作用。
TR600语音编解码芯片设计是基于MELP、SELP2(Sine Excitation Linear Prediction)等多种语音算法,采用可重构体系结构…和变长指令技术,实现了多种语音算法可在片配置的SOC设计。
这款语音芯片结合了逻辑电路的快速性和用户指令编程灵活性的特点,通过分析多种语音算法,并提取资源共集,建立了资源、运算、网络可重构的逻辑电路,同时提取资源的可控节点,形成用户指令界面,以指令流形式控制逻辑电路,实现算法级应用功能。
过程调用功能就是以指令形式提供给使用者,并通过指令译码器控制逻辑电路动作,实现具体功能。
因此,过程调用功能的硬件实现效率和灵活度直接影响芯片整体的速度、规模以及用户指令编程的复杂度。
过程调用模型可简单描述为主调过程将被调过程置于某一位置,然后把控制权交给被调过程,执行完毕,再取回控制权,并返回运行结果,主调过程继续执行。
因此过程调用需要2个步骤:调用过程和返回过程。
过程调用需要处理的信息有:程序计数器(PC)值的保存与恢复、现场保护和参数传递。
过程调用是一种典型的后入先出堆栈寄存器结构,这种实现方式虽已相当普遍,但也存在不足:(1)堆栈寄存器使用效率低,存储时间和空间浪费严重。
因为参数传递的个数和规格因调用过程的不同会有所不同,而主调过程需要对所有可能被破坏的数据堆栈进行保护,而堆栈的宽度和深度会因满足过程调用最坏情况而设计得最大,而且嵌套调用会增加堆栈寄存器的开销。
基于1.2k MELP的语音编解码系统的实现在过去的十年中,数字通信领域有着惊人的发展,语音编码技术更是对这一发展有着极大的贡献。
进行了语音编码的数据在传输中具有可靠性高,抗干扰能力强,易于查错纠错,在储存的时候容量小,易于储存等特点。
而低速率且高质量的低速率语音编码技术更是成为了研究的热点,它在网络通信、语音邮件、IP电话、保密通信等领域都有广泛的应用和前景。
低速率语音压缩算法是一个复杂度较高、运算量较大、并且有着重要现实意义的课题。
1.2k MELP算法是目前甚低速率压缩算法中较为优秀的算法。
结合了混合激励和多带激励的思想,以LPC模型为基础,同时在激励信号产生和基音提取方面做了一些改进,提高了语音合成质量。
这些方法主要包括多带混合激励、使用非周期脉冲、残差谐波谱处理技术、自适应谱增强技术和脉冲整形滤波。
本论文首先深入学习了1.2kMELP语音压缩算法的关键技术,详细讲解了编解码框图的每一步流程,每一个参数的分析及量化方法。
然后使用微软1.2k MELP的开源代码‘’ Microsoft Speech coder ANSI-C Source Code SC12001200bps speech coder Version7.0"在PC上对1.2k MELP 进行仿真,并从合成语音质量和代码延时两方面对其进行了性能考查。
本论文的重点是实现了基于1.2k MELP编解码算法的通信系统,实现了语音采集、语音编码、打包传输、语音解码、语音播放这一系列的流程。
经试验证明,该系统操作方便,性能稳定,语音质量较好且延时小,可以进行实时的语言通信。
一种卫星移动通信基带软声码器设计作者:王鑫张健张洋王玮来源:《中国新通信》2023年第16期摘要:本文主要定义一种卫星终端使用的基带声码器软核实现的设计,用于卫星终端基带集成语音编解码软核功能的设计与开发参考,提升卫星基带模组的高集成能力,为低功耗小型化手持卫星终端开发提供帮助。
针对卫星通信系统常用的MELP语音编码器,设计包括多速率话音编解码器、话音激活检测、抵抗误码传输的软声码器。
为开发人员提供实现条件和技术原理指导。
关键词:基带声码器,多速率语音,话音激活,抵抗误码一、引言衛星通信的话音,采用的混合激励线性预测(MELP)语音压缩编码,通常具有2.4Kbps 和4.8Kbps两种话音编解码方案。
该压缩编码采用MELP算法,对重建的语音信号采用常见的多带处理方式,并运用线性预测谱来估计语音信号中的包络。
目前,这种编解码方式广泛应用在国外的铱星、海事卫星等提供话音服务的卫星通信系统中,国内也有按照这一标准建设的卫星系统。
卫星链路的特点是功率受限和易受干扰,要求具备话音激活检测和抵抗误码传输的能力。
设计的多速率语音编码器是一个单独的综合语音编解码器,具备2.4Kbps和4.8Kbps两种源编码速率以及一种低速率背景噪声编码模式[1]。
针对卫星通信系统功率受限和不可靠传输的特点,设计了通过产生舒适噪声进行不连续传输的话音激活检测方案,以及通过差错隐藏来应对丢包影响的抵抗误码传输方案。
基于MELP算法的软声码器采用线性预测混合激励模型,使用随机噪声信号来表示清音激励,对浊音激励采用谐波信号来表示。
该软声码器通过提取线谱频率、基音周期、增益、清浊音信息和傅立叶幅度等五类参数,并使用软件算法来实现话音编解码方案。
二、软声码器组成原理基带一般采用RTOS系统,对实时性要求较高,为了避免有效进程进入拥塞状态,声码器嵌入在编码和解码两个任务子线程中,因此需要为编解码的软实现准备独立的任务线程。
多速率话音编解码器包括2.4Kbps和4.8Kbps两个速率,由于两种速率在同一时刻不可能同时存在,因此编码和解码不需要为不同速率创建任务。
基于1.2k MELP的语音编解码系统的实现的开题报告一、研究背景及意义语音是人类交流的重要载体之一,随着现代通信技术的发展,语音编解码技术已经成为了现代通信领域中的重要组成部分。
语音编解码技术可以将语音信号编码为数字信号,再将数字信号解码还原为语音信号,以实现语音通信的目的。
在语音编解码技术的发展历程中,有很多不同的编解码标准被提出,其中1.2k MELP是其中的一种。
1.2k MELP(Mixed-Excitation Linear Predictive)编解码技术是一种低速率、低码率的语音编解码技术,它利用了多种不同类型的激励策略,以及一个线性预测模型,来提高语音编解码的质量和效率。
与其他语音编解码技术相比,1.2k MELP编解码技术具有更高的语音质量、更低的延迟、更高的压缩比等优点。
因此,本文将基于1.2k MELP的语音编解码系统进行研究和实现,以提高语音通信的质量和效率,并探究实现过程中可能遇到的一些技术问题及其解决方案。
二、研究内容及方法本文将主要研究基于1.2k MELP的语音编解码系统的实现,并探究实现过程中可能遇到的一些技术问题及其解决方案。
具体研究内容如下:1.2k MELP编解码算法原理研究对1.2k MELP编解码算法进行深入研究,包括激励策略、线性预测模型等,并探究其编解码原理、优缺点等方面。
1.2k MELP语音编解码系统的设计与实现基于1.2k MELP编解码算法,设计并实现1.2k MELP语音编解码系统,并实现声音采集、编码、发送、接收、解码、播放等模块,并对系统进行测试和调试。
研究实现过程中可能遇到的技术问题及其解决方案在实现1.2k MELP语音编解码系统的过程中,可能会遇到一些技术问题,例如噪声干扰、丢包问题、时延问题等等。
本文将对这些问题进行探究,并提出相应的解决方案。
三、预期成果本文的主要预期成果包括:1. 深入探究1.2k MELP编解码算法的原理、优缺点等方面,为其在语音编解码领域的研究和应用提供参考。
一种基于M EL P的1.2kb s语音编码算法辽宁工程技术大学电子与信息工程学院 王 鹏 李本喜[摘 要]混合激励线性预测M EL P编码方法结合混合激励、多带激励以及原型波形内插等编码方法的优点,成为低码率语音编码的研究热点,该方法可以很好的模拟自然语言,在低速率上合成出较高质量的语音,本文以该算法作为基本模型,对参数的内插、高效的矢量量化、多帧联合几项关键技术进行了详细的分析,给出了实现1.2kbp s语音编码的算法,并对算法进行了仿真,从仿真结果可以得出该算法具有可行性。
[关键词]多级矢量量化 联合帧 参数内插 混合激励——12—301—(上接第101页)地说:热量和水量在本质上是不同的。
必须指出的是:水泵自低位水源吸取的水量等于压送到高度水位的水量;而制冷机向高温物体排送的热量却等于它向低温物体吸取的热量加上输入机械功所相当的热量之和。
2.5类比法在《医学影像设备学》教学中的应用大千世界之万物,无不由分子组成。
组成分子的原子,则由原子核和围绕原子核旋转的电子组成。
在磁场中旋转振荡的原子核有一个特点,即可以吸收与其旋转振荡频率相同的电磁波,使原子核的能量增加,当原子核恢复原状时,就会把多余的能量以电磁波的形式放出来。
简而言之:所谓的核磁共振,就是指具有磁矩的原子核在恒定磁场中由电磁波引起共振跃迁的现象。
在讲述时学生很难理解,总不明白,此时如果把这一现象比作拉小提琴时弦弓与琴弦的共振一样,学生就容易理解和掌握。
3、类比在学习新知识中的迁移作用3.1定义式具有相同形式的物理量间的类比例如:电流I =Q t 、电场强度E =F q 、功率P =W t 等诸如此类的物理量是用比值法定义的。
在讲授时运用类比,既有利于新概念的引入,又可以加深学生对旧概念的认识;既有利于教学难点的突破,又能总结出这一类物理量的共性。
3.2相似的物理过程的类比《模拟电子线路》中的L C 振荡电路和《医用物理学》中的弹簧振子是两个相似的物理过程,两者的类比可使学生在已有的简谐振动表象基础上学习电磁振荡知识,而且通过类比建立起两类不同性质的过程间的联系,即力学过程,电磁过程间的联系,从而加深学生对物理统一性的认识。
一种基于MELP模型600bps声码器的设计石乔林;韦凯;吴辉【摘要】The paper describes a 600bps speech coder based on MELP (enhanced mixed excitation linear prediction) algorithm. Consecutive three speech frames are grouped into super-frame and are jointly quantized by utilizing inter-frame redundancy in coder. The LSF vector is quantized with multi-mode predictive and multistage matrix quantization that handle mode transition by predictive coefficient and different mode in super-frames. The efficiency of the quantization is improved by joint quantization of pitch and gain. All of that make the quality of the synthetic voice better ever at 600bps.% 基于增强型混合激励线性预测(MELPe)模型,设计了一款600bps低速率语音编码器。
该编码器在保持MELPe算法特征的同时,利用相邻帧的帧间冗余,把连续的三帧构成一个超帧,对超帧采用多模式预测和多级矩阵量化技术进行联合量化。
同时针对超帧的不同模式,通过预测系数对相邻超帧的模式转换进行处理,实现线谱对参数(LSF)的矢量量化。
最后对基音周期与增益参数进行联合量化,进一步提高量化效率,完成一款在600bps下仍具有较好合成语音质量的语音编码器的设计。
【期刊名称】《电子与封装》【年(卷),期】2012(000)010【总页数】3页(P28-30)【关键词】MELP;语音编码;基音周期;矢量量化【作者】石乔林;韦凯;吴辉【作者单位】中国电子科技集团公司第58研究所,江苏无锡214035;中国电子科技集团公司第58研究所,江苏无锡214035;中国电子科技集团公司第58研究所,江苏无锡214035【正文语种】中文【中图分类】TN4021 引言随着通信、计算机网络等技术的飞速发展,语音压缩编码技术得到了广泛应用。
近年来随着低速率声码器在军事和卫星通信中的成功运用,使得低于2.4kbps语音编码算法越来越受到关注。
混合激励线线性预测编码(MELP)在二元激励LPC模型基础上,采用了混合激励、非周期脉冲、自适应增强、脉冲整形滤波等技术,使语音质量得到极大改善,在1996年,该算法被美国国防部语音信号处理协会(DDVPC)选定为新一代的2.4kbps声码器标准;随后其增强型算法(MELPe)被北大西洋公约组织(NATO)选为语音编码标准STANAG-4591;目前国内外很多研究机构基于该算法的改进型正在进行更低速率语音编码算法的研究[1~4]。
本文以增强型MELP算法为基础,将三个连续语音帧构成一个超帧(每个语音帧帧长25ms),利用帧间参数的相关性,采用多模式预测多级矩阵量化方法对LSF 参数进行量化[5];在增益量化中,将增益量化分为超帧增益平均值量化和各增益值与增益均值之差值量化相结合,并将增益差值量化与基因周期量化联合到一起,通过联合量化的方法提高量化性能。
2 600bps声码器的设计在编码过程(见图1)中通过线性预测分析、增益计算、基音估计和多带分析方法从语音信号中提取线性预测系数、增益均值、增益差值、基音周期和子带清浊判决等参数,然后通过量化进入信道。
图1 编码过程译码过程(见图2)是通过将脉冲信号和噪声信号根据子带清浊判决结果,将其叠加在一起作为激励信号,然后通过自适应谱增强、LPC合成滤波、增益校正、脉冲整形滤波处理,从而充分反映了语音信号的本质特征,极大地提高了合成语音的质量。
图2 译码过程2.1 线谱对(LSF)参数量化在基于线性预测的语音编码算法中,线性预测系数的量化精度对于语音合成质量具有举足轻重的影响。
本算法将在线性预测(LPC)系数转化为线谱频率(LSF)系数后,LSF矢量通过多级预测矩阵量化(predictive multistage matrix quantization)方法进行量化。
首先,通过码本训练获得LSF矩阵的平均值矩阵,而需要量化的矩阵由转化得到的LSF矩阵与LSF平均矩阵的差值组成。
然后,通过线性预测的方法来获得残差的LSF矩阵消除连续超帧之间的相关性。
预测系数与超帧中语音帧的清浊分布有关。
对剩余的LSF矩阵进行多级矩阵量化,量化分为3级,每级码本分别都含有256个码矩阵。
量化结果见表1。
表1 LSF失真测度对比表参数传统量化方法建议量化方法LSF 25 165.75 1 687.69从这组参数对比可以看出,本文采用的量化方式其量化效率得到了有效的提高。
2.2 子带清浊判决量化MELP算法中包含5个子带(0~500Hz,500Hz~1 000Hz,1000Hz~2000Hz,2 000Hz~3 000Hz,3 000Hz~4 000Hz),子带清浊音对合成语音的自然度有重要影响。
当子带清浊音判清音过多,合成的语音比较沙哑;当子带清浊音判浊音过多,合成的语音机械音比较重,并影响合成语音的可懂度。
本算法根据子带清浊音的统计规律,采用加权的欧氏距离作为量化距离测度。
式中:M表示一个超帧中包含的语音帧帧数,分别表示超帧中第i个语音帧第j子带清浊判决,ωj为各个子带的量化权值,根据每个子带的重要性设置,低频子带的量化权值最高,高频子带权值最小。
本文设置的权值2.3 增益均值量化每个语音帧中提取2个增益参数。
这样3个连续语音帧组成的一个超帧得到的一个6维的增益矢量G={G1,G2,G3,…,G6},然后用5bit来均匀量化量化得到的量化值为Gavg。
2.4 基音周期与增益差值的联合量化[6]基音是语音信号中最重要的参数之一,因此基音周期的提取和估计是语音信号处理中一个重要环节。
本算法中基音周期估计的计算方法参照MELP。
一个超帧有3个语音帧,能提取3个基音周期,基音周期的量化是在周期的对数值中进行的,对于单独量化的基音周期,其量化失真测度采用加权的欧氏距离算法:式中:M表示一个超帧中包含的语音帧帧数,分别表示超帧中的第i个语音帧的基音周期及其量化值。
增益差值是增益参数与增益平均值之间的差值gi=Gi-Gavg,若是单独对增益差值进行量化,失真测度为其中M表示一个超帧中包含的语音帧帧数,gi、分别表示超帧中第i个语音帧的增益差值及其量化值。
我们利用一个系数α将基音周期和增益差值联合在一起进行联合量化,联合量化的失真测度为:权重因子α在联合量化中可以显示出基音周期和增益差值两个参数在联合量化失真测度计算中的重要程度。
α是通过自适应过程得到的,首先分别用公式(2)和公式(3)作为基音周期和增益差值单独量化时的码书设计失真距离公式,用GLA 算法做码书设计。
用它们的失真距离初始化α,初始化值与它们成反比例。
然后再用初始化后的权重因子α用公式(4)作为联合量化时码书设计失真距离公式,用GLA算法做码书设计,再用分别得到的基音周期和增益差值的失真距离来更新α,再进行下一次码书设计。
最后取得到的最小失真距离时的值作为权重因子α和联合量化的码书。
2.5 量化比特分布表2列出600bps语音算法超帧的比特分配情况。
每一超帧持续时间为75ms,量化45bit,即速率为600bit/s。
表2 量化比特分布表参数分配比特数LSF 24基音周期&增益差值 9+3增益均值5子带强度 3同步 1总计 453 仿真测试及分析选择诊断押韵测试(DRT)和诊断可接受度测试(DAM)来做语音质量主观听觉测试。
DRT主要用来评价合成语音的可懂度,DAM则用来评价语音质量。
实验室条件下录制的相对纯净语音作为测试语音,其中男生5名,女生 4名。
在1%随机误码信道的仿真条件下做了仿真测试,表3给出了其在非正式主观听觉测试的结果。
表3 主观听觉测试结果测试项目 DRT DAM原始语音 96.2 86.5标准MELP2400 92.0 55.8本文MELP600 86.8 45.0从测试结果可以看出,通过将连续语音帧组成超级帧进行联合量化,利用帧间参数的相关性,在大幅度压缩编码速率的条件下,获得了较高质量的合成语音。
4 结束语超低速语音编码是当前语音编码的热点和难点。
本文依据MELP语音编码模型,采用多帧联合结构,根据连续帧的帧间冗余,用多模式预测多级矩阵量化和基音周期与增益联合量化算法,提高了量化效率和合成语音质量。
当然在极低速率下实现高质量语音编码仍存在很多问题有待解决,需要我们长期而深入的研究。
参考文献:[1] A McCree, K Brady, T F Quatieri. Multisensor very low bit rate speech coding using segment quantization[C].Proc.IEEE Int. Conf. Acoustic, Speech, Signal Processing, Las Vegas, NV, 2008.3997-4000.[2] J W Zhang, T H Huo, J L Li, H J Cui, K Tang. High quality 0.6kb/s speech coding algorithm[J]. J. Tsinghua Univ. of Sci.&Tech. (Chinese), 2003,43(4) : 449-452.[3] X Zou, X W Zhang. High Quality 0.6/1.2/2.4kbps Multi-Band LPC Speech Coding Algorithm[C].IEE International Conference on Wireless, Mobile & Multimedia Networks,Hangzhou, China, 2006.1061-1064.[4] M W Chamberlain. A 600 bps MELP vocoder for use on HFchannels[C].IEEE Military Communications Conference,2001. 447- 453. [5] X Zou, X W Zhang. Efficient coding of LSF parameters using multi-mode predictive multistage matrix quantization[C]. IEEE International Conference on Signal Processing, Beijing, China, 2008. 542-545.[6] Xia Zou, ChuanHua Wen, XiongWei Zhang, YaFei Zhang.An Improved 600bps Speech Codiing on Joint Quantization of pitch and GainShape[C].IEEE International Conference,2010.1303-1306.。