语音编码技术解读
- 格式:ppt
- 大小:1.46 MB
- 文档页数:28
语音编码总结一、历史与概念1、模拟的声音信号话音信号:(口语发声的)200Hz~3400Hz调幅广播信号:(无线广播)50Hz到7000Hz调频广播信号:(无线广播)20Hz到16000Hz激光唱机信号(CD):10Hz~20000Hz2、话音编码技术的历史回顾10 20 50 200 3400 7000 1600 20000 Hz话音编码研究的历史表明,这一领域的研究成果直接为通信产业发展提供了源动力。
目前IP电话所用的编码的标准有G.723.1, G.728, G.729。
具有低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。
3、若干概念术语(1)数字信号:标称的不连续信号。
它可以用离散的步差从一个状态转变到另一个状态。
(2)采样:按周期T对模拟信号进行测量,称为采样。
采样频率Fs=1/T.在满足奈奎斯特定理时,从采样值可准确的恢复原信号。
(3)量化用数字信号表示话音的过程称为量化。
(4)非均匀量化非均匀量化可以兼顾动态范围和小信号的系统精度。
Reeves提出概念。
即对大信号取较大的量化步长。
对小信号取较小的量化步长。
二、矢量量化将k个样点构成的有序集(信源矢量集合)映射为M个恢复失量构成的有限集A(码书,码本)中的某个矢量Yi(码字,码元)的映射,称为矢量量化,它是对标量量化在K维空间的一个推广。
在一维幅度轴上划分有限个区间 1=[a0 a1)…n=[an-1 an)在每个区间里,选一个代表值 fi i I=1,2,…n 在每个子空间里,选一个代表矢量Yi={Yi1,Yi2,Yii} Yi{Si} i=1,2,…M对任一模拟信号,当其标称值属于区间i时,就用数字信号fi代表值。
语音编解码标准的知识G.711类型:Audio制定者:ITU-T所需频宽:64Kbps特性:算法复杂度小,音质一般优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)缺点:占用的带宽较高应用领域:voip版税方式:Free备注:70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。
G.721类型:Audio制定者:ITU-T所需频宽:32Kbps特性:相对于PCMA和PCMU,其压缩比较高,可以提供2:1的压缩比。
优点:压缩比大缺点:声音质量一般应用领域:voip版税方式:Free备注:子带ADPCM(SB-ADPCM)技术。
G.721标准是一个代码转换系统。
它使用ADPCM转换技术,实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换。
G.722类型:Audio制定者:ITU-T所需频宽:64Kbps特性:G722能提供高保真的语音质量优点:音质好缺点:带宽要求高应用领域:voip版税方式:Free备注:子带ADPCM(SB-ADPCM)技术G.723(低码率语音编码算法)类型:Audio制定者:ITU-T所需频宽:5.3Kbps/6.3Kbps特性:语音质量接近良,带宽要求低,高效实现,便于多路扩展,可利用C5402片内16kRAM 实现53coder。
达到ITU-TG723要求的语音质量,性能稳定。
可用于IP电话语音信源编码或高效语音压缩存储。
优点:码率低,带宽要求较小。
并达到ITU-TG723要求的语音质量,性能稳定。
缺点:声音质量一般应用领域:voip版税方式:Free备注:G.723语音编码器是一种用于多媒体通信,编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。
G.723标准是国际电信联盟(ITU)制定的多媒体通信标准中的一个组成部分,可以应用于IP电话等系统中。
其中,5.3kbits/s码率编码器采用多脉冲最大似然量化技术(MP-MLQ),6.3kbits/s码率编码器采用代数码激励线性预测技术。
语音压缩编码技术上传时间:2004-12-22随着通信、计算机网络等技术的飞速发展,语音压缩编码技术得到了快速发展和广泛应用,尤其是最近20年,语音压缩编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用,起着举足轻重的作用。
语音压缩编码技术的类别语音编码就是将模拟语音信号数字化,数字化之后可以作为数字信号传输、存储或处理,可以充分利用数字信号处理的各种技术。
为了减小存储空间或降低传输比特率节省带宽,还需要对数字化之后的语音信号进行压缩编码,这就是语音压缩编码技术。
语音的压缩编码方法归纳起来可以分为三大类:波形编码、参数编码和混合编码。
波形编码比较简单,失真最小,方法简单,但数码率比较高。
参数编码的编码速率可以很低,但音质较差,只能达到合成语音质量,其次是复杂度高。
混合编码吸收了波形编码和参数编码的优点,从而在较低的比特率上获得较高的语音质量,当前受到人们较大的关注。
语音压缩编码技术的发展自从1937年A.H.Reeves提出脉冲编码调制(PCM)以来,语音编码技术已有60余年的发展历史。
尤其近20年随着计算机和微电子技术的发展语音编码技术得到飞速发展。
CCITT于1972年确定64kb/sPCM语音编码G.711建议,它已广泛的应用于数字通信、数字交换机等领域,至今,64kb/s的标准PCM系统仍占统治地位。
这种编码方法可以获得较好的语音质量但占用带宽较多,在带宽资源有限的情况下不宜采用。
CCITT于80年代初着手研究低于64kb/s的非PCM编码算法,并于1984年通过了32kb/sADPCM语音编码G.721建议,它不仅可以达到PCM相同的语音质量而且具有更优良的抗误码性能,广泛应用于卫星,海缆及数字语音插空设备以及可变速率编码器中。
随后,于1992年公布16kb/s低延迟码激励线性预测(LD-CELP)的G.728建议。
它以其较小的延迟、较低的速率、较高的性能在实际中得到广泛的应用,例如:可视电话伴音、无绳电话机、单路单载波卫星和海事卫星通信、数字插空设备、存储和转发系统、语音信息录音、数字移动无线系统、分组化语音等。
语⾳压缩编码语⾳编码第⼀章⾳频1.1 ⾳频和语⾳的定义声⾳是携带信息的重要媒体,是通过空⽓传播的⼀种连续的波,叫声波。
对声⾳信号的分析表明,声⾳信号有许多频率不同的信号组成,这类信号称为复合信号。
⽽单⼀频率的信号称为分量信号。
声⾳信号的两个基本参数频率和幅度。
1.1.1声⾳信号的数字化声⾳数字化包括采样和量化。
采样频率由采样定理给出。
1.1.2声⾳质量划分根据声⾳频带,声⾳质量分5个等级,依次为:电话、调幅⼴播、调频⼴播、光盘、数字录⾳带DAT(digital audio tape)的声⾳。
第⼆章语⾳编码技术的发展和分类现有的语⾳编码器⼤体可以分三种类型:波形编码器、⾳源编码器和混合编码器。
⼀般来说,波形编码器的话⾳质量⾼,但数据率也很⾼。
⾳源编码器的数据率很低,产⽣的合成话⾳⾳质有待提⾼。
混合编码器使⽤⾳源编码器和波形编码器技术,数据率和⾳质介于⼆者之间。
语⾳编码性能指标主要有⽐特速率、时延、复杂性和还原质量。
其中语⾳编码的三种最常⽤的技术是脉冲编码调制(PCM)、差分PCM(DPCM)和增量调制(DM)。
通常,公共交换电话⽹中的数字电话都采⽤这三种技术。
第⼆类语⾳数字化⽅法主要与⽤于窄带传输系统或有限容量的数字设备的语⾳编码器有关。
采⽤该数字化技术的设备⼀般被称为声码器,声码器技术现在开始展开应⽤,特别是⽤于帧中继和IP上的语⾳。
在具体的编码实现(如VoIP)中除压缩编码技术外,⼈们还应⽤许多其它节省带宽的技术来减少语⾳所占带宽,优化⽹络资源。
静⾳抑制技术可将连接中的静⾳数据消除。
语⾳活动检测(SAD)技术可以⽤来动态跟踪噪⾳电平,并将噪⾳可听度抑制到最⼩,并确保话路两端的语⾳质量和⾃然声⾳的连接。
回声消除技术监听回声信号,并将它从听话⼈的语⾳信号中清除。
处理话⾳抖动的技术则将能导致通话⾳质下降的信道延时与信道抖动平滑掉。
2.1波形编码波形编解码器的思想是,编码前根据采样定理对模拟语⾳信号进⾏采样,然后进⾏幅度量化与⼆进制编码。
第三章 话音编码多媒体技术多媒体技术第三章 话音编码与处理技术多媒体技术浙江工业大学信息学院 古辉gh@13.1 话音编码概要 3.2 脉冲编码调制(PCM) 3.3 增量调制与自适应增量调制 3.4 自适应差分脉冲编码调制 3.5 线性预测编码(LPC)的概念 3.6 GSM编译码器简介 3.7 语音合成 3.8 语音识别23.1 话音编码概要多媒体技术3.1 话音编码概要多媒体技术话音波形的特性话音分成三种类型:浊音(voiced sounds),清音 (unvoiced sounds)和爆破音(plosive sounds)。
浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所 发出的音,这种准周期脉冲是在声门打开然后关闭时中 断肺部到声道的气流所产生的脉冲。
清音是由不稳定气流激励所产生的,这种气流是在声门 处在打开状态下强制空气在声道里高速收缩产生的。
爆破音是在声道关闭之后产生的压缩空气然后突然打开 声道所发出的音。
不能归属到上述三种音中的任何一种音,称为混合音。
浊音段的波形举例浊音段的功率普密度举例3清音段的波形举例清音段的功率谱密度举例43.1 话音编码概要多媒体技术3.1 话音编码概要多媒体技术三种话音编译码器话音编译码器一般分成三种类型: 波形编译码器(waveform codecs)的话音质量高,但数 据率也很高; 音源编译码器(source codecs)的数据率很低,产生的 合成话音的音质有待提高; 混合编译码器(hybrid codecs)使用音源编译码技术和 波形编译码技术,数据率和音质介于它们之间。
图 普通编译码器的音质与数据率5 63.1 话音编码概要多媒体技术3.1 话音编码概要多媒体技术波形编译码器波形编译码的想法是,不利用生成话音信号的任何知识 而企图产生一种重构信号,它的波形与原始话音波形尽 可能地一致。
时域法(time domain approach)脉冲编码调制(pulse code modulation,PCM),它仅仅是 对输入信号进行采样和量化。
四种语⾳编码⽅法简介
G.711编码
G.711 ⼀种⾳频压缩标准,⽤于数字PBX/ISDN上的数字式电话。
在G.711中,经过编码的语⾳已经具有了在PSTN中或者通过PBX传输数字语⾳的正确格式。
G.711使⽤的是64Kbps的带宽。
符合G.711的设备可以与其他G.711设备进⾏通信,但是不能与G.723设备通信。
ITU-T在它的G 系列建议中详细介绍了这项标准。
iLBC编码
iLBC 是全球著名语⾳引擎提供商Global IP Sound开发,它是低⽐特率的编码解码器,提供在丢包时具有的强⼤的健壮性。
iLBC 提供的语⾳⾳质等同于或超过 G.729 和 G.723.1,并⽐其它低⽐特率的编码解码器更能阻⽌丢包。
iLBC 以13.3 kb/s (每帧30毫秒)和15.2 kb/s (每帧20毫秒)速度运⾏,很适合拨号连接。
G.729编码
G.729 ITU-T的标准语⾳算法。
它描述了⽤CS-ACELP⽅法以8Kbps的⽐特速率对语⾳进⾏编码/译码的⽅法。
G.723.1编码
G.723.1 ⼀种能够以⾮常低的位速率压缩语⾳或者⾳频信号的压缩技术,它是H.324标准系列的⼀部分。
这种编译码⽅式可以使不同的通信设备利⽤⼀种标准化的通信协议进⾏通信。
它可以⽤在以6.4或者5.3Kbps产⽣数字⾳频信号的数字式PBX/ISDN上。
较⾼的⽐特速率可以提供较⾼的声⾳质量。
较低的⽐特速率可以为系统设计⼈员提供更⾼的灵活性。
ITU-T在它的G系列建议中详细介绍了这项标准。
第5章语音编码、信道编码和交织技术引言一般的数字通信系统都包含信源编解码、信道编解码和调制解调这三对功能模块,语音编码是一种信源编码的,在移动通信中由于信道的特点,往往还需要交织和去交织这一对功能模块。
为什么要进行信源编码、信道编码和交织呢?从实现过程分析:信源编码——原理:去掉一些信息(信源中统计特性具有相关性的信息);(有效性)目的:尽可能用最少的信息比特表示信源,从而达到压缩信息速率,以较少的信息速率传送信息;信道编码——原理:加入一些信息(监督码或检验码);(可靠性)目的:用来供接收端纠正或检出信息在信道中传输时,由于干扰、噪声或衰落等所造成的误码。
交织——原理:不改变信息量,只改变信息的排序;(可靠性)目的:克服信道中由于深衰落而造成的突发的成串的误码。
对本章的学习,我们复习信源编码和信道编码的基础上,重点掌握:1.移动通信对编码的要求;2.蜂窝移动通信典型系统用到的编码方式;3.在这些系统中的实现过程;4.交织的原理和作用。
5.1 语音编码通信系统中的语音编码的目的是解除语音信源的统计相关性,语音编码大致分为三类。
一.语音编码的分类(参考:《吴伟陵,《移动通信原理》,电子工业出版社,P72)1.波形编码波形编码是以精确再现语音波形为目的,并以保真度即自然度为度量标准的编码方法。
这类编码是保留语音个性特征为主要目标的方法,其码速较高。
常用的波形编码及其原理:PCM、DPCM、ADPCM应用:适用于骨干(固定)通信网。
2.参量编码利用人类的发声机制,仅传送反映语音波形变化主要参量的编码方法。
在接收端,可根据发声模型,由传送过来的变化参量激励产生人工合成的语音。
参量编码的主要标准是可懂度。
显然,这类编码是以提取并传送语音的共性特征参量为目的的编码方式,其码速较低。
(声码器)常用的参量编码及其原理:LPC应用:主要用于军事保密通信。
3.混合编码混合编码是吸取上述两类编码的优点,以参量编码为基础,并附加一定的波形编码特征,以实现在可懂度基础上适当改善自然度目的的编码方式。
GSM语音编码2008年09月03日星期三 15:51一、语音编码由于GSM系统是一种全数字系统,话音和其它信号都要进行数字化处理,因此移动台首先要将语音信号转换成模拟电信号,以及其反变换,移动台再把这模拟电信号转换成13Kbit/s的数字信号,用于无线传输。
下面我们主要讲一下TCH全速率信道的编码过程。
目前GSM采用的编码方案是13 Kbit/s的RPELTP(规则脉冲激励长期预测),其目的是在不增加误码的情况下,以较小的速率优化频谱占用,同时到达与固定电话尽量相接近的语音质量。
它首先将语音分成20ms为单位的语音块,再将每个块用8 KHZ抽样,因而每个块就得到了160个样本。
每个样本在经过A率13比特(μ率14比特)的量化,因为为了处理A率和μ率的压缩率不同,因而将该量化值又分别加上了3个或2个的“0”比特,最后每个样本就得到了16比特的量化值。
因而在数字化之后,进入编码器之前,就得到了128Kbit/s的数据流。
这一数据流的速率太高了以至于无法在无线路径下传播,因而我们需要让它通过编码器的来进行编码压缩。
如果用全速率的译码器的话,每个语音块将被编码为260比特,最后形成了13Kbit/s的源编码速率。
此后将完成信道的编码。
在BTS侧将能够恢复13Kbit/s的源速率,但为了形成16Kbit/s的TRAU帧以便于在ABIS和ATER接口上传送,因而需再增加3Kbit/s的信令,它可用于BTS来控制远端TCU的工作,因而被称为带内信息。
这3Kbit/s将包括同步和控制比特(包括坏帧指示、编码器类型、DTX指示等)。
总之,带内信息将能使TCH,知道信息的种类(全速率语音、半速率语音、数据),以及采用何种适用的方法用于上行和下行的传输。
在TCU侧,通过为了适应PSTN网络64Kbit/s的传输,因而在它其中的码型速率转换板将完成将速率由13Kbit/s转换为64Kbit/s的工作,二、信道编码信道编码用于改善传输质量,克服各种干扰因素对信号产生的不良影响,但它是以增加比特降低信息量为代价的。
数字语音编码、处理或识别技术摘要:编码、传输、存储和译码是语音数字传输和数字存储的必要过程,随着语音通信技术的发展,压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标,语音编码就是使表达语音信号的比特数目最小。
关键字:语音编码处理识别Abstract: encoding, transmission, storage and decoding digital transmission of voice and digital storage of the necessary process,withthevoicecommunication technology, compressed audio signal transmission bandwidth and reduce the transmission rate of the channel, has been one goal, voice expression of the voice signal is encoded so that the minimum number of bits.Keywords: coding process identified一.数字语音编码处理语音编码就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并进行数字传输语音编码一般分为三类:波形编码,声源编码和混合编码。
波形编码的目的在于尽可能精确地再现原来的语音波形。
声源编码是将语音信息用特定的声源模型表示。
混合编码把波形编码的高质量和声码器的高效压缩性融为一体。
语音编码为信源编码,是将模拟语音信号转变为数字信号以便在信道中传输。
语音编码的目的是在保持一定得算法复杂程度和通信时延的前提下,占用尽可能少的通信容量,传送尽肯能高质量的语音。
语音编码技术又可分为波形编码、参量编码和混合编码三大类。
波形编码是对模拟语音波形信号经过取样、量化、编码而形成的数字语音技术。
兰州理工大学作业题目:语音编码和图像编码的分类和特点学院名称:专业名称:学号:学生姓名:一语音编码语音编码是将模拟语音信号转换为数字语音信号,以便在数字信道中传输。
语音编码的技术在数字移动通信中具有相当关键的作用。
语音编码技术可以分为波形编码、参量编码和混合编码等类型。
波形编码是将时间域信号直接变换为数字代码,目标是尽可能精确地再现原来语音波形。
波形编码的基本方法是抽样、量化,编码速率较高时,语音质量好。
波形编码广泛应用与有线通信,在频率受限的移动通信中,单纯的波形编码已经不适合。
波形编码技术包括脉冲编码调制(PCM)和增量调制( M)及它们的各种改进型。
将信源信号在频率域或其他正交变换域中提取特征参量,并将其变换为数字代码进行传输。
解码是从接收信号中恢复特征参量,然后根据这些特征参量重建语音信号。
可实现低速率语音编码,可压缩到2~4.8 Kb/s,甚至更低,但语音质量只能达到中等。
线性预测编码(LPC)及其各种改进型都属于。
混合编码力图保持波形编码的高质量及参量编码的低速率的优点。
混合编码语音信号中既包括若干语音特征参量又包括部分波形编码信息。
可将比特速率压缩到4~16 Kb/s,并且在8~16 Kb/s范围内能达到良好的语音质量。
规则码激励长期预测编码(RPE- LPT)就是一种混合编码方案。
显然,混合编码是适合于在数字移动通信中采用。
在数字通信发展的推动下,语音编码的研究进展迅速。
研究方向有两个:一是降低语音编码速率,这主要针对语音质量好但速率高的波形编码;二是提高语音质量,这主要针对速率低但语音质量较差的参量编码。
波形编码的改进主要有自适应差分PCM(ADPCM)、子带编码(SBC)、自适应变换域编码(ATC)和时域谐波压扩(TDHS)等。
编码速率9600 bit/s~32 Kb/s,语音质量较好。
提取某些语音特征参量来传输,以达到压缩速率的目的,已不是单纯的波形编码。
参量编码的一项突出进展提出了矢量量化编码,可进一步压缩速率。
语音信号编码早期的语音信号处理及传输均是以模拟的方式进行的。
20世纪30年代末脉冲编码调制(PCM,Pulse Code Modulation)原理和声码器(Vocoder)概念被提出后,语音数字编码便一直沿着这两个方向发展。
语音数据压缩目的是能在尽可能低的传输速率上获得高质量的语音效果,即希望语音信号可以在带宽较窄的信道中传输而语音质量下降的不多或尽可能不下降。
语音编码系统早期用的是波形编码方法,也叫波形编码(或非参数编码),其目的是力图使重建的语音波形保持原语音信号的波形形状。
这种编码器是把语音信号当成一般的波形信号来处理,而并未考虑语音信号的冗佘度。
它的优点是具有较强的适应能力,有较好的合成语音质量,然而编码速率高(64Kbit/s),编码效率极低。
脉冲编码调制(PCM)、自适应增量调制(ADM)、自适应差分编码(ADPCM)、自适应编码(APC)等都是属于波形编码(非参数编码)。
而声码器则是不同于波形编码器的高效编码方式。
声码器又称参数编码(或模型编码),它主要是对提取的语音信号特征参数进行编码,目的主要是使重建的语音信号具有尽可能高的可懂度,而不是要求重建波形保持原语音波形的形状。
因此,可能出现的情况是即使重建语音的可懂度高,但其时域波形与原语音的时域波形有较大的差别。
这种编码器的优点是可达到极低的编码速率而语音依然可懂,编码速率可达到8Kbit/s、4.8Kbit/s甚至更低。
主要缺点是重建语音自然度低,韵律感差,合成语音质量差。
声码器的典型代表是通道声码器、共峰声码器及线性预测声码器等。
20世纪80年代至今,不仅声码器和波形编码器得到了很大发展,并且还有一种全新的革命性编码方法被普遍推广,这类编码器叫混合编码器。
这种编码器在传送器中对给定编码结构的所有可能性进行综合,找出输人语音的最好编码形式,并从这些可能性中发现输入语音的最优主观匹配,然后用数码表示这种主观匹配并发送到接收器。
利用线性预测、VQ、A-B-S、感觉加权、后滤波等技术得到的多脉冲激励线性预测(MPELP,Multi Pulse Enspirit LinePrognosticate),规则脉冲激励线性预测(RPELP,Rule Pulse Enspirit Line Prognosticate),码本激励线性预测(CELP,Code Enspirit Line Prognosticate)编码速率达到8~16Kbit/s甚至更底,其话音质量高、编码速率低,但算法复杂。