lecture3话音编码
- 格式:ppt
- 大小:1.00 MB
- 文档页数:15
语音编码总结一、历史与概念1、模拟的声音信号话音信号:(口语发声的)200Hz~3400Hz调幅广播信号:(无线广播)50Hz到7000Hz调频广播信号:(无线广播)20Hz到16000Hz激光唱机信号(CD):10Hz~20000Hz2、话音编码技术的历史回顾10 20 50 200 3400 7000 1600 20000 Hz话音编码研究的历史表明,这一领域的研究成果直接为通信产业发展提供了源动力。
目前IP电话所用的编码的标准有G.723.1, G.728, G.729。
具有低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。
3、若干概念术语(1)数字信号:标称的不连续信号。
它可以用离散的步差从一个状态转变到另一个状态。
(2)采样:按周期T对模拟信号进行测量,称为采样。
采样频率Fs=1/T.在满足奈奎斯特定理时,从采样值可准确的恢复原信号。
(3)量化用数字信号表示话音的过程称为量化。
(4)非均匀量化非均匀量化可以兼顾动态范围和小信号的系统精度。
Reeves提出概念。
即对大信号取较大的量化步长。
对小信号取较小的量化步长。
二、矢量量化将k个样点构成的有序集(信源矢量集合)映射为M个恢复失量构成的有限集A(码书,码本)中的某个矢量Yi(码字,码元)的映射,称为矢量量化,它是对标量量化在K维空间的一个推广。
1、码本设计的LBG方法(1)在矢量空间X中,进行最佳划分,即,把X划分成M个子空间Si i=,1.2….m 使平均失真最小。
(2)对划分后的子空间Si求出其形心作为新的最佳代表矢量Yi,从而构成新的码本。
将上述步骤反复迭代,最终求出最佳码本和量化器。
(3)初始码本的选择:A、随机选取,迭代时间较长B、分裂法(4)LBG方法不是最优化方法,即迭代过程不能保证收敛到全局最小值。
后来有人提出模拟退火法,将LBG方法收敛到局部最小值时,采用某种扰动将迭代过程继续进行下去。
2、空间分布对矢量量化的影响LBG算法把问题简化为:在矢量空间中,样点的分布是均匀的。
音频编码基本概念介绍自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。
PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。
1-1 什么是采样率和采样大小(位/bit)。
声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。
波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。
采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用 40kHz表达,这个40kHz就是采样率。
我们常见的CD,采样率为44.1kHz。
光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。
量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。
采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用 2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。
如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。
采样率和采样大小的值越大,记录的波形更接近原始信号。
1-2 有损和无损根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。
在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的 WAV文件中均有应用。
因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。
语音编码分类及编解码标准将音频或视频信号在模拟格式和数字格式之间转换的硬件(编码器/解码器);压缩和解压缩音频或视频数据的硬件或软件(压缩/解压缩);或是编码器/解码器和压缩/解压缩的组合。
通常,编码解码器能够压缩未压缩的数字数据,以减少内存使用量。
编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。
这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。
编解码器经常用在视频会议和流媒体等应用中,通常主要还是用在广电行业,作前端应用。
G.711类型:Audio制定者:ITU-T所需频宽:64Kbps特性:算法复杂度小,音质一般优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)缺点:占用的带宽较高应用领域:voip版税方式:Free备注:70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。
G.721类型:Audio制定者:ITU-T所需频宽:32Kbps特性:相对于PCMA和PCMU,其压缩比较高,可以提供2:1的压缩比。
优点:压缩比大缺点:声音质量一般应用领域:voip版税方式:Free备注:子带ADPCM(SB-ADPCM)技术。
G.721标准是一个代码转换系统。
它使用ADPCM转换技术,实现64 kb/s A律或μ律PC M速率和32 kb/s速率之间的相互转换。
G.722类型:Audio制定者:ITU-T所需频宽:64Kbps特性:G722能提供高保真的语音质量优点:音质好缺点:带宽要求高应用领域:voip版税方式:Free备注:子带ADPCM(SB-ADPCM)技术G.723(低码率语音编码算法)类型:Audio制定者:ITU-T所需频宽:5.3Kbps/6.3Kbps特性:语音质量接近良,带宽要求低,高效实现,便于多路扩展,可利用C5402片内16kRAM实现53coder。