当前位置：文档之家› 语音信号压缩编码原理及应用

语音信号压缩编码原理及应用

随着通信、计算机网络等技术的飞速发展，语音压缩编码技术得到了快速发展和广泛应用，尤其是最近20年，语音压缩编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用，起着举足轻重的作用。语音是人类最重要、最有效、最常用和最方便的交换信息的形式，是人们思想疏通和情感交流的最主要途径。在实际的语音通信中，有些信道难以扩宽且质量很差；有些信道正被广泛使用，短期内难以更新；有些昂贵的信道，每压缩一个比特都意味着节省开支。因此，语音压缩编码无疑在语音通信及人类信息交流中占有举足轻重的地位。

语音编码就是将模拟语音信号数字化，数字化之后可以作为数字信号传输、存储或处理，可以充分利用数字信号处理的各种技术。为了减小存储空间或降低传输比特率节省带宽，还需要对数字化之后的语音信号进行压缩编码，这就是语音压缩编码技术。

一，语音压缩编码技术的发展

自从1937年A.H.Reeves提出脉冲编码调制(PCM)以来，语音编码技术已有60余年的发展历史。尤其近20年随着计算机和微电子技术的发展语音编码技术得到飞速发展。

CCITT于1972年确定64kb/sPCM语音编码G.711建议，它已广泛的应用于数字通信、数字交换机等领域，至今，64kb/s的标准PCM系统仍占统治地位。这种编码方法可以获得较好的语音质量但占用带宽较

多，在带宽资源有限的情况下不宜采用。CCITT于80年代初着手研究低于64kb/s的非PCM编码算法，并于1984年通过了32kb/sADPCM语音编码G.721建议，它不仅可以达到PCM相同的语音质量而且具有更优良的抗误码性能，广泛应用于卫星，海缆及数字语音插空设备以及可变速率编码器中。随后，于1992年公布16kb/s低延迟码激励线性预测（LD-CELP）的G.728建议。它以其较小的延迟、较低的速率、较高的性能在实际中得到广泛的应用，例如：可视电话伴音、无绳电话机、单路单载波卫星和海事卫星通信、数字插空设备、存储和转发系统、语音信息录音、数字移动无线系统、分组化语音等。最后共轭代数码激励线性预测（CS-ACELP）的8kb/s语音编码G.729建议已在1995年11月ITU—TSG15全会上通过，并于1996年6月ITU—TSG15末此会议上通过G.729附件A减少复杂度的8kb/sCS-ACELP语音编解码器，正式成为国际标准。这种编码方法延迟小，节省87.5%%的带宽，可以提供与32kb/s的ADPCM相同的语音质量，其音质是同档次码速率中最优的，而且在噪声较大的环境中也会有较好多语音质量。广泛应用于个人移动通信、低C/N数字卫星通信、高质量移动无线通信、存储/检索、分组语音和数字租用信道等领域。其它一些国际组织或国家也积极制定自己的标准。

二，语音压缩技术的现状及发展方向

语音压缩编码技术的发展是十分迅速的，CELP的编码速率较低，但复杂度较高，可以在4.8kb/s左右的码速率上获得较高质量的语音，是当今中低速率语音编码技术的主流技术之一，许多国际标准化组织

及机构纷纷将这一编码方案作为语音编码标准。在对其改善质量、降低复杂度、减少编码延迟等方面都提出了不少新的方法，使CELP在实践中得到广泛应用。随着DSP技术的发展，CELP技术还具有一定的潜力，例如将G.729扩展到6.4kb/s，用于TDMA/CDMA移动无线系统和DCME。目前，语音压缩编码技术主要有两个努力方向：一个是中低速率的语音编码的实用化，及如何使用化过程中进一步减低编码速率和提高其抗干扰、抗噪声能力；另一个是如何进一步的降低其编码速率，目前已能在5kb/s-6kb/s的速率上获得高质量的重建语音，下一个目标则是要在4kb/s的速率上获得短延时、高质量的重建语音。特别是对中长延时编码，人们正在研究其更低速率（如400b/s-1200b/s）的编码算法，在这个过程中当编码速率降至2.4kb/s速率以下时，CELP算法即使应用更高效的量化技术也无法达到预期的指标，需要其它一些更符合低速率编码要求的算法，目前比较好的算法还有正弦变换编码（STC）、混合激励线性预测编码（MELPC）、时频域插值编码（TFI）、基音同步激励线性预测编码（PSELP）等，同时还要求引入新的分析技术，如非线性预测、多精度时频分析技术（包括子波变换技术）、高阶统计分析技术等，这些技术更能挖掘人耳听觉掩蔽等感知机理，更能以类似人耳的特性作语音的分析与合成，使语音编码系统更接近于人类听觉器官的处理方式工作，从而在低速率语音编码的研究上取得突破。

三，语音压缩编码技术的种类

1.波形编码(waveform coding)

基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样，然后将幅度样本分层量化，并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号，保持原始语音的波形形状。话音质量高，编码速率高。如PCM编码类（a率或u率PCM、ADPCM 、ADM)，编码速率为64－16kb/s，语音质量好。

2.参数编码（声源编码parametric coding）

根据语音信号产生的数学模型，通过对语音信号特征参数的提取后进行编码（将特征参数变换成数字代码进行传输）。在接收端将特征参数，结合数学模型，恢复语音，力图使重建语音保持尽可能高的可懂度，重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测（LPC）编码类。编码速率低，2.4-1.2kb/s，自然度低，对环境噪声敏感。

3.混合编码(Hybrid coding)

将波形编码与参数编码相结合，在2.4-1.2kb/s速率上能够得到高质量的合成语音。规则码激励长时预测编码RPE—LPT即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息，以达到波形编码的高质量和参量编码的低速率的优点。

四，语音压缩编码使用的编码算法

1.波形编码(waveform coding)使用的算法

脉冲编码调制(pulse code modulation，PCM)、差值脉冲编码调制（DPCM）、增量调制(DM)以及它们的各种改进型自适应差分编码（ADPCM）、自适应增量调制（ADM）、自适应差值脉冲编码调制(ADPCM) 、

自适应传输编码（Adaptive Transfer Coding，ATC）和子带编码（SBC）等都属于波形编码技术。

2.参数编码（声源编码parametric coding）

线性预测（LPC）编码

线性预测编码的基础是假设声音信号（浊音）是音管末端的蜂鸣器产生的，偶尔伴随有嘶嘶声与爆破声（齿擦音与爆破音）。尽管这看起来有些原始，但是这种模式实际上非常接近于真实语音产生过程。声带之间的声门产生不同强度（音量）与频率（音调）的声音，喉咙与嘴组成共鸣声道。嘶嘶声与爆破声通过舌头、嘴唇以及喉咙的作用产生出来。线性预测编码通过估计共振峰、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号。剔除共振峰的过程称为逆滤波，经过这个过程剩余的信号称为残余信号。描述峰鸣强度与频率、共鸣峰、残余信号的数字可以保存、发送到其它地方。线性预测编码通过逆向的过程合成语音信号：使用蜂鸣参数与残余信号生成源信号、使用共振峰生成表示声道的滤波器，源信号经过滤波器的处理就得到语音信号。由于语音信号随着时间变化，这个过程是在一段段的语音信号帧上进行处理的。通常每秒30到50帧的速度就能对可理解的信号进行很好的压缩。

3.混合编码(Hybrid coding)

规则码激励长时预测编码RPE—LPT即为混合编码，多脉冲激励线性预测编码（MPLPC），规划脉冲激励线性预测编码（KPELPC），码本激励线性预测编码（CELP）等都是属于混合编码技术。其数据率和音质

介于参数和波形编码之间。

多脉冲激励线性预测编码(MPLPC)的改进

原始的MPLPC方法中，LP滤波器的阶数和激励脉冲的个数都是固定的，对其改进算法使用了可变阶数滤波器的语音编码方法。主要思想是：对于不同的语音帧使用不同阶数的线性预测滤波器，只要低阶滤波器满足要求就不使用高阶滤波器。由于各语音帧滤波器阶数不同，使用的编码位数也不同。为了使整个语音传输速率基本恒定，对于滤波器阶数较低的语音帧，可以相应地增加激励脉冲的个数或增加各脉冲的比特数。用MATLAB对改进MPLPC方法进行模拟，结果表明，此方法可以在6kb／s以下的速率上得到有一定自然度的合成语音，比同速率下的原始多脉冲激励方法有明显改善。但此方法在有噪声和失真的信道上传输的情况需要进一步实验，每帧激励脉冲个数的最佳值需要进一步研究。

五，编码器的性能及应用场合

六，个人总结

本人综合多年来语音信号压缩编码技术的发展由来，以及近年来该技术的发展成熟状况和未来语音信号压缩编码技术的发展趋势，对该技术做了一个详细的介绍。同时根据编码技术的分类，对三种不同

的编码方式原理和编码算法进行了介绍，是我们对语音信号压缩编码原理有了一个很清晰的认识。本文中，介绍了该技术在我们生活中的广泛应用，特别是在个人设备通信等领域，已经与我们息息相关。

语音信号处理考试题(综合)

语音信号处理重点、考点、考试题一、填空题：（共7小题，每空2分，共20分） A卷 1、矢量量化系统主要由编码器和组成，其中编码器主要是由搜索算法和构成。 2、基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性，一个是耳蜗对于声信号的时频分析特性；另一个是人耳听觉的效应。 7、句法的最小单位是，词法的最小单位是音节，音节可以由构成。二、判断题：（共3小题，每小题2分，共6分） 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数，从而使编码速率大幅降低。（） 2、以线性预测分析-合成技术为基础的参数编码，一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。（） 3、自适应量化PCM就是一种量化器的特性，能自适应地随着输入信号的短时能量的变化而调整的编码方法。（）三、单项选择题：（共3小题，每小题3分，共9分） 1、下列不属于衡量语音编码性能的主要指标是（）。（A）编码质量（B）矢量编码（C）编码速率（D）坚韧性 2、下列不属于编码器的质量评价的是（）（A）MOS （B）DAM（C）DRT（D）ATC 3、限词汇的语音合成技术已经比较成熟了，一般我们是采用（）作为合成基元。（A）词语（B）句子（C）音节（D）因素四、简答题：（共2小题，每小题12分，共24分） 1、画出矢量量化器的基本结构，并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图，并说明各部分的作用。五、简答题：（共5小题，前三小题，每题5分，后两小题，每题10分，共35分） 1、线性预测分析的基本思想是什么？ 2、隐马尔可夫模型的特点是什么？ 3、矢量量化器的所谓最佳码本设计是指什么？ 4、针对短时傅里叶变换Ⅹn(ejw)的定义式，请从两个角度对其进行物理意义的分析。 5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性，请给予分析说明。六、计算题：（共1小题，每小题6分，共6分） 1、已知一个简单的三状态HMM模型的图形，如图一所示。求该HMM模型输出aab的概率为多少？（要有求解过程，无计算过程不得分）

数字音频基础知识

第一章数字音频基础知识主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止，发声也停止。当振动波传到人耳时，人便听到了声音。 ?人能听到的声音，包括语音、音乐和其它声音（环境声、音效声、自然声等），可以分为乐音和噪音。 ?乐音是由规则的振动产生的，只包含有限的某些特定频率，具有确定的波形。 ?噪音是由不规则的振动产生的，它包含有一定范围内的各种音频的声振动，没有确定的波形。 1.2 声音的传播 ?声音靠介质传播，真空不能传声。 ?介质：能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。 ?双耳效应的应用：立体声 ?人耳能感受到（听觉）的频率范围约为20Hz~ 20kHz，称此频率范围内的声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。 ?人的发音器官发出的声音（人声）的频率大约是80Hz～3400Hz。人说话的声音（话音voice / 语音speech）的频率通常为300Hz～3000 Hz（带宽约3kHz）。 ?传统乐器的发声范围为16Hz (C2)～7kHz(a5)，如钢琴的为27.5Hz (A2)～4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素：音调、响度（音量/音强）和音色 ?人们就是根据声音的三要素来区分声音。音调（pitch ） ?音调：声音的高低（高音、低音），由―频率‖（frequency）决定，频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数，用Hz 表示。例如，20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音：音色强劲有力，富于英雄气概。擅于表现强烈的感情。 ?低音：音色深沉浑厚，擅于表现庄严雄伟和苍劲沉着的感情。响度（loudness ） ?响度：又称音量、音强，指人主观上感觉声音的大小，由―振幅‖（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。（单位：分贝dB）音色（music quality） ?音色：又称音品，由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。 1.5 声道

音频的编解码

音频编码解码基本概念介绍对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理，分别是语音和音乐，各自采用的技术有差异。语音编码技术又分为三类：波形编码、参数编码以及混合编码。波形编码：波形编码是在时域上进行处理，力图使重建的语音波形保持原始语音信号的形状，它将语音信号作为一般的波形信号来处理，具有适应能力强、话音质量好等优点，缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点，通过为小信号分配小的量化阶，为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音，只对它们的差进行编码，从而大大减少了编码数据的动态范围，节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶，使得量阶与量化数据相匹配。G.726标准中应用了这两项技术，G.722标准把语音分成高低两个子带，然后在每个子带中分别应用这两项技术。参数编码：广泛应用于军事领域。利用语音信息产生的数学模型，提取语音信号的特征参量，并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上，力图使重建语音信号具有尽可能高的可懂性，而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高，但重建音频信号的质量较差，自然度低，适用于窄带信道的语音通讯，如军事通讯、航空通讯等。美国的军方标准LPC-10，就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术，当它在无声信号片段时，激励信号与在CELP时相似，都是通过一个码本索引和通过幅度信息描述；在发声信号片段时则应用了谐波综合，它是将基音和谐音的正弦振荡按照传输的基频进行综合。混合编码：将上述两种编码方法结合起来，采用混合编码的方法，可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

语音编码技术及其在通信系统中的应用

多媒体技术基础期末论文题目：语音压缩编码及其在通信系统中的应用专业：通信工程姓名：张娴学号： 1 2 3 0 7 1 3 0 4 4 9

2016年5月24日在现代通信中，随着科学技术的迅速发展，图像、数据等非话音信息在通信信息总量中所占的比例大大提高，而且这种提高的趋势仍然会继续下去。比如说，以前的手机基本上只可以打电话，发短信，不能接收文件，不能观看视频，但是现在的3G手机甚至4G手机，可以看视频，接发文件，还有很多的应用软件。语音信号所占的传输比例的确是大大减小。但是，到目前为止，在大多数通信系统中，传输最多的信息仍然是语音信号。比如说我们经常打电话，用语音发微信，听音乐，看视频等等。在可以预见的未来通信中，尽管语音信号在通信信息总量中所占的比例会有所下降，但仍然会是传输最多的信息。语音信号是模拟信号，不能直接在数字通信系统中传输，必须先进行模/数转换再进行数/模转换，这种转换就称为语音编译码（简称语音编码），其作用是将语音模拟信号转换为数字信号，到了接收端，再将收到的语音数字信号还原为语音模拟信号。可见，语音编码技术在数字通信中具有十分重要的作用，随着计算机技术与超大规模集成电路技术的飞速发展和广泛应用，信号的数字处理、数字传输和数字存储日益显示出巨大的优越性。数字化技术的应用范围迅速扩大到各个科学技术领域，渗透到工农业生产和社会生活的各个方面。因此，尽量减少信号占有带宽、持续时间和存储容积，以节省信号在传输、处理和存储中的开销，具有巨大的经济价值。所以，语音编码技术，尤其是语音压缩编码技术（编码速率在16kbit/s以下），近年来受到人们的广泛关注和重视，有着极为迫切的客观需求。正是在这种强大的客观需求推动下，近二十几年来，随着计算

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式？C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式？B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式？D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式？D a)MP4：AVC+AAC b)3GP：AVC+AMR-NB c)FLV：H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端（iphone，ipod，ipad）本地播放器支持以下哪种视频编码？B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架（Profile）？D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称？A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps，需要每秒2个关键帧，则每隔多少帧需设置一个关键帧？A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的？D a)H.264+MP3，350K+32K，15fps，22050，320x240 b)H.264+MP3，350K+32K，15fps，22050，320x240 H.264+MP3，500K+64K，25fps，44100，480x320 c)H.264+MP3，500K+64K，25fps，44100，480x320 H.264+MP3，800K+64K，25fps，44100，640x480 d)ONVP6+MP3，300K+32K，12fps，22050，480x320 ONVP6+MP3，400K+32K，12fps，22050，320x240 ONVP6+MP3，500K+32K，12fps，22050，240x180

数字音频技术_MP3_的压缩编码原理与制作方法

第4卷第2期2004年6月长沙航空职业技术学院学报 CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNAL Vol.4No.2 J un.2004 收稿日期:2004-03-20 作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。数字音频技术(MP3)的压缩编码原理与制作方法张晓婷 (珠海市工业学校,广东珠海　519015) 摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作 MP3的方法。关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11　文献标识码:A 文章编号:1671-9654(2004)02-051-06 Compression Coding Principle and F acture of Digital Audio Frequency T echnique (MP 3) ZHAN G Xiao 2ting (Zhuhai Indust ry School ,Zhuhai Guangdong 519015) Abstract :　From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2 nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3). K ey w ords :　Fomat of audio Frequency technique (MP3);compression coding principle ;facture 一、引言数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。二、MP3简介 (一)数字音频MP3的格式 MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。 (二)数字音频MP3压缩的优点使用数字音频MP3压缩方式的处理,能增加更多的存储空间。由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式 ? 15?

(完整)《语音信号处理》期末试题总结,推荐文档

2011-2013学年《语音信号处理》期末考试试题适用班级：时量：120分钟闭卷记分：考生班级：姓名：学号：注：答案全部写在答题纸上，写在试卷上无效！一、填空题：（每空2分） 1、矢量量化系统主要由编码器和译码器组成，其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性，一个是耳蜗对于声信号的时频分析特性；另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词，词法的最小单位是音节，音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法，常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理，它是利用数字信号处理技术对语音信号进行处理的一门学科，包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理，它是以数字信号处理和语音学为基础而形成的一个综合新的学科，包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2，6 11、语音的四大要素：音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式，因而能产生三类不同的声音，即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰，它是区别不同元音的重要参数，它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程，它可以通过同态信号处理来实现。P56 二、判断题：（每小题2分）√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数，从而使编码速率大幅降低。（×）P143 2、以线性预测分析-合成技术为基础的参数编码，一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。（×）P181 3、自适应量化PCM就是一种量化器的特性，能自适应地随着输入信号的短时能量的变化而调整的编码方法。（×）P142 4、线性预测法正是基于全极点模型假定，采用时域均方误差最小准则来估计模型参数的。（×）P72 5、波形编码是依赖模型假定的语音编码方法。（×）P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象，这时A叫

音频基础知识

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。有关音频的物理属性由于过于专业，请大家参考其他资料。自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。一、音频基本概念 1、什么是采样率和采样大小（位/bit）。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。 2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有

音频、视频压缩有哪些技术标准

音频、视频压缩有哪些技术标准？视频压缩技术有：MPEG-4、H263、H263+、H264等 MPEG-4视频编码技术介绍 MPEG是“Moving Picture Experts Group”的简称，在它之前的标准叫做JPEG，即“Joint Photographic Experts Group”。当人们用到常见的“.jpg”格式时，实际上正在使用JPEG的标准。JPEG规范了现代视频压缩的基础，而MPEG把JPEG 标准扩展到了运动图象。 MPEG-4视频编码标准支持MPEG-1、MPEG-2中的大多数功能，它包含了H.263的核心设计，并增加了优先特性和各种各样创造性的新特性。它提供不同的视频标准源格式、码率、帧频下矩形图像的有效编码，同时也支持基于内容的图像编码。采纳了基于对象(Object-Based)的编码、基于模型(Model-based)的编码等第二代编码技术是MPEG-4标准的主要特征。 MPEG4与MPEG1、MPEG2的比较从上表可以看出，MPEG1和MPEG2主要应用于固定媒体，比如 VCD 和 DVD ，而对于网络传输，MPEG4具有无可比拟的优势。 H.263/H.263+/H.264视频编码技术介绍 1.H.263视频编码标准 1.H.263是最早用于低码率视频编码的ITU-T标准，随后出现的第二版(H.263+)及H.263++增加了许多选项，使其具有更广泛的适用性。 H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。它是在H.261基础上发展起来的，其标准输入图像格式可以是

S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。 H.263与H.261相比采用了半象素的运动补偿，并增加了4种有效的压缩编码模式。 2.H.263+视频压缩标准 1.ITU-T在H.263发布后又修订发布了H.263标准的版本2，非正式地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变的基础上，增加了若干选项以提高压缩效率或改善某方面的功能。原 H.263标准限制了其应用的图像输入格式，仅允许5种视频源格式。 H.263+标准允许更大范围的图像输入格式，自定义图像的尺寸，从而拓宽了标准使用的范围，使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。为提高压缩效率，H.263+采用先进的帧内编码模式；增强的PB-帧模式改进了H.263的不足，增强了帧间预测的效果；去块效应滤波器不仅提高了压缩效率，而且提供重建图像的主观质量。为适应网络传输，H.263+增加了时间分级、信噪比和空间分级，对在噪声信道和存在大量包丢失的网络中传送视频信号很有意义；另外，片结构模式、参考帧选择模式增强了视频传输的抗误码能力。 3.H.264视频压缩标准 1.H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准。对信道时延的适应性较强，既可工作于低时延模式以满足实时业务，如会议电视等；又可工作于无时延限制的场合，如视频存储等。 2.提高网络适应性，采用“网络友好”的结构和语法，加强对误码和丢包的处理，提高解码器的差错恢复能力。 3.在编/解码器中采用复杂度可分级设计，在图像质量和编码处理之间可分级，以适应不同复杂度的应用。 4.相对于先期的视频压缩标准，H.264引入了很多先进的技术，包括 4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比，同时大大提高了算法的复杂度。 G.7xx系列典型语音压缩标准介绍 G.7xx 是一组 ITU-T 标准，用于视频压缩和解压过程。它主要用于电话方面。在电话学中，有两个主要的算法，分别定义在 mu-law 算法（美国使用）和 a-law 算法（欧洲及世界其他国家使用），两者都是对数关系，但对于计算机的处理来说，后者的设计更为简单。国际电信联盟G系列典型语音压缩标准的参数比较：

数字语音处理(精华版)

1·语音信号处理的三大分支：语音合成（说），语音编码（压缩），语音识别（听），语音增强。2·语音是怎样生成的：空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，这就形成了语音。 3·浊音：发音时声带振动的音称为浊音，它能量高，过零率低。为周期性斜三角脉冲。清音：声带不振动，能量低过零率高非周期脉冲，可用随机白噪声激励。 4·掩蔽效应：一个声音的听感觉感受受同时存在的另一个声音的影响的现象。掩蔽效应的应用：它指人耳只对最明显的声音反应敏感，对于不敏感的反应较不敏感，应用此原理人们发明了MP3等压缩的数字音乐格式，只突出记录人耳较为敏感的中频段声音，大大压缩了存储空间。 5·听觉机理：（1）外耳：机械振动，（2）中耳：限幅放大，（3）内耳：耳蜗。 6·语音信号数字模型：1）激励模型、2）声道模型、3）辐射模型。 7·语音生成系统的传递函数： ) ( )z( ) ( ) (z R V z G z H= 8·模型局限性及解决办法：声道的传输函数具有全极点的性质，这对于元音和大多数辅音来说是比较符合实际的，但对于鼻音和阻塞音来说由于出现了零点，这种模型就不够准确了，一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化，另一种是适当提高阶数P，使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义：加入一阶高通滤波器。10·预加重处理目的：目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率11·预加重处理技术：一般通过传递函数为： z1 1 H(z)- - =α的一阶FIR高通数字滤波器来实现预加重。 12·短时平均能量主要用途： 1）可以作为区分浊音和清音的特征参数2）在信噪比较高的情况下短时能量还可以作为区分有声和无声的依据3) 可以作为辅助的特征参数用于语音识别中。 13常用的窗有两种：一种是矩形窗，窗函数如下： ? ? ?- ≤ ≤ = 其他 ,0 1 ,1 ) ( N n n ω 可简化为： ∑ - - = - - = n N n m n m x m x z )1 ( |)] 1 ( sgn[ )] ( sgn[ | 2 1 π 另一种是汉明窗，窗函数： ? ? ?≤ ≤ - - = 其他 ,0 )] 1 /( 2[ cos 46 .0 54 .0N n N nπ ω 14·过零率：单位时间内过零的次数。浊音：过零率低能量高，清音：过零率高能量高。 15·端点检测目的：从包含语音的一段信号中确定出语音的起点及结束点。 16·自相关函数：时域离散确定信号： ∑+∞ -∞ = + = m k m x M x) ( ) ( ) R(k 时域离散随机信号： ∑ - = + + = N N m k m x m x N ) ( ) ( 1 2 1 ) R(k 自相关函数性质：1)对称性： R（K）=R（-K）2）在K=0处为最大值，即对于所有K来说 )0( |) ( |R K R≤3）对于确定信号，R（0）对应于能量对于随机信号R （0）对应于平均功率。 17·浊音和清音的短时自相关函数有以下特点:1)短时自相关函数可以很明显的反映出浊音信号的周期性 2）清音的短时自相关函数没有周期性，也不具有明显突出的峰值，其性质类似于噪声。3）不同的窗对短时自相关函数结果有一定影响。 18·短时自相关函数（求峰值）两个峰值之间的距离为周期。短时平均幅度差函数（求谷值）两个谷值之间的距离为周期。 19·采用双限门比较的两极判决法：第一级判决:1)先根据语音短时能量的轮廓选取一个较高的门限T1进行一次粗判：语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。 2）根据背景噪声的平均能量确定一个较低的门限T2，并从A点往左、从B 点往右搜索，分别找到短时能量包络与门限T2相交的两个点C和D，于是CD 段就是双门限方法根据短时能量所判定的语音段。第二级判决：以短时平均过零率为标准，从C点往左和D点往右搜索，找到短时平均过零率低于某个门限T3的两点E和F，这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。 20·当n固定时，它们就是序列））（m x( m - n ω的傅里叶变换或离散傅里叶变换。当ω或K固定时，它们就是一个卷积，相当于滤波器的运算。 21·基音周期估值的两种方法:第一种方法：先对语音信号进行低通滤波，在进行自相关计算。第二种方法，先对语音信号进行中心削波处理，在进行自相关计算。判别基音周期的方法：1·短时自相关函数法。2·短时平均幅度差函数。 22·线性预测编码就是利用过去的样值对新样值进行预测，然后将样值的实际值与预测值相减，得到一个误差信号，显然误差信号的动态范围远小于原始语音信号的动态范围，对误差信号的进行量化编码，可大大减少量化所需的比特数，使编码速率降低。

语音信号数字化编码

语音信号数字化编码随着数字技术，特别是计算机技术的飞速发展与普及，在现代控制、通信及检测等领域，为了提高系统的性能指标，对信号的处理广泛采用了数字计算机技术。由于系统的实际对象往往都是一些模拟量（如温度、压力、位移、图像等），要使计算机或数字仪表能识别、处理这些信号，必须首先将这些模拟信号转换成数字信号；而经计算机分析、处理后输出的数字量也往往需要将其转换为相应模拟信号才能为执行机构所接受。这样，就需要一种能在模拟信号与数字信号之间起桥梁作用的电路——模数和数模转换器。语音信号的数字化的编码的实现就是将一个语音信号转换成数字信号。标签：语音信号；数字信号；模数转换 1 设计要求 1.1 语音信号的数字化编码的实现即将模拟信号进行数字化处理。 1.2 要求运用pcm编码（脉冲编码调制）的基本原理。 1.3 要求软硬件结合。 2 设计原理语音信号数字化编码的实现就是将一个语音信号转换成数字信号。语音是人类发音器官发出的，具有一定意义的，能起到社会交际作用的声音。普通人语音信号频率范围20HZ——20KHZ。语音信号转换电信号的过程：声音通过空气把震动传给声音传感器的薄膜，薄膜振动带动线圈在磁场中做切割磁感线运动，产生大小不一的电流。通常把从模拟信号抽样、量化，直到变换成为二进制符号的基本过程，称为脉冲编码调制（pcm），简称脉码调制。 Pcm系统的原理方框如图1所示，在编码器中有冲激脉冲对模拟信号抽样，得到在抽样时刻上的值。这个抽样值仍是模拟量。在它量化之前，通常用保持电路将其作短暂的保存，以便电路有时间对其进行量化。在实际电路中，常把抽样和保持电路作在一起，称为抽样保持电路。图中的量化器把模拟抽样信号变成离散的数字量，然后再编码器中进行二进制编码。这样，每个二进制码组成就代表一个量化后的信号抽样值。 3 基本电路

语音压缩芯片CT8022的使用方法

语音压缩芯片CT8022的使用方法来源：单片机与嵌入式系统ic网作者：郝绒华郄锦辉等 CT8022是DSPG公司开发的可实现多种压缩算法的专用DSP芯片。它可接受外部串行A ／D提供的64／128kbits／s的8bit A／μ数据或16bit线性数据，并实现全／半双工压缩和解压，以将其压缩为由主机通过命令字决定的格式。可压缩为8．5／6．3／5．3／4．8／4．1kbits／s的数据。当压缩为6．3／5．3kbits／s时，符合ITU－G．723．1标准。C T8022内建有实时回音抵消和自动增益控制电路。当发送端与接收端抽样时钟不同步时，系统可自动添加或删除帧。另外，CT8022还提供了DTMF信号和呼叫继续音的产生和检测功能。可应用于H．323和H．324多媒体可视电话／视频会议等系统，也可用于实现数字数据／语音同传（DSVD）技术。 1 引脚说明 CT8022有128条管脚，分为6类。（1）主机接口引脚 HSTDB0～7：主机数据总线。 HSTAB0～3：主机地址线。其中HSTAB0用来选择16位控制字的高8位或低8位，当为0时选择低8位，为1时选择高8位。 HSTRDN：主机读允许信号。允许主机从由HSTAB1～3译码后所选择的主机接口寄存器中读出数据。 HSTWRN：主机写允许信号。允许主机向由HSTAB1～3译码后所选择的主机接口寄存器中写入数据。 HSTCSN：主机接口选中信号。在对CT8022读写时，该引脚与HSTRDN，HSTWRN和HSTAB 0～3共同作用。当HSTCSN有效时，HSTAB0～3应保持不变。在DMA方式时，此信号应置为无效。

实验一：语音压缩编码的实现

实验一语音压缩编码的实现——增量调制一、实验目的（1）会用MATLAB 语言表示基本的信号（2）用MATLAB 实现语音信号的采集（3）理解增量调制（DM ）的原理并编程实现编译码二、实验原理 1、信号是随时间变化的物理量，它的本质是时间的函数。信号可以分为时间连续信号和时间离散信号。连续信号是指除了若干不连续的时间点外，每个时间点上都有对应的数值的信号。离散信号则是只在某些不连续的点上有信号值，其它的时间点上信号没有定义的一类信号。离散信号一般可以由连续信号经过模数转换而得到。语音信号是模拟信号，经麦克风输入计算机后，就存为数字信号。 2、增量调制编码基本原理是采用一位二进制数码“1”或“0”来表示信号在抽样时刻的值相对于预测器输出的值是增大还是减小，增大则输出“1”码，减小则输出“0”码。收端译码器每收到一个1码，译码器的输出相对于前一个时刻的值上升一个量化阶，而收到一个0码，译码器的输出相对于前一个时刻的值下降一个量化阶。增量调制的系统结构框图如课本上图3.3-1所示。在编码端，由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上相减，从而得到差值。差值的极性可以是正也可以是负。若为正，则编码输出为1；若为负，则编码输出为0。这样，在增量调制的输出端可以得到一串1位编码的DM 码。图3.3-1 增量调制的系统结构框图三、实验容与方法（一）、用windows 自带的录音机录一段自己的语音（3s ），存为“.wav ”文件。 1、补充：语音信号的采集 Wavread 函数常用的语法为：[y,fs,bite]=wavread(‘filename.wav’); 这里fs 为采样频率，bite 为采样点数。 AWGN ：在某一信号中加入高斯白噪声输入信号

GSM数字移动通信系统语音信源编解码技术

GSM数字移动通信系统语音信源编解码技术王红军1，钟子发1，陈润洁2 （1电子工程学院,安徽合肥230037； 2合肥通用所,安徽合肥230031）摘要：依据GSM协议，介绍了GSM系统所采用的语音信源RPE-LTP(规则码激励长期预测)编码技术，详细阐述了相应的信源解码模型和解码算法，并在工程实现中对算法性能进行了大量的测试，验证了解码模型的可行性和算法的有效性。关键词：GSM；信源编码；信源解码；RPE-LTP 一、引言 GSM(Global System for Mobile Communication)数字移动通信系统中的核心问题是有效性、可靠性和安全性。信源编码解决的是有效性。由于移动通信属于无线通信，在无线通信中有效性的要求更加突出，这是因为无线信道的频率资源是有限的。提高移动通信的有效性可以在不同的层次来实现，本文着重讨论在物理层的实现技术。信源编码是产生信源数据的源头，利用信源的统计特性，解除信源的相关性，去掉信源多余的冗余信息，以达到压缩信源信息率，提高系统有效性的目的。在GSM移动通信系统中，语音信源编码是为了保障语音通信的有效性。本文在完成对语音编解码分析的基础上，工程实现了语音解码技术，技术的突破点就在于解码算法的实际工程应用。二、GSM语音信源编码技术分析［１，２］ GSM数字移动通信系统采用13kbit/s RPE-LTP语音编码技术，包括预处理、线性预测编码（LPC）分析、短时分析滤波、长时预测和规则码激励编码等5个主要部分，如图1所示。

1预处理首先用8k H z采样频率对输入的模拟语音信号进行采样得到离散话语音信号 S 0(n)，滤除S (n)中的直流分量，得到S 0f (n);其次采用一阶有限冲激响应（FIR）滤波器进行高频预加重，得到信号S(n)，加重的目的是加强语音谱中的高频共振峰，使语音短时谱及线性预测LPC分析中余数谱变得更平坦，从而提高谱参数估值的精确性。 2LPC分析将信号S(n)的每160个样点（20ms）分为一帧，每帧计算出8个LPC反射系数r(i),i=1，2，…，8。计算步骤为先计算出9个自相关系数ACF(i)：最后对LAR进行量化得到LAR c ，一方面作为边信息送到解码器,另一方面作为对它解码，恢复出量化后的反射系数r′(i)，以供短时分析滤波时使用。 3短时分析滤波信号S(n)经过格型滤波器，滤除语音信号样点之间的短时相关性，产生短时LP 余量信号d(n)：

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。 3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。二、常见音频格式 1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。此外，WMA还可以通过DRM（Digital Rights Management）保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM （RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式：Audible1、2、3、4。https://www.doczj.com/doc/7d15668993.html,网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种https://www.doczj.com/doc/7d15668993.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件