当前位置：文档之家› 音频客观测量指标

音频客观测量指标

音频客观测量指标概念

音频指标简介及测试原理方法

音频指标测试均是针对有输入和输出的设备而言，就是声音信号经过了一个通道以后，输出与输入之间的差别。两者差别越小那么性能越好，而且在一般情况下声音经过某一个通道或某一系统后，一般都有对原信号的放大和衰减。

信噪比、失真率、频率响应这三个指标是音响器材的“基础指标”或“基本特性”，我们在评价一件音响器材或者一个系统水准之前，必须先要考核这三项指标，这三项指标中的任何一项不合格，都说明该器材或者系统存在着比较重大的缺陷

1、信噪比SNR(Signal to Noise Ratio)：

（1）简单定义：狭义来讲是指放大器的输出信号的电压与同时输出的噪声电压的比，常常用分贝数表示，设备的信噪比越高表明它产生的杂音越少。一般来说，信噪比越大，说明混在信号里的噪声越小，声音回放的音质量越高，否则相反。信噪比一般不应该低于70dB，高保真音箱的信噪比应达到110dB以上。音频信噪比是指音响设备播放时，正常声音信号强度与噪声信号强度的比值

（2）计算方法：信噪比的计量单位是dB，其计算方法是10LG(PS/PN)，其中Ps和Pn分别代表信号和噪声的有效功率，也可以换算成电压幅值的比率关系：20LG(VS/VN)，Vs和Vn 分别代表信号和噪声电压的“有效值”。

（3）测量方法：信噪比通常不是直接进行测量的，而是通过测量噪声信号的幅度换算出来的，通常的方法是：给放大器一个标准信号，通常是0.775Vrms或2Vp-p@1kHz,调整放大器的放大倍数使其达到最大不失真输出功率或幅度（失真的范围由厂家决定,通常是10％，也有1％），记下此时放大器的输出幅Vs，然后撤除输入信号，测量此时出现在输出端的噪声电压，记为Vn，再根据SNR=20LG(Vn/Vs)就可以计算出信噪比了. 或者是10LG(PS/PN)，其中Ps和Pn分别代表信号和噪声的有效功率

计权：这样的测量方式完全可以体现设备的性能了。但是，实践中发现，这种测量方式很多时候会出现误差，某些信噪比测量指标高的放大器，实际听起来噪声比指标低的放大器还要大。经过研究发现，这不是测量方法本身的错误，而是这种测量方法没有考虑到人的耳朵对于不同频率的声音敏感性是不同的，同样多的噪声，如果都是集中在几百到几千Hz，和集中在20KHz以上是完全不同的效果，后者我们可能根本就察觉不到. 这样就引入了权的概念。噪声中对人耳影响最大的频段“权”最高，而人耳根本听不到的频段的“权”为0。这种计算方式被称为“A计权”，已经称为音响行业中普遍采用的计算方式。

2 、频响范围：

（1）频率响应是指在振幅允许的范围内音响系统能够重放的频率范围，以及在此范围内信号的变化量称为频率响应。

（2）测试方法：要求输入信号幅值为一个固定值（要在动态范围之内，音响设备我们可以取100mv）。当输入信号为正常频率时（不能有失真，可以定位1KZ），记录这个时候的输出电压的大小V1。然后开始逐渐降低输入信号的频率，当降低到一定程度时，输出信号的幅值会开始减小。继续降低频率，直到输出电压为0.707V1时，记下此时的频率F1，那么该频率就是此通道的最低响应频率。

然后就可以调高频率，直至输出电压为0.707V1时，记下此时的频率F2，那么此频率就是该通道的最高响应频率。

那么就可以得出频率响应范围为：F1~F2。也可以表示为：20log（F2/F1）

（3）相频特性，不同频率经过系统后，相移滞后的现象称为相频特性。（1），（2）的测试方法是针对幅频特性来说的。

3、失真度（DISTN）：

指信号在传输过程中与原有信号或标准相比所发生的偏差。在理想的放大器中，输出波形除放大外，应与输入波形完全相同，但实际上，不能做到输出与输入的波形完全一样，这种现象叫失真。

3.1类型：

A、按波形失真的不同情况有：

幅度失真：对幅度不同的信号放大量不同。

频率失真：对频率不同的信号放大量不同。

相位失真（或时延失真）：频率不同的信号，经放大后产生的时间延迟不同。

B、按性质分：

线性失真：是指信号频率分量间幅度和相位关系的变化，仅出现波形的幅度及相位失真，这种失真的特点是不产生新的频率分量。

非线性失真：是指信号波形发生了畸变，并产生了新的频率分量的失真。

3.2 声音失真的要点

3.2.1谐波失真

这种失真是由电路中的非线性元件引起的，信号通过这些元件后，产生了新的频率分量（谐波），这些新的频率分量对原信号形成干扰，这种失真的特点是输入信号的波形与输出信号波形形状不一致，即波形发生了畸变

3.2.2互调失真

两种或多种不同频率的信号通过放大器或扬声器后产生差拍与构成新的频率分量，这种失真通常都是由电路中的有源器件（如晶体管、电子管）产生的。失真的大小与输出功率有关，由于新产生的这些频率分量与原信号没有相似性，因此较少的互调失真也很容易被人耳觉察到。

3.2.3交流接口失真

交流接口失真是由扬声器的反电动势（扬声器发音振动时，切割磁力线所产生的电势）反馈到电路而引起的

3.2.4瞬态失真

瞬态失真是现代声学的一个重要指标，它反映了功放电路对瞬态跃变信号的保持跟踪能力，故又称瞬态反应。这种失真使音乐缺少层次或透明度。这里又分为瞬态互调失真和转换速率过低引起的失真。

另外还有：

1、信纳比：SINAD

SINAD=(S+N+D)/(N+D).S是信号功率N是噪声功率D是失真功率。

2、动态范围：动态范围是指音响系统重放时最大不失真输出功率与静态时系统噪声输出功率之比的对数值。

1、音频性能测试：

测试仪器：

音频分析仪HP8903B 信号发生器（可不用）

4.1动态范围测试

要求测试设备通道放大倍数在测试的时候为一定值K，输入电压的频率为一定固定值（可以定位1Khz）

（1）测试输入通道为0时，记下这个时候的输出电压V1。

（2）逐渐增大输入电压，使得输出电压不能出现失真，且电压的放大倍数为定值K。逐渐增大输入电压，直到输出的放大倍数K（可以大概估算输出电压与输入电压的比值）据输出电压比减小比较多，或者波形出现失真（用示波器看），或者失真度（8903B可以看到）大于某一值（一般可以是1~5%）。

那么这个输入电压和输出电压V2就称为最大电压。这就可以算出动态范围为：20log （V2/V1）。

4.2频率范围测试

要求通道放大倍数不变，输入信号幅值为一个固定值（要在动态范围之内，音响设备我们可以取100mv）。当输入信号为正常频率时（不能有失真，可以定位1KZ），记录这个时候的输出电压的大小V1。然后开始逐渐降低输入信号的频率，当降低到一定程度时，输出信号的幅值会开始减小。继续降低频率，直到输出电压为0.707V1时，记下此时的频率F1，那么该频率就是此通道的最低响应频率。

然后就可以调高频率，直至输出电压为0.707V1时，记下此时的频率F2，那么此频率就是该通道的最高响应频率。

那么就可以得出频率响应范围为：F1~F2。也可以表示为：20log（F2/F1）

4.3信噪比和失真测试

要求被测试设备通道的放大倍数固定，输入1khz的为通过0809b就能够直接读出信噪比和失真度。

不能测试的失真：互调失真、交流接口失真、瞬态失真。智能测试。这里的幅频失真和相频失真一般就不进行测试。在音箱系统中，我们最为关注的是信噪比，就是噪声电压。其次是频率范围和动态范围。对于频响特性，在不同频率下的各种失真的测试完全没有必要。

如果能够给出：频率响应曲线（包过幅度和相位）所有性能个就一目了然。

：

HP8903B

音频接口

视频系统术语--音频接口

除了高清视频带来的视觉上的冲击，音频方面质量也有很大提高，能给大家带来更逼真的现场效果。对于目前经常提到的音频接口做一个说明。

1 RCA模拟音频

RCA接头就是常说的莲花头，利用RCA线缆传输模拟信号是目前最普遍的音频连接方式。每一根RCA线缆负责传输一个声道的音频信号，所以立体声信号，需要使用一对线缆。对于多声道系统，就要根据实际的声道数量配以相同数量的线缆。立体声RCA音频接口，一般将右声道用红色标注，左声道则用蓝色或者白色标注。

2 平衡模拟音频

大三芯插头

XLR接口

与RCA模拟音频线缆直接传输声音的方式完全不同，平衡模拟音频（Balanced Analog Audio）接口使用两个通道分别传送信号相同而相位相反的信号。接收端设备将这两组信号相减，干扰信号就被抵消掉，从而获得高质量的模拟信号。平衡模拟音频通常采用XLR接口和大三芯接口。XLR俗称卡侬头，有三针插头和锁定装置组成。由于采用了锁定装置，XLR连接相当牢靠。大三芯接口则采用直径为6.35毫米的插头，其优点是耐磨损，适合反复插拔。平衡模拟音频连接主要出现在高级模拟音响器材或专业音频设备上。

3 S/PDIF

S/PDIF（Sony/Philips Digital Interface，索尼和飞利浦数字接口）是由SONY公司与PHILIPS 公司联合制定的一种数字音频输出接口。该接口广泛应用在CD播放机、声卡及家用电器等设备上，能改善CD的音质，给我们更纯正的听觉效果。该接口传输的是数字信号，所以不会像模拟信号那样受到干扰而降低音频质量。需要注意的是，S/PDIF接口是一种标准，同轴数字接口和光线接口都属于S/PDIF接口的范畴。

4 数字同轴

数字同轴（Digital Coaxial）是利用S/PDIF接口输出数字音频的接口。同轴线缆有两个同心导体，导体和屏蔽层共用同一轴心。同轴线缆是由绝缘材料隔离的铜线导体，阻抗为75欧

姆，在里层绝缘材料的外部是另一层环形导体及其绝缘体，整个电缆由聚氯乙烯或特氟纶材料的护套包住。同轴电缆的优点是阻抗稳定，传输带宽高，保证了音频的质量。虽然同轴数字线缆的标准接头为BNC接头，但市面上的同轴数字线材多采用RCA接头。

5 光纤

光纤（Optical）以光脉冲的形式来传输数字信号，其材质以玻璃或有机玻璃为主。光纤同样采用S/PDIF接口输出，其是带宽高，信号衰减小，常常用于连接DVD播放器和A V功放，支持PCM数字音频信号、Dolby以及DTS音频信号。

6 凤凰头

凤凰头也经常被用来作为音频的输入和输出端口。

音频编解码

2-1 PCM编码

PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

2-2 WAVE

这是一种古老的音频文件格式，由微软开发。W A V是一种文件格式，符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头，这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念，我们拿A VI做个示范，因为A VI和WAV在文件结构上是非常相似的，不过A VI多了一个视频流而已。我们接触到的A VI 有很多种，因此我们经常需要安装一些Decode才能观看一些A VI，我们接触到比较多的DivX 就是一种视频编码，A VI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，W AV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的W A V，但这不表示W A V只能使用PCM编码，MP3编码同样也可以运用在W A V中，和A VI一样，只要安装好了相应的Decode，就可以欣赏这些W A V了。

在Windows平台下，基于PCM编码的W A V是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，W A V也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WA V被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

2-3 MP3编码

MP3作为目前最为普及的音频压缩格式，为大家所大量接受，各种与MP3相关的软件产品层出不穷，而且更多的硬件产品也开始支持MP3，我们能够买到的VCD/DVD播放机都很多都能够支持MP3，还有更多的便携的MP3播放器等等，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了，他是MPEG(MPEG：Moving Picture EXPerts Group) Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，在当年硬盘天价的日子里，MP3迅速被用户接受，随着网络的普及，MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。

VBR：MP3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪里，即使是文件有部分损坏。虽然mp3可以有文件头，但对于mp3格式的文件却不是很重要，正因为这种特性，决定了MP3文件的每一段每一帧都可以单独的平均数据速率，而无需特别的解码方案。于是出现了一种叫VBR（Variable bitrate，动态数据速率）的技术，可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate，这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小。这种技术的优越性是显而易见的，但要运用确实是一件难事，因为这要求编码器知道如何为每一段分配bitrate，这对没有波形分析的编码器而言，这种技术如同虚设。正是如此，VBR技术并没有一出现就显得光彩夺目。

专家们通过长期的声学研究，发现人耳存在遮蔽效应。声音信号实际是一种能量波，在空气或其他媒介中传播，人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小，我们称它为响度，表示响度这种能量的单位为分贝（dB）。即使是同样响度的声音，人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4000Hz的频率，不管频率是否增高或降低，即使是响度在相同的情况下，大家都会觉得声音在变小。但响度降到一定程度时，人耳就听不到了，每一个频率都有着不同的值。

可以看到这条曲线基本成一个V字型，当频率超过15000Hz时，人耳的会感觉到声音很小，很多听觉不是很好的人，根本就听不到20000Hz的频率，不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时，响度较小的那个也会被忽略，例如：在白天我们很难听到电脑中散热风扇的声音，晚上却成了噪声源，根据这种原理，编码器可以过滤掉很多听不到的声音，以简化信息复杂度，增加压缩比，而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽，如果A处于B为中心的遮蔽范围内，遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样，频率越高的临界带宽越宽。

频率(Hz) 临界带宽(Hz) 频率(Hz) 临界带宽(Hz)

50 80 1850 280

150 100 2150 320

350 100 2500 380

450 110 3400 550

570 120 4000 700

700 140 4800 900

840 150 **** ****

1000 160 7000 1300

1170 190 8500 1800

1370 210 10500 2500

1600 240 13500 3500

根据这种效应，专家们设计出人耳听觉心理模型，这个模型被导入到mp3编码中后，导致了一场翻天覆地的音质革命，mp3编码技术一直背负着音质差的恶名，但这个恶名现在已经逐渐被洗脱。到了此时，一直被埋没的VBR技术光彩四射，配合心理模型的运用便现实出强大的诱惑力与杀伤力。

长期来，很多人对MP3印象不好，更多人认为WMA的最佳音质要好过MP3，这种说法是不正确的，在中高码率下，编码得当的MP3要比WMA优秀很多，可以非常接近CD音质，在不太好的硬件设备支持下，没有多少人可以区分两者的差异，这不是神话故事，尽管你以前盲听就可以很轻松区分MP3和CD，但现在你难保证你可以分辨正确。因为MP3是优秀的编码，以前被埋没了。

2-4 OGG编码

网络上出现了一种叫Ogg V orbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案！OGG的信念就是：OPEN！FREE！V orbis这个词汇是特里?普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。

Ogg V orbis是高质量的音频编码方案，官方数据显示：Ogg V orbis可以在相对较低的数据速率下实现比MP3更好的音质！Ogg V orbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg V orbis在SACD、DTSCD、DVD AUDIO 抓轨软件（目前这种软件还没有）的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样，Ogg V orbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG 也支持VBR。

2-5 MPC 编码

MPC是又是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

2-6 mp3PRO 编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

2-7 WMA

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps 的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA 有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

2-8 RA

RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括A TRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

2-9 APE

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发

烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。

主流音频格式的特点及其适应性

各种各样的音频编码都有其技术特征及不同场合的适用性，我们大致讲解一下如何去灵活应用这些音频编码。

4-1 PCM编码的W A V

前面就提到过，PCM编码的W A V文件是音质最好的格式，Windows平台下，所有音频软件都能够提供对她的支持。Windows提供的WinAPI中有不少函数可以直接播放wav，因此，在开发多媒体软件时，往往大量采用wav，用作事件声效和背景音乐。PCM编码的wav可以达到相同采样率和采样大小条件下的最好音质，因此，也被大量用于音频编辑、非线性编辑等领域。

特点：音质非常好，被大量软件所支持。

适用于：多媒体开发、保存音乐和音效素材。

4-2 MP3

MP3具有不错的压缩比，使用LAME编码的中高码率的mp3，听感上已经非常接近源W A V 文件。使用合适的参数，LAME编码的MP3很适合于音乐欣赏。由于MP3推出年代已久，加之还算不错的音质及压缩比，不少游戏也使用mp3做事件音效和背景音乐。几乎所有著名的音频编辑软件也提供了对MP3的支持，可以将mp3象wav一样使用，但由于mp3编码是有损的，因此多次编辑后，音质会急剧下降，mp3并不适合保存素材，但作为作品的demo确实相当优秀的。mp3长远的历史和不错的音质，使之成为应用最广的有损编码之一，网络上可以找到大量的mp3资源，mp3player日渐成为一种时尚。不少VCDPlayer、DVDPlayer 甚至手机都可以播放mp3，mp3是被支持的最好的编码之一。MP3也并非完美，在较低码率下表现不好。MP3也具有流媒体的基本特征，可以做到在线播放。

特点：音质好，压缩比比较高，被大量软件和硬件支持，应用广泛。

适用于：适合用于比较高要求的音乐欣赏。

4-3 OGG

Ogg是一种非常有潜力的编码，在各种码率下都有比较惊人的表现，尤其中低码率下。Ogg 除了音质好之外，她还是一个完全免费的编码，这对ogg被更多支持打好了基础。Ogg有着非常出色的算法，可以用更小的码率达到更好的音质，128kbps的Ogg比192kbps甚至更高码率的mp3还要出色。Ogg的高音具有一定的金属味道，因此在编码一些高频要求很高的乐器独奏时，Ogg的这个缺陷会暴露出来。OGG具有流媒体的基本特征，但现在还没有媒体服务软件支持，因此基于ogg的数字广播还无法实现。Ogg目前的被支持的情况还不够好，

无论是软件的还是硬件的，都无法和mp3相提并论。

特点：可以用比mp3更小的码率实现比mp3更好的音质，高中低码率下均具有良好的表现。

适用于：用更小的存储空间获得更好的音质（相对MP3）

4-4 MPC

和OGG一样，MPC的竞争对手也是mp3，在中高码率下，MPC可以做到比竞争对手更好音质，在中等码率下，MPC的表现不逊色于Ogg，在高码率下，MPC的表现更是独孤求败，MPC的音质优势主要表现在高频部分，MPC的高频要比MP3细腻不少，也没有Ogg那种金属味道，是目前最适合用于音乐欣赏的有损编码。由于都是新生的编码，和Ogg际遇相似，也缺乏广泛的软件和硬件支持。MPC有不错的编码效率，编码时间要比OGG和LAME 短不少。

特点：中高码率下，具有有损编码中最佳的音质表现，高码率下，高频表现极佳

适用于：在节省大量空间的前提下获得最佳音质的音乐欣赏。

4-6 WMA

微软开发的WMA同样也是不少朋友所喜爱的，在低码率下，有着好过mp3很多的音质表现，WMA的出现，立刻淘汰了曾经风靡一时的VQF编码。有微软背景的WMA获得了很好的软件及硬件支持，Windows Media Player就能够播放WMA，也能够收听基于WMA编码技术的数字电台。因为播放器几乎存在于每一台PC上，越来越多的音乐网站都乐意使用WMA作为在线试听的首选了。除了支持环境好之外，WMA在64-128kbps码率下也具有相当出色的表现，虽然不少要求较高的朋友并不够满意，但更多要求不高的朋友接受了这种编码，WMA很快的普及开了。

特点：低码率下的音质表现难有对手

适用于：数字电台架设、在线试听、低要求下的音乐欣赏

4-7 mp3PRO

作为mp3的改良版本的mp3PRO表现出了相当不错的素质，高音丰满，虽然mp3PRO是通过SBR技术在播放过程中插入的，但实际听感相当不错，虽然显得有点单薄，但在64kbps 的世界里已经没有对手了，甚至超过了128kbps的mp3，但很遗憾的是，mp3PRO的低频表现也象mp3一样的破，所幸的是，SBR的高频插值可以或多或少的掩盖掉这个缺陷，因此mp3PRO的低频弱势反而不如WMA那么明显。大家可以在使用RCA mp3PRO Audio Player 的PRO开关来切换PRO模式和普通模式时深深的感觉到。整体而言，64kbps的mp3PRO 达到了128kbps的mp3的音质水平，在高频部分还略有胜出。

特点：低码率下的音质之王

适用于：低要求下的音乐欣赏

4-8 APE

一种新兴的无损音频编码，可以提供50-70%的压缩比，虽然比起有损编码来太不值得一提了，但对于追求完美注意的朋友简直是天大的福音。APE可以做到真正的无损，而不是听起来无损，压缩比也要比类似的无损格式要好。

特点：音质非常好。

适用于：最高品质的音乐欣赏及收藏

MPEG提供三种音频压缩编码的等级，分别为I，II和III级（Level I、Level II、Level III）。I级最简单，其目标是压缩后每声道位数据率为192Kb/s。II级比I级精度高一些，压缩后每声道位数据率为128Kb/s。III级增加了不定长编码、霍夫曼编码等一些先进的算法，可获得非常低的数据率和较高的保真度，压缩后每声道的位数据率为64Kb/s。如果要获得每声道64Kb/s的数据率，采用III级编码比采样II级编码的保真度好；要获得每声道128Kb/s的数据率，采用III级和II级编码的效果类似，但III级和II级都比I级的效果好。每声道128Kb/s 的数据率或双声道256Kb/s的数据率可以提供优质的保真度，因此采用II级压缩编码对高保真、立体声音频足矣。

声音响度的基本概念

人耳感觉到的声音的强弱是声音的特征之一。振幅越大，响度越大，振幅越小，响度越小。

一)声音的强弱称为「响度」，通常以「分贝」(dB)来表示响度的大小。

(二)声波振幅愈大则响度愈大。用力敲打音叉，音叉两股振动幅度愈大，便可产生较大振幅的声波。反之小力敲打则声波振幅小。

(三)响度大小可用「噪音计」测得分贝值。振幅大小之比较可由「示波器」之萤幕直接观察

声音的强弱叫做响度。响度是感觉判断的声音强弱，即声音响亮的程度，根据它可以把声音排成由轻到响的序列。

响度的大小主要依赖于声强，也与声音的频率有关。

声波所到达的空间某一点的声强，是指该点垂直于声波传播方向的单位面积上，在单位时间内通过的声能。声强的单位是瓦/米2。对于2000赫兹的声音，其声强为2×10-12瓦/米2就可以听到，但对于50赫兹的声音，需5×10-6瓦/米2才能听到，感觉这两个声音的响度相同，但它们的声强差2.5×106倍。对于同一频率的声音，响度随声强的增加不是呈线性关系，声强增大到10倍，响度才增大为2倍，声强增大到100倍，响度才增大为3倍。

响度- 响度与人的感觉

响度由气压迅速变化的振幅(声压)大小决定。但人耳对强度的主观感觉与客观的实际强度并不一致，人们把对于强弱的主观感觉称为响度，其计量单位也为分贝(Db)，它是根据1000Hz 的声音在不同强度下的声压比值，取其常用对数值的l／10而定的。取对数值的原因是由于强度与响度的增加不是成正比关系，而是真数与对数的关系！例如声音强度大到10倍时，听起来才响了一级(10dB)，强度大到100倍时听起来才响了两级(20dB)。对于1000Hz的声音信号，人耳能感觉到的最低声压为2x 10E－5Pa，把这一声压级定为0dB，当声压超过

130dB时人耳将无法忍受，故人耳听觉的动态范围为0～130dB。人对强度相等、频率不同声音感觉是不同的；声压级越高，人的听觉频率特性越平直；声压级越低，人的听觉频率范围越小；频率f＜16～20Hz以及f＞18～20KHz的声音，不论声级多高，人耳都是听不到的。故人耳的听觉频率为20Hz～20KHz，这个频带叫音频或声频；不论声压高低，人耳对3KHz～5KHz频率的声音最为敏感。

大多数人对信号声级突变3dB以下时是感觉不出来的，因此对音响系统常以3dB作为允许的频率响应曲线变化范围。

人耳对声音的感觉，不仅和声压有关，还和频率有关。声压级相同，频率不同的声音，听起来响亮程度也不同。如空压机与电锯，同是100分贝声压级的噪声．听起来电锯声要响得多。按人耳对声音的感觉特性，依据声压和频率定出人对声音的主观音响感觉量，称为响度级，单位为方。

以频率为1000赫兹的纯音作为基准音，其他频率的声音听起来与基准音一样响，该声音的响度级就等于基准音的声压级。例如，某噪声的频率为100赫兹，强度为50分贝，其响度与频率为1000赫兹，强度为20分贝的声音响度相同，则该噪声的响度级为20方。人耳对于高频噪声是1000～5000赫兹的声音敏感，对低频声音不敏感。例如，同是是40方的响度级，对1000赫兹声音来说，声压级是40分贝；4000赫兹的声音，声压级是37分贝；100赫兹的声音，声压级52分贝；30赫兹的声音，声压级是78分贝。也就是说，低频的80分贝的声音，听起来和高频的37分贝的声音感觉是一样的。但是声压级在80分贝以上时，各个频率的声压级与响度级的数值就比较接近了，这表明当声压级较高时，人耳对各个频率的声音的感觉基本是一样的。

音频嵌入解嵌

入的音频最少2路,最多16路。嵌入到视频数据中的音频包有3种:音频控制包(Audio ControlPacket, ACP) 、音频数据包(Audio Data Packet, ADP) 和扩展数据包( Extended DataPacket, EDP) 。它们应该尽量均匀地嵌入视频信号中,以减小系统中的buffer所占用的资源。

音频控制包格式如图4a所示。待嵌入的音频每4路为1个音频组,每个音频组都拥有自己独立的一个控制包。控制包在每场视频切换点(Video Switching Point)后面的视频行中传输一次,它包含了采样率、音频声道有效性指示、音频处理延时等信息。控制包在辅助数据空间中的位置必须先于其他任何音频包。

音频数据包(图4b)携带的是有效音频信号,每一个AES/EBU音频子帧中的20 bit音频取样码和V,U, C 3个位通过一定的格式,映射为数据包中连续的3 word。将来自2个音频对的4个子帧的音频数据按顺序排列,数据包就可以承载多达4路AES/EBU音频信号的1个或多个采样。

当音频采样字长超过20 bit时,音频子帧中的4 bit辅助数据被打包进扩展数据包(图4c) ,每2个子帧的共8位辅助数据拼成扩展包中的一个有效word。

音频数据包和扩展包必须放在每行视频中紧接在EA V之后的位置上。扩展包必须和相关的音频数据包放置在同一辅助数据区中,并且紧接在音频数据包后面。