当前位置：文档之家› 常见音视频编码

常见音视频编码

一、常见视频格式中采用的技术

当PC开始拥有FPU（浮点处理器）后，PC如何处理多媒体信息的问题也被摆上台面。无数专家开始为音频视频编码技术运用在PC上开始忙碌了，视频技术也因此得到了飞快的进步。

1、无声时代的FLC

FLC、FLI是Autodesk开发的一种视频格式，仅仅支持256色，但支持色彩抖动技术，因此在很多情况下很真彩视频区别不是很大，不支持音频信号，现在看来这种格式已经毫无用处，但在没有真彩显卡没有声卡的DOS时代确实是最好的也是唯一的选择。最重要的是，Autodesk的全系列的动画制作软件都提供了对这种格式的支持，包括著名的3D Studio X，因此这种格式代表了一个时代的视频编码水平。直到今日，仍旧有不少视频编辑软件可以读取和生成这种格式。但毕竟廉颇老矣，这种格式已经被无情的淘汰。

2、载歌载舞的AVI

AVI——Audio Video Interleave，即音频视频交叉存取格式。1992年初Microsoft公司推出了AVI

技术及其应用软件VFW（Video for Windows）。在AVI文件中，运动图像和伴音数据是以交织的方式存储，并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。AVI文件用的是AVI RIFF形式，AVI RIFF形式由字串“AVI”标识。所有的AVI文件都包括两个必须的LIST块。这些块定义了流和数据流的格式。AVI文件可能还包括一个索引块。

只要遵循这个标准，任何视频编码方案都可以使用在AVI文件中。这意味着AVI有着非常好的扩充性。这个规范由于是由微软制定，因此微软全系列的软件包括编程工具VB、VC都提供了最直接的支持，因此更加奠定了AVI在PC上的视频霸主地位。由于AVI本身的开放性，获得了众多编码技术研发商的支持，不同的编码使得AVI不断被完善，现在几乎所有运行在PC上的通用视频编辑系统，都是以支持AVI为主的。AVI 的出现宣告了PC上哑片时代的结束，不断完善的AVI格式代表了多媒体在PC上的兴起。

说到AVI就不能不提起英特尔公司的Indeo video系列编码，Indeo编码技术是一款用于PC视频的高性能的、纯软件的视频压缩/解压解决方案。Indeo音频软件能提供高质量的压缩音频，可用于互联网、企业内部网和多媒体应用方案等。它既能进行音乐压缩也能进行声音压缩，压缩比可达8:1而没有明显的质量损失。Indeo技术能帮助您构建内容更丰富的多媒体网站。目前被广泛用于动态效果演示、游戏过场动画、非线性素材保存等用途，是目前使用最广泛的一种AVI编码技术。现在Indeo编码技术及其相关软件产品已经被Ligos Technology 公司收购。随着MPEG的崛起，Indeo面临着极大的挑战。

3、容量与质量兼顾的MPEG系列编码

和AVI相反，MPEG不是简单的一种文件格式，而是编码方案。

MPEG-1（标准代号ISO/IEC11172）制定于1991年底，处理的是标准图像交换格式（standard interchange format，SIF）或者称为源输入格式（Source Input Format，SIF）的多媒体流。是针对1.5Mbps以下数据传输率的数字存储媒质运动图像及其伴音编码（MPEG-1 Audio,标准代号ISO/IEC 11172-3）的国际标准,

伴音标准后来衍生为今天的MP3编码方案。MPEG-1规范了PAL制（352*288，25帧/S）和NTSC制（为352*240，30帧/S）模式下的流量标准，提供了相当于家用录象系统（VHS）的影音质量，此时视频数据传输率被压缩至1.15Mbps,其视频压缩率为26∶1。使用MPEG-1的压缩算法，可以把一部120分钟长的多媒体流压缩到1.2GB左右大小。常见的VCD就是MPEG-1编码创造的杰作。MPEG-1编码也不一定要按PAL/NTSC规范的标准运行，你可以自由设定影像尺寸和音视频流量。随着光头拾取精度的提高，有人把光盘的信息密度加大，并适度降低音频流流量，于是出现了只要一张光盘就存放一部电影的DVCD。DVCD碟其实是一种没有行业标准，没有国家标准，更谈不上是国际标准的音像产品。

当VCD开始向市场普及时，电脑正好进入了486时代，当年不少朋友都梦想拥有一块硬解压卡，来实现在PC上看VCD的夙愿，今天回过头来看看，觉得真有点不可思议，但当时的现状就是486的系统不借助硬解压是无法流畅播放VCD的，上万元的486系统都无法流畅播放的MPEG-1被打上了贵族的标志。随着奔腾的发布，PC开始奔腾起来，直到后来Windows Media Player也直接提供了MPEG-1的支持，至此MPEG-1使用在PC上已经完全无障碍了。

MPEG-2（标准代号IOS/IEC13818）于1994年发布国际标准草案（DIS），在视频编码算法上基本和MPEG-1相同，只是有了一些小小的改良，例如增加隔行扫描电视的编码。它追求的是大流量下的更高质量的运动图象及其伴音效果。MPEG-2的视频质量看齐PAL或NTSC的广播级质量，事实上MPEG-1也可以做到相似效果，MPEG-2更多的改进来自音频部分的编码。目前最常见的MPEG-2相关产品就是DVD了，SVCD也是采用的MPEG-2的编码。MPEG-2还有一个更重要的用处，就是让传统的电视机和电视广播系统往数码的方向发展。

MPEG-3最初为HDTV制定，由于MPEG-2的快速发展，MPEG-3还未彻底完成便宣告淘汰。

MPEG-4于1998年公布，和MPEG-2所针对的不同，MPEG-4追求的不是高品质而是高压缩率以及适用于网络的交互能力。MPEG-4提供了非常惊人的压缩率，如果以VCD画质为标准，MPEG-4可以把120分钟的多媒体流压缩至300M。MPEG-4标准主要应用于视像电话(Video Phone)，视像电子邮件(Video Email)和电子新闻(Electronic News)等，其传输速率要求较低，在4800-64000bits/sec之间，分辨率为176X144。MPEG-4利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最少的数据获得最佳的图象质量。

MJPEG，这并不是专门为PC准备的，而是为专业级甚至广播级的视频采集与在设备端回放的准备的，所以MJPEG包含了为传统模拟电视优化的隔行扫描电视的算法，如果在PC上播放MJPEG编码的文件，效果会很难看（如果你的显卡不支持MJPEG的动态补偿），但一旦输出到电视机端，你立刻会发现这种算法的好处。

4、属于网络的流媒体

RealNetworks RealVideo，采用的是 RealNetworks 公司自己开发的 Real G2 Codec，它具有很多先进的设计，例如，SVT （Scalable Video Technology）；双向编码（Two—Encoding，类似于VBR）。RealMedia 音频部分采用的是 RealAudio ，可以接纳很多音频编码方案，可实现声音在单声道、立体声音乐不同速率下的压缩。最新的RealAudio竟然采用ATRAC3编码方案，以挑战日益成熟的MP3。

Windows Media，视频编码采用的是非常先进的 MPEG-4 视频压缩技术，被称作 Microsoft MPEG-4 Video Codec，音频编码采用的是微软自行开发的一种编码方案，目前没有公布技术资料，在低流量下提供

了令人满意的音质和画质。最新的Windows Media Encoding Utility V8.0将流技术推向到一个新的高度，我们常见的ASF、WMV、WMA就是微软的流媒体文件。

事实上我们常见的MPG文件，也具有流媒体的最大特征——边读边放。

二、常见的编码与常见的文件格式的对应关系及其常用用途

1、Audodesk FLC

这是一种古老的编码方案，常见的文件后缀为FLC和FLI。由于FLC仅仅支持256色的调色板，因此它会在编码过程中尽量使用抖动算法（也可以设置不抖动），以模拟真彩的效果。这种算法在色彩值差距不是很大的情况下几乎可以达到乱真的地步，例如红色A（R:255,G:0,B:0）到红色B（R:255,G:128,B:0）之间的抖动。这种格式现在已经很少被采用了，但当年很多这种格式被保留下来，这种格式在保存标准256色调色板或者自定义256色调色板是是无损的，这种格式可以清晰到像素，非常适合保存线框动画，例如CAD模型演示。现在这种格式很少见了。

2、Microsoft RLE

这是微软开发为AVI格式开发的一种编码，文件扩展名为AVI，使用了RLE压缩算法，这是一种无损的压缩算法，我们常见的tga格式的图像文件就使用了RLE算法。

什么是RLE算法呢？这是一种很简单的算法，举一个很简单的例子：

假设一个图像的像素色彩值是这样排列的：红红红红红红红红红红红红蓝蓝蓝蓝蓝蓝绿绿绿绿，经过RLE压缩后就成为了：红12蓝6绿4。这样既保证了压缩的可行性，而且不会有损失。而且可以看到，但颜色数越少时，压缩效率会更高。由于Microsoft RLE仅仅支持256色，而且没有抖动算法，在色彩处理方面，FLC明显的比Microsoft RLE要好很多。当然这也不表示Microsoft RLE一无是处，和FLC一样，Microsoft RLE在处理相邻像素时也没有色染，可以清晰的表现网格。因此同样可以优秀的表现单色字体和线条。只要色彩不是很复杂，FLC能做的，Microsoft RLE也可以做到。由于AVI可以拥有一个音频流，而且Windows系统给与了直接的支持，Microsoft RLE最常用的用途是，在256色显示模式下，通过配合抓屏生成AVI的工具制作一个软件的操作演示过程，以达到图文并茂，形声兼备的效果。

3、Microsoft Video1

这也是由微软提供的一个AVI编码，任何Windows系统都自带了了它的Codec，这个编码支持真彩，画面质量很不错，Microsoft Video1的压缩效率非常低下，编码后的文件庞大得让人受不了。这个Microsoft Video1究竟有什么用呢？一般被用在保存一些没有渐变的小型视频素材方面。

4、Indeo video R3.2

这个编码由intel架构实验室开发，对应的文件格式是AVI，相对之前的流行的编码，Indeo video R3.2最大的特点就是高压缩比（当然，比起现在的压缩方案，实在是不值得一提），intel声称压缩比可达8:1

而没有明显的质量损失，解码速度也非常快，对系统要求不高，由于Windows9X中自带Indeo video R3.2的Codec，所以Indeo video R3.2一度成为了最流行的AVI编码方案。有不少游戏的过场动画和启动动画都是Indeo video R3.2编码的。Indeo video R3.2同样不适合高要求的环境，在要表现细线条或大色彩值变化的渐变时，Indeo video R3.2会表现得非常糟糕。如果画面的色彩值差异不是很大，也没有明显的色彩区域界限，Indeo video R3.2还是合适的，例如海天一色的场景。Indeo video R3.2已经基本被淘汰，如果不是为了播放以前遗留的一些Indeo video R3.2编码视频，恐怕Windows ME/2000都不会有Indeo video R3.2的Codec了。

5、Indeo video 5.10

这个编码方案同样也是intel架构实验室开发的，它继承了Indeo video R3.2的优点，对应的文件格式仍然是AVI，解码速度同样非常快。Windows ME/2000自带了Indeo video 5.1的Codec，很多游戏也适用Indeo video 5.10来编码自己的演示动画。在没有DivX普及前，这几乎是最流行的AVI编码了，由于微软和intel的同时支持，这种编码方案被广泛采用。

6、None

顾名思义，这是一个没有损失的视频编码方案，对应的文件扩展名为AVI。这种编码几乎是不压缩的，文件大得惊人！那么这种编码有什么用途呢？用途就是保存视频素材，因为是无损的，保存素材非常合适，代价就是大量的存储空间。

7、MPEG1

我们熟知的VCD就是MPEG1编码的，对应的文件扩展名为MPG、MPEG或者DAT。事实上MPEG1可以工作于非PAL制和非NTSC制标准下。它可以自由设置数据流量和画面尺寸，只是这样非标准的文件无法直接刻录成VCD。

8、MPEG2

DVD的视频部分就是采用的MPEG2，SVCD同样也采用了MPEG2编码。对应的文件扩展名一般为VOB、MPG。MPEG2的设计目标就是提供接近广播级的高品质输出。

9、DivX

DivX是近2年开始被大家认识的，DivX 视频编码技术可以说是一种对 DVD 造成威胁的新生视频压缩格式（有人说它是 DVD 杀手）对应的文件扩展名为AVI或者DivX，它由 Microsoft mpeg-4v3 修改而来，使用 MPEG-4 压缩算法。据说是美国禁止出口的编码技术。DivX最大的特点就是高压缩比和不错的画质，更可贵的是，DivX的对系统要求也不高，只要主频300的CPU就基本可以很流畅的播放了，因此从DivX

诞生起，立刻吸引了大家的注意力。DivX拥有比Indeo video 5.10高太多的压缩效率，编码质量也远远比Indeo video 5.10好，我实在想不出Indeo video 5.10还会有什么前途。

10、PICVideo MJPEG

MJPEG是很多视频卡支持的一种视频编码，随卡提供了Codec，安装完成后可以象使用其它编码一样生成AVI文件。MJPEG编码常用于非线性系统，批上了一层很专业的外衣。MJPEG的编码质量是相当高的，是一种以质量为最高要求的编码，这种编码的设置比较复杂，可以得到很高的压缩比，但牺牲了解码速度，如果要保证解码速度，编码后的压缩比确不是很理想，如果您希望从专业的非线性系统上捕捉视频，然后自行进行处理，这种格式是很有必要去了解一些的。

11、RealNetworks RealVideo

REAL VIDEO（RA、RAM）格式由Real Networks公司开发的，一开始就定位在视频流应用方面的，也可以说是视频流技术的始创者。它可以在用 56K MODEM 拨号上网的条件实现不间断的视频播放。从RealVideo 的定位来看，就是牺牲画面质量来换取可连续观看性。其实RealVideo也可以实现不错的画面质量，由于RealVideo可以拥有非常高的压缩效率，很多人把VCD编码成RealVideo格式的，这样一来，一张光盘上可以存放好几部电影。REAL VIDEO存在颜色还原不准确的问题，RealVideo就不太适合专业的场合，但RealVideo出色的压缩效率和支持流式播放的特征，使得RealVideo在网络和娱乐场合占有不错的市场份额。

12、Windows Media video

Windows Media video就是微软为了和现在的Real Networks的RealVideo竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式！由于它使用了MPEG4的压缩算法，所以压缩率和图像的质量都很不错。我们经常看到的ASF和WMV就是Windows Media video。Windows Media video的编码质量明显好于RealVideo，因为Windows Media video是微软的杰作，所以Windows系统给Windows Media video 给与了很好的支持，Windows Media Player可以直接播放这些文件。

三、有关音频编码

自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM 通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

1、什么是采样率和采样大小（位/bit）？

声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦

线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

2、有损和无损

根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3

列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。

3、为什么要使用音频压缩技术

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。有一点是可以肯定的，他们都压缩过。

4、频率与采样率的关系

采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信

号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

5、流特征

随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实。

四、各种主流音频编码（或格式）的介绍

1、PCM编码

PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM 编码，一张光盘的容量只能容纳72分钟的音乐信息。

2、WAVE

这是一种古老的音频文件格式，由微软开发。WAV是一种文件格式，符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念，我们拿AVI做个示范，因为AVI和WAV在文件结构上是非常相似的，不过AVI多了一个视频流而已。我们接触到的AVI有很多种，因此我们经常需要安装一些Decode才能观看一些AVI，我们接触到比较多的DivX就是一种视频编码，AVI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的Decode，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

3、 MP3编码

请参阅 MP3全攻略一文

4、OGG编码

网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案！OGG的信念就是：OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。

Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质！Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件（目前这种软件还没有）的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR。

5、MPC 编码

MPC是又是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

6、mp3PRO 编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音

质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

7、WMA

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

8、RA

RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

9、APE

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。

常见的视频编码详解

常见的视频编码详解 A VI所采用的压缩算法并无统一的标准。也就是说，同样是以A VI为后缀的视频文件，其采用的压缩算法可能不同，需要相应的解压软件才能识别和回放该A VI文件。除了Microsoft 公司之外，其他公司也推出了自己的压缩算法，只要把该算法的驱动(Codec)加到Windows 系统中，就可以播放用该算法压缩的A VI文件。最新流行的MPEG-4视频也借用A VI的名称，只要机器安装了它的编码解码，也能够实现正常的播放。这些A VI都能够在用Authorware 或PowerPiont开发的作品当中正常放映。各种编码Codec所生成的A VI文件的大小和质量是不同的，对系统和硬件要求也不同。因此在压缩A VI时，必须根据计算机的软硬件情况，来考虑采用什么Codec算法，否则你的作品中视频放映是难以令人满意的。下面就是对各种常见编码解码Codec的说明。常见的视频编码 1、Cinepak Codec by Radius 它最初发布的时候是用在386的电脑上看小电影，在高数据压缩率下，有很高的播放速度。利用这种压缩方案可以取得较高的压缩比和较快的回放速度，但是它的压缩时间相对较长。 2、Microsoft Video 1 用于对模拟视频进行压缩，是一种有损压缩方案，最高仅达到256色，它的品质就可想而知，一般还是不要使用它来编码A VI。 3、Microsoft RLE 一种8位的编码方式，只能支持到256色。压缩动画或者是计算机合成的图像等具有大面积色块的素材可以使用它来编码，是一种无损压缩方案。 4、Microsoft H.261和H.263 Video Codec 用于视频会议的Codec，其中H.261适用于ISDN、DDN线路，H.263适用于局域网，不过一般机器上这种Codec是用来播放的，不能用于编码。 5、Intel Indeo Video R3.2 所有的Windows版本都能用Indeo video 3.2播放A VI编码。它压缩率比Cinepak大，但需要回放的计算机要比Cinepak的快。 6、Intel Indeo Video 4和5

7种常见的音频格式简析

7种常见的音频格式简析（MP3，WMA，WAV，APE，FLAC，OGG，AAC） MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer Ⅲ），是当今最为流行的一种数字音频编码和有损压缩格式，在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量，而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。简单地说，MP3就是一种音频压缩技术，由于这种压缩方式的全称叫MPEG Audio Layer3，所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术，将音乐以1:10 甚至1:12 的压缩率，压缩成容量较小的文件。换句话说，能够在音质丢失很小的情况下把文件压缩到更小的程度，而且还可以较好的保持了原来的音质。另外，正是因为MP3体积小，音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小，这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩（解码），这样，高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式，它丢弃掉脉冲编码调制（PCM）音频数据中对人类听觉不重要的数据（类似于JPEG是一个有损图像压缩），从而达到了小得多的文件大小（其在较大的压缩率以及基本保持低音频部分不失真的情况下，以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件）。 MP3音频可以按照不同的位速进行压缩，提供了在数据大小和声音质量之间进行权衡的一个范围。另外，MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如，我们平时在网上见到的一些低质的MP3有64kbps，但好的也有320kbps的，两者声音差距也相当明显。 WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名，一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密，未经许可（即未获得许可证书），即使是非法拷贝到本地，也是无法收听的。同时，微软公司开始时宣称的：同文件比MP3体积小一倍而音质不变，也得到了兑现。事实上，这个说法，仅仅适用于低比特率的情况，另外，微软公司在WMA 9大幅改进了其引擎，实际上几乎可以在同文件同音质下比MP3体积少1/3左右，因此非常适合用于网络串流媒体及行

几种常见的工程材料编码方式对比分析与实践

数字化协同设计对智能油气田建设的支持宋光红1陈亮2成岩3 （1.中国石油工程建设有限公司西南分公司；2.中国石油西南油气田分公司蜀南气矿；3. 鹰图中国）摘要材料编码是工程建设项目开展精细化管理的重要基础工作。本文分析了材料编码工作的意义与编码要素，对国际上常用的编码结构和物资材料管理软件进行了介绍，以及对我公司将集团ERP系统物资分类码应用于企业级材料编码的方案进行的说明，供业内学习和参考。关键词ERM 材料编码编码原则编码结构材料管理5497 0 引言随着石油天然气化工项目信息化建设的不断深入发展，工程设计普遍采用三维设计软件。随着软件技术的进步，以及工程项目信息化管理的需要，以管道安装设计为主要目标的传统三维设计逐步向多专业的三维协同设计方向发展，实现多专业设计成果输出，同时形成了工程项目完整的虚拟资产模型【1】。无论是传统的三维设计，还是三维协同设计，均是以材料数据库为基础，驱动三维建模，并为工程建设提供全流程数据支持。采用专业的材料管理软件，对多专业三维材料数据库进行编码，并进行材料管理，能有效提高物资材料的管理质量和效率，并能有效节约项目建设成本【2】。 1材料编码及意义材料编码也称物资编码，通过一串简短的数字、字母、符号来代替材料的名称和其他属性。通过对材料进行编码，能确保材料进入材料数据库后具有唯一性【3】。以材料编码为基础建立的材料数据库，可以驱动产生带材料编码的工程物资材料清单，以便于在项目建设过程中通过以编码为材料的唯一标识来进行物资材料的计算机管理。通过对工程材料进行统一编码，可以在工程设计阶段加强专业设计与材料控制之间的协调性，更能促进项目全生命周期内设计、采购、施工、成本管理的有效沟通，进而实现规范法、一体化、精细化材料管理的目标【4】；同时，还能够整合、集成公司的知识和经验，形成高水平的公司级信息资源库和知识资产，并形成一个优良的信息资源和知识生长机制与平台，不断提升全公司的工作质量、水平和效率。

各种主流音频编码格式介绍

一、PCM编码 PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。二、W A VE 这是一种古老的音频文件格式，由微软开发。W A V是一种文件格式，符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头，这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念，我们拿A VI做个示范，因为A VI和WAV在文件结构上是非常相似的，不过A VI多了一个视频流而已。我们接触到的A VI 有很多种，因此我们经常需要安装一些Decode才能观看一些A VI，我们接触到比较多的DivX 就是一种视频编码，A VI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，W AV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的W A V，但这不表示W A V只能使用PCM编码，MP3编码同样也可以运用在W A V中，和A VI一样，只要安装好了相应的Decode，就可以欣赏这些W A V了。在Windows平台下，基于PCM编码的W A V是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，W A V也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的W A V被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。三、MP3编码 MP3作为目前最为普及的音频压缩格式，为大家所大量接受，各种与MP3相关的软件产品层出不穷，而且更多的硬件产品也开始支持MP3，我们能够买到的VCD/DVD播放机都很多都能够支持MP3，还有更多的便携的MP3播放器等等，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了，他是MPEG（MPEG：Moving Picture Experts Group）Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，在当年硬盘天价的日子里，MP3迅速被用户接受，随着网络的普及，MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。 VBR：MP3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪

音视频编码技术

音视频编码技术报告姓名: 学号：学院(系):电子与信息工程学院专业: 电子与通信工程题目: 基于DCT变换的图像压缩技术的仿真

1.引言在信息世界迅猛发展的今天, 人们对计算机实时处理图像信息的要求越来越高。如何在保证图像质量的前提下, 同时兼顾实时性和高效性成了一个值得关注的问题。于是, 对图像信息进行一定的压缩处理成为了一个不可或缺的环节。图像压缩是关于用最少的数据量来表示尽可能多的原图像的信息的一个过程。本文主要研究基于DCT 变换的有损压缩编码技术。离散余弦变换, 简称DCT , 是一种实数域变换, 其变换核为余弦函数, 计算速度快。DCT 除了具有一般的正交变换性质外, 它的变换阵的基向量能很好地描述人类语音信号和图像信号的相关特征。因此, 在对语音信号、图像信号的变换中,DCT 变换被认为是一种准最佳变换。近年颁布的一系列视频压缩编码的国际标准建议中, 都把DCT 作为其中的一个基本处理模块。而且对于具有一阶马尔柯夫过程的随机信号,DCT 十分接近于Karhunen -Loeve 变换, 也就是说它是一种最佳近似变换。 2.图像压缩编码的简介从信息论的角度看，图像是一个信源。描述信源的数据是信息量和信息量冗余之和。数据压缩实际上就是减少这些冗余量。图像编码压缩的方法目前有很多，其分类方法根据出发点不同而有差异。根据解压重建后的图像和原始图像之间是否具有误差（对原图像的保真程度），图像编码压缩分为无误差（亦称无失真、无损、信息保持）编码和有误差（有失真或有损）编码两大类。无损压缩（冗余度压缩、可逆压缩）：是一种在解码时可以精确地恢复原图像，没有任何损失的编码方法，但是压缩比不大，通常只能获得1~5倍的压缩比。用于要求重建后图像严格地和原始图像保持相同的场合，例如复制、保存十分珍贵的历史、文物图像等。有损压缩（不可逆压缩）：只能对原始图像进行近似的重建，而不能精确复原，适合大数工用于存储数字化了的模拟数据。压缩比大，但有信息损失，本文采用有损压缩。 DCT图像压缩编码可以概括成图2.1的框图。图2.1 DCT压缩编码过程简化 3.DCT变换最小均方误差下得到的最佳正交变化是K-L变换，而离散余弦变换(DCT)是仅次于K-L变换的次最佳变换，目前已获得广泛应用。离散预先变换DCT用于图像压缩操作中的基本思路是，将图像分为8×8的子块或16×16的子块，并对每一个子块进行单独的DCT变换，然后对变换结果进行量化、编码。

音视频技术基本知识一

https://www.doczj.com/doc/ff5115459.html, 音视频技术基本知识一网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云总结网络上的知识，与大家分享一下音视频技术基本知识。与画质、音质等有关的术语这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。在音频中，1M以上比特率的音乐一般只能在正版CD中找到，500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式，一般的MP3是在96K到320K之间。目前，对大多数人而言，对一般人而言192K就足够了。在视频中，蓝光高清的比特率一般在40M以上，DVD一般在5M以上，VCD一般是在1M 以上。（这些均是指正版原盘，即未经视频压缩的版本）。常见的视频文件中，1080P的码率一般在2到5M之间，720P的一般在1到3M，其他分辨率的多在一M一下。视频文件的比特率与帧大小、帧速率直接相关，一般帧越大、速率越高，比特率也就越大。当然某些转换器也可以强制调低比特率，但这样一般都会导致画面失真，如产生色块、色位不正、出现锯齿等情况。

常见的几种高清视频编码格式

高清视频的编码格式有五种，即H.264、MPEG-4、MPEG-2、WMA-HD以及VC-1。事实上，现在网络上流传的高清视频主要以两类文件的方式存在：一类是经过MPEG-2标准压缩，以tp和ts为后缀的视频流文件；一类是经过WMV-HD(Windows Media Video High Definition)标准压缩过的wmv文件，还有少数文件后缀为avi或mpg，其性质与wmv是一样的。真正效果好的高清视频更多地以H.264与VC-1这两种主流的编码格式流传。 H.264编码 H.264编码高清视频 H.264是由国际电信联盟(iTU-T)所制定的新一代的视频压缩格式。H.264 最具价值的部分是更高的数据压缩比，在同等的图像质量，H.264的数据压缩比能比当前DVD系统中使用的 MPEG-2高2～3倍，比MPEG-4高1.5～2倍。正因为如此，经过H.264压缩的视频数据，在网络传输过程中所需要的带宽更少，也更加经济。在 MPEG-2需要6Mbps的传输速率匹配时，H.264只需要1Mbps～2Mbps 的传输速率，目前H.264已经获得DVD Forum与Blu-ray Disc Association采纳，成为新一代HD DVD的标准，不过H.264解码算法更复杂，计算要求比WMA-HD 还要高。从ATI的Radeon X1000系列显卡、NVIDIA的GeForce 6/7系列显卡开始，它们均加入对H.264硬解码的支持。与MPEG-4一样，经过H.264压缩的视频文件一般也是采用avi 作为其后缀名，同样不容易辨认，只能通过解码器来自己识别。总的来说，常见的几种高清视频编码格式的特点是能够以更低的码率得到更高的画质，相同效果的MPEG2与H.264影片做比较，后者在容量上仅需前者的一半左右。这也就意味着，H.264不仅能够节省HDTV的存储空间，而且还可以

视频监控常见编码格式

视频监控常见的视频编码格式： CIF、QCIF、4CIF、D1、MPEG-4、H.264、M-JPEG等。备注： 1.NTSC和PAL属于全球两大主要的电视广播制式，但是由于系统投射颜色影像的频率不一样而有所不同。 NTSC是National Television Standards Committee的缩写，意思是“（美国）国家电视标准委员会”。NTSC负责开发一套美国标准电视广播传输和接收协议。此外还有两套标准：逐行倒相（PAL）和顺序与存色彩电视系统（SECAM），用于世界上其他的国家。NTSC标准从他们产生以来除了增加了色彩信号的新参数之外没有太大的变化。NTSC信号是不能直接兼容于计算机系统的。其标准主要应用于日本、美国，加拿大、墨西哥等等。 PAL是Phase Alternating Line (逐行倒相)的缩写。它是西德在1962年制定的彩色电视广播标准，它采用逐行倒相正交平衡调幅的技术方法，克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家，新加坡、中国大陆及香港，澳大利亚、新西兰等国家采用这种制式。

NTSC电视标准：每秒29.97帧（简化为30帧），电视扫描线为525线，偶场在前，奇场在后，标准的数字化NTSC电视标准分辨率为720*480像素, 24比特的色彩位深，画面的宽高比为4：3。NTSC电视标准用于美、日等国家和地区。场频为每秒60场，帧频为每秒30帧，扫描线为525行。 PAL电视标准：PAL电视标准，每秒25帧，电视扫描线为625线，奇场在前，偶场在后，标准的数字化PAL电视标准分辨率为720*576, 24比特的色彩位深，画面的宽高比为4：3, PAL 电视标准用于中国、欧洲等国家和地区，PAL制电视的供电频率为50Hz，场频为每秒50场，帧频为每秒25帧，扫描线为625行，图像信号带宽分别为4.2MHz、5.5MHz、5.6MHz等。 2.目前监控行业中主要适用QCIF（176 x 144）、CIF（352 x 288）、HALF D1（704 x 288）、D1（704 x 576）等几种分辨率。针对安防行业的网络摄像机主要生产厂家，采用最多的编码方案是MPEG-4和M-JPEG，采用H.264的也越来越多。标清监控中用得最多的是D1路式。 3.H.264和MPEG-4由于能够在低带宽下传送高质量的图像，目前在电信全球眼业务和网通宽世界业务的视频码流格式被采用，尤其是H.264。 4.所谓标清，是物理分辨率在720p（1280*720）以下的一种视频格式。而物理分辨率达到720p以上则称作为高清（High Definition），简称HD。所谓全高清（FULL HD），是指物理分辨率高达1920 x 1080显示（包括1080i和1080P），其中i（interlace）是指隔行扫描；P （Progressive）代表逐行扫描，这两者在画面的精细度上有着很大的差别，1080P的画质要胜过1080i。对应地把720称为准高清。很显然，由于在传输的过程中数据信息更加丰富，所以1080在分辨率上更有优势，尤其在大屏幕电视方面，1080能确保更清晰的画质。

MP3编码格式

MP3 编码格式 MP3是MPEG-1 Audio Layer 3的简称，是当今比较流行的一种数字音频编码和有损压缩格式（有Layer 3，也必然有Layer1和Layer2，也就是MP1和MP2，但不在本文讨论范围之内）。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制（PCM）音频数据中对人类听觉不重要得数据，从而达到了较高的压缩比（高达12：1－10：1）。简单地说，MP3在编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成有较高压缩比的MP3文件，并使压缩后的文件在回放时也能够达到比较接近原音源的效果。 MP3的音频质量取决于它的Bitrate和Sampling frequency，以及编码器质量。MP3的典型速度介于每秒128到320kb之间。采样频率也有44.1，48和32 kHz三种频率，比较常见的是采用CD采样频率——44.1kHz。常用的编码器是LAME，它完全遵循LGPL的MP3编码器，有着良好的速度和音质。一．概述： MP3 文件是由帧(frame)构成的，帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频文件，MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组，特指活动影音压缩标准，MPEG 音频文件是MPEG1 标准中的声音部分，也叫MPEG 音频层，它根据压缩质量和编码复杂程度划分为三层，即 Layer-1、Layer2、Layer3，且分别对应MP1、MP2、MP3 这三种声音文件，并根据不同的用途，使用不同层次的编码。MPEG 音频编码的层次越高，编码器越复杂，压缩率也越高，MP1 和MP2 的压缩率分别为4：1 和 6：1-8：1，而MP3 的压缩率则高达10：1-12：1，也就是说，一分钟CD 音质的音乐，未经压缩需要10MB 的存储空间，而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3采取了“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3 文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。二．整个MP3文件结构： MP3 文件大体分为三部分：TAG_V2(ID3V2)，Frame, TAG_V1(ID3V1) ID3V2 包含了作者，作曲，专辑等信息，长度不固定，扩展了ID3V1 的信息量。 Frame 一系列的帧，个数由文件大小和帧长决定

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

数字音视频编解码技术标准工作组

数字音视频编解码技术标准工作组 A VS Mxxxx: 201X年XX月来源: 包括作者、单位名称等与创作者相关的信息标题: 状态: 描述文件的版本或其他需要说明的信息，例如视频提案、DRM信息等 ___________________________________________________ 正文中国数字音视频编解码技术标准工作组会员提案专利披露与许可承诺表根据《中国数字音视频编解码技术标准工作组知识产权政策》第十四、十五、十六条等相关规定，A VS会员在向工作组各专题组提交技术提案时应填写本《会员提案专利披露与许可承诺表》，作为该提案的必要组成部分同时提交。专题组名称：音频□视频□系统□DRM□ 提案A VS文档编号：_ 提案日期：________ 提案标题：提案会员名称：_ 提案代表姓名（印刷体）：Email：提案代表通讯地址：邮编电话：______ __ 传真：__ ______________________ 提案会员应当通过选中表A或者通过选中并填写表B相关部分完成此表。表C可以自愿填写。下列表格均可根据实际需要增加表格行。表A: 提案会员在其实际知晓的范围内已获知本提案不涉及提案会员和他人的专利、专利申请和专利计划。□ 表B-1: 在中华人民共和国已获得授权的专利和/或已公开的专利申请□ 如果本提案中包含提案会员或其关联者在中华人民共和国已获得授权的专利和/或已公开的专利申请，提案会员应当填写下表：表B-2: 在中华人民共和国未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的未公

几种常见音频视频音乐文件格式

几种常见音频视频音乐文件格式 1、.wmv WMV是微软推出的一种流媒体格式，它是在“同门”的ASF（Advanced Stream Format）格式升级延伸来得。在同等视频质量下，WMV格式的体积非常小，因此很适合在网上播放和传输。AVI文件将视频和音频封装在一个文件里，并且允许音频同步于视频播放。与DV D视频格式类似，AVI文件支持多视频流和音频流。WMV 不是仅仅基于微软公司的自有技术开发的。从第七版（WMV1）开始，微软公司开始使用它自己非标准MPEG-4 Par t 2。但是，由于WMV第九版已经是SMPTE的一个独立标准（421M，也称为VC-1），有理由相信WMV的发展已经不象MPEG-4那样是一个它自己专有的编解码技术。现在VC-1专利共享的企业有16家（2006年4月），微软公司也是MPEG-4 AVC/H.264专利共享企业中的一家。微软的WMV还是很有影响力的。可是由于微软本身的局限性其WMV 的应用发展并不顺利。第一, WM9是微软的产品它必定要依赖着Windows，Windows 意味着解码部分也要有PC，起码要有PC机的主板。这就大大增加了机顶盒的造价，从而影响了视频广播点播的普及。第二，WMV技术的视频传输延迟非常大，通常要10几秒钟，正是由于这种局限性，目前WMV也仅限于在计算机上浏览WM9视频文件。WMV-HD是由软件业的巨头微软公司所创立的一种视频压缩格式，一般采用.wmv为文件后缀名。其压缩率甚至高于MPEG-2标准，同样是2小时的HDTV节目，如果使用MPEG-2最多只能压缩至30GB，而使用WMV-HD这样的高压缩率编码器，在画质丝毫不降的前提下都可压缩到15GB以下。WMV-HD，基于WMV9标准，是微软开发的视频压缩技术系列中的最新版本，尽管WMV-HD是微软的独有标准，但因其在操作系统中大力支持WMV系列版本，从而在桌面系统得以迅速普及。在性能上，WMV-HD的数据压缩率与H.264一样，两者的应用领域也极其相似，因此在新一代主流视频编码标准霸主地位的争夺之中，双方展开了针锋相对的斗争，而斗争的焦点集中在下一代光盘规格“HD DVD”和数字微波广播电视等领域。一般采用.wmv为后缀的HDTV文件就是采用的WMV-HD压缩的。目前DVD论坛已经初步批准将MPEG-2、H.264和微软的WMA-HD作为下一代DVD即HD－DVD技术的强制执行标准。 2、.MOV MOV即QuickTime影片格式，它是Apple公司开发的音频、视频文件格式，用于存储常用数字媒体类型，如音频和视频。当选择QuickTime （*.mov）作为“保存类型”时，动画将保存为.mov 文件. 用格式工厂1.90可以转换 3、.mpeg MPEG1 MPEG1格式即我们通常所说的VCD视频格式。它可针对SIF标准分辨率的图像进行压缩，视频速度每秒可播放30帧，具有画质好、音质接近于CD等优点，不过对解码芯片的运算能力有较高要求。

音频编码及常用格式

音频编码及常用格式音频编码标准发展现状国际电信联盟（ITU）主要负责研究和制定与通信相关的标准，作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成，并广泛应用于全球的电话通信系统之中。目前，随着Internet网络及其应用的快速发展，在2005到2008研究期内，ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器（相应于64Kb/s的比特率）。该量化器所采用的技术在1972年由CCITT （ITU-T的前身）标准化为G.711。在1983年，CCIT规定了32Kb/s的语音编码标准G.721，其目标是在通用电话网络上的应用（标准修正后称为G.726）。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准，在欧洲，TCH-HS是欧洲电信标准研究所（ETSI）的一部分，由他们负责制定数字蜂窝标准。在北美，这项工作是由电信工业联盟（TIA）负责执行。在日本，由无线系统开发和研究中心（称为RCR）组织这些标准化的工作。此外，国际海事卫星协会（Inmarsat）是管理地球上同步通信卫星的组织，也已经制定了一系列的卫星电话应用标准。音频编码标准发展现状音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高，有的立体声形式已经不能满足听众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案：MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案，它是MPEG2音频编码的核心，是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法，一种称为MPEG2后向兼容多声道音频编码标准，简称MPEG2BC；另一种是称为高级音频编码标准，简称MPEG2AAC，因为它与MPEG1不兼容，也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用，它具有高度的灵活性和可扩展性。与以前的音频标准相比，MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起，并在诸多领域内给予高度的灵活性。

音视频的编码解码

编码：编码和文件格式（也称容器）是什么？文件（即容器）是既包括了视频、又包括音频、甚至还带有一些脚本的集合；文件中视频和音频的压缩算法才是真正的编码；对于一种文件，它的视频和音频可以分别采用不同的编码。 1.什么是视频编码？所谓视频编码就是通过特定的压缩技术，将某个视频格式的文件转换成另外一种视频格式文件的方法。视频编码的主要功能是完成图像的压缩，使数字电视信号的传输量由1Gbit/s（针对1920x1080显示格式）减少为20-30Mbit/s。 2.什么是音频编码？自然界中的声音以及波形都非常复杂，声音其实也是一种能量波，它有频率和振幅；其中频率所对应的是时间轴线，振幅对应的是电平轴线。波是无限光滑的，弦线可看成由无数点组成。音频编码主要是完成对声音信息的压缩。声音信号数字化后，信息量比模拟传输状态大很多，不能像模拟电视声音那样直接传输；因而需要对声音多一道压缩编码工序，即为音频编码。 1.视频编码原理简介视频编码主要是对图像进行有效的压缩。原始视频图像数据中包含大量的冗余信息视频编码主要采取块运动估计和运动补偿技术有效的去除图像帧间冗余度，来压缩码率和带宽，实现信号有效传输的目的。 2.音频编码的原理简介我们需要通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字信号。抽样就是在时间上将模拟信号离散化。量化是用有限个幅度值近似原来连续变化的幅度值，把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。编码就是按一定的规律把量化后的值用二进制数字表示，然后转换成二值或多值得数字信号流。通常我们采用PCM编码，其主要过程是将话音、图像等模拟信号每隔一段时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，并将抽样值按一组二进制码来表示抽样脉冲的幅值。目前常见的几种视频编码技术方案： 1）MPEG-2 MPEG-2图像压缩的原理是主要利用了图像中的两种特性：空间相关性和时间相关性.另外它综合采用了运动补偿的帧间预测、空间域离散余弦变换、自适应量化和可变长编码的混合编码。同时它开始用半像素精度运动矢量搜索，引入了“帧”和“场”的编码方法，和MPEG-1向下兼容；主要针对存储媒体、数字电视、高清晰等应用领域，分辨率为：低（352*288）中（720*480）次高（1440*1080）高（1920*1080）。 2）MPEG-4 采用基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。实现了从基于像素的传统编码向基于对象和内容的现代编码的转变。主要特点是支持交互性、高压缩比及能用存储性； 3）Windows Media Video 采用了MPEG4的压缩算法，所以压缩率和图像的质量都很不错，由于Windows Media

音视频编码文档

音视频编码说明 1音视频编码参数 1.1音频编码参数音频编码格式采用AAC格式，其参数设置比较简单，主要设置参数如下：（1）音频样本格式的设置 c->sample_fmt = AV_SAMPLE_FMT_S16; sample_fmt是一个enum类型，包含了多种样本格式，样本格式的设置应保持与Android应用层音频采样格式一致。此处，我们设置为AV_SAMPLE_FMT_S16，Android应用层采样格式也是16位的 ENCODING_PCM_16BIT格式。（2）音频码率设置 c->bit_rate = 64000; 此参数为应用层提供参数接口，由应用层根据编码效果来设定。此处参考值为64000。（3）音频采样率设置 c->sample_rate = 44100; 此参数为应用层提供参数接口，由应用层获取实际机型可用的采样率来决定。采样率越低，音频效果越差，反之，越好。音频采样率一般有8000,44100, 47250, 48000, 47250,32000, 11025, 16000,

22050等值，此处参考值为44100HZ，现在基本所有机器都支持44100采样，而且音频效果也很好。（4）音频通道设置 c->channels = 2; 此参数为应用层提供参数接口，根据应用层需求来设置。当设置1时为单声道模式，设置2时为立体声道模式。此处参考值为2. 1.2视频编码参数视频编码参数相对音频编码参数复杂，其中一些参数关系到视频编码的质量和编码速度，为此需要设置一套最优的参数以确保质量和速度达到一个平衡点。（1）视频编码基本参数设置 <1> DEC_ID_H264; 视频编码格式采用H264格式。 <2> c->width = 480; c->height = 480; width和height两个参数为应用层提供参数接口，根据具体需求来设置编码后视频的大小，即最终视频的width和height。应用层也可以考虑通过调节width和height的大小来改变视频编码的速度，例如480*320的大小比480*480的大小编码速度快很多。此处默认是 480*480大小。 <3> c->time_base.den = 15;

各种音频编码方式的对比

各种音频编码方式的对比内容简介：文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等，包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型：Audio 制定者：ITU-T 所需频宽： Kbps 特性：音源信息完整，但冗余度过大优点：音源信息保存完整,音质好缺点：信息量大，体积大，冗余度过大应用领域：voip 版税方式：Free 备注：在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型：Audio 制定者：微软公司所需频宽：320～112kbps（压缩10～12倍）

特性：当Bitrate小于128K时，WMA几乎在同级别的所有有损编码格式中表现得最出色，但似乎128k 是WMA一个槛，当Bitrate再往上提升时，不会有太多的音质改变。优点：当Bitrate小于128K时，WMA最为出色且编码后得到的音频文件很小。缺点：当Bitrate大于128K时，WMA音质损失过大。WMA标准不开放，由微软掌握。应用领域：voip 版税方式：按个收取备注：WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质，再加上WMA有微软的Windows Media Player做其强大的后盾，所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型：Audio 制定者：ITU-T 所需频宽：32Kbps 特性：ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是： ①利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值； ②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。优点：算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）缺点：声音质量一般应用领域：voip