当前位置：文档之家› MPEG音频文件格式(包括MP3文件格式)详解

MPEG音频文件格式(包括MP3文件格式)详解

MP3 文件是由帧(frame)构成的，帧是MP3 文件最小的组成单位。MP3 的全称应为MPEG1 Layer-3 音频文件，MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组，特指活动影音压缩标准，MPEG 音频文件是MPEG1 标准中的声音部分，也叫MPEG 音频层，它根据压缩质量和编码复杂程度划分为三层，即 Layer-1、Layer2、Layer3，且分别对应MP1、MP2、MP3 这三种声音文件，并根据不同的用途，使用不同层次的编码。MPEG 音频编码的层次越高，编码器越复杂，压缩率也越高，MP1 和MP2 的压缩率分别为4：1 和6：1-8：1，而MP3 的压缩率则高达10：1-12：1，也就是说，一分钟CD 音质的音乐，未经压缩需要10MB的存储空间，而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3 采取了“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3 文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。

一、MPEG音频压缩基础

在众多音频压缩方法中，这些方法在保持声音质量的同时尽量压缩数字音频使之占用更小的存储空间。MPEG压缩是该领域中效果最好的一个。这种压缩是有损压缩，这意味着，当运用这一方法压缩时肯定会丢失一部分音频信息。但是，由于压缩方法的控制很难发现这种损失。使用几个非常复杂和苛刻的数学算法，使得只有原始音频中几乎听不到的部分损失掉。这就给重要的信息剩下了更多的空间。通过这种方法可以将音频压缩12倍（可以选择压缩率），效果显著。正是应为他的质量，MPEG音频变得流行起来。

MPEG-1，MPEG-2和MPEG-4都是人们熟悉的MPEG标准，MP3只涉及到前两中，另外还有一个非官方标准MPEG-2.5用于扩展MPEG-2/LSF到更低的采样率。

MPEG-1音频（ISO/IEC 11172-3）描述了具有如下属性的三层音频编码：

1或2个声道

采样频率为32kHz，44.1kHz或48kHz

位率从32kbps到448kbps

每一层都有自己的优点。

MPEG-2音频（ISO/IEC 13818-3）有两个MPEG-1的扩展，通常叫做MPEG-2/LSF和MPEG-2/Multichannel

MPEG-2/LSF有如下特点：

1或2个声道

采样频率为MPEG-1的一半

波特率从8kbps256kbps

MPEG-2/Mutichannel有如下特点：

多达5个声道和1个LFE-通道（低频增强不是重低音）

同MPEG-1一样的采样频率

5.1的最高波特率可能达到1Mbps

二、MPEG Layer3编/解码的基本原理

音乐CD具有44.1KHz 16Bits 立体声的音频质量，一张CD可以存储74分钟的歌曲(大

约15首左右)。如何将这些歌曲无损或基本无损地进行压缩,以使在同样的媒体上存储更多的歌曲,一直困扰着软件业。当MPEG协会提出MPEG Audio Layer1～Layer3后，机会产生了。通过使用MPEG1 Layer3编码技术，制作者得以用大约12∶1的压缩率记录16KHz带宽的有损音乐信号。不过,同CD原声区别不大。人的听力系统具有非常优越的性能，其动态范围超过96dB。你既可以听到扣子掉在地上这样小的声音，也可以听到波音747的强大的轰鸣声。但当我们站在飞机场听着波音747的轰鸣时,你还能分辨出扣子掉在地上的声音吗？不可能。人的听力系统适应声音的动态变化，人们对这种适应及屏蔽特性音质研究后得出对声音压缩非常有用的理论。人们很早以前就知道利用这种特性来为磁带录音降低噪音了(当没有音乐时嘶嘶声很容易听到，而当音乐信号电平很高时嘶嘶声不容易听到)。当声音较强时产生屏蔽效应。在阈值曲线下的噪音或小信号声音无法被人耳听到。在较强信号出现时，允许通过更多的信号。在此时增加被量化过的小信号数据(使用无用的位来携带更多的信息)可以达到一定程度的压缩的目的。通常情况下,MP3压缩器将原始声音通过FFT(快速傅立叶变换)变化到频域，然后通过一定的算法算出何种频率声音可以携带更多的信息。而在还原时解码器所需要做的仅仅是将其从频域再变换回来。

三、整个MP3文件结构：

MP3文件大体分为三部分：TAG_V2(ID3V2)，Frame, TAG_V1(ID3V1)

四、MPEG音频帧格式

一个MPEG音频文件是许多的称为帧的较小部分组成的，通常，帧是独立的组成部分。每一帧都拥有自己的头和音频信息。没有文件头。所以，我们可以剪切MPEG文件的任何部分并且能够正常播放（当然要分割到帧的结束处尽管许多程序会处理错误头）。在LayerIII 中就并不是100%正确的。这是因为在MPEG-1LayerIII文件中的数据组织中，帧常常是互相关联的并且不能那样随便裁切。

当你想读取MPEG文件的信息时，通常只找到第一帧就足够了，读取它的头信息然后假设其它帧是相同的就可以。但这也不是所有情况。变比特率的MPEG文件使用使用所谓比特变换，也就是说每一帧的比特率依照具体内容变化。这种方法没有减少声音质量的帧将应用较低的波特率。这样就允许更好的压缩质量的同时又保证了高质量的音质。

帧头由每一帧的前4个字节（32位）组成。帧头的前11比特（或前12个位，见下文关于

帧同步）总是固定的称作“帧同步”。因此，可以在整个文件中查找第一个帧同步（即：必须找到一个值为255的且其后跟着三到四个最高位置1的字节。）然后读取整个头检查值是否正确。关于头中每一个比特的具体含义应该验证那一个值的有效性可以操看下面的表格，如果存在被定义为保留，无效，损坏或不允许的值表明该头已经损坏。记住，光有这些是不够的，帧同步能在许多二进制文件里面的应用是很广的。而且，MPEG文件可能在开头包含可能有错误同步信息的垃圾，所以我们必须检查两个或者更多一些帧来确定我们现在读取的文件是一个MPEG文件。

帧可能还有CRC校验。如果存在的话，CRC校验紧跟在帧头之后，长为16比特。CRC校验之后是音频数据。计算出帧长度，如果你需要读取其他头或者计算该帧的CRC值，可以使用它比较文件中读出来的帧。验证MPEG头的有效性这是一个非常好的方法。

1、帧头格式

下面是一个头内容图示，使用字符A到M表示不同的区域。在表格中你可以看到每一区域的详细内容。

AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMM

关于读取帧头我使用了下面的方法

定义一个结构体

typedef struct frameHeader

{

unsigned int sync1:8; //同步信息1

unsigned int error_protection:1; //CRC校验

unsigned int layer:2; //层

unsigned int version:2; //版本

unsigned int sync2:3; //同步信息2

unsigned int extension:1; //版权

unsigned int padding:1; //填充空白字

unsigned int sample_rate_index:2; //采样率索引

unsigned int bit_rate_index:4; //位率索引

unsigned int emphasis:2; //强调方式

unsigned int original:1; //原始媒体

unsigned int copyright:1; //版权标志

unsigned int mode_extension:2; //扩展模式，仅用于联合立体声unsigned int channel_mode:2; //声道模式

}FHEADER, *pFHEADER;

请注意我的同步信息分成了两个部分，而且其他的位的顺序也和上表列出的有所差别，这个主要是因为c语言在存取数据时总是从低位开始，而这个帧头是需要从高位来读取的。

读取方式如下

FHEADER header;

fread( &header, sizeof( FHEADER ), 1, streams );//这里假设文件已打开，读取位置已经指向帧头所在的位置

这样一次就可以读入帧头的所有信息了。

2、如何计算帧长度

我们首先区分两个术语：帧大小和帧长度。帧大小即每帧采样数表示一帧中采样的个数，这是恒定值。其值入下表所示

帧长度是压缩时每一帧的长度，包括帧头。它将填充的空位也计算在内。LayerI的一个空位长4字节，LayerII和LayerIII的空位是1字节。当读取MPEG文件时必须计算该值以便找到相邻的帧。

注意：因为有填充和比特率变换，帧长度可能变化。

从头中读取比特率，采样频率和填充，

LyaerI使用公式：

帧长度（字节） = (( 每帧采样数/ 8 * 比特率 ) / 采样频率 ) + 填充 * 4

LyerII和LyaerIII使用公式：

帧长度（字节）= (( 每帧采样数/ 8 * 比特率 ) / 采样频率 ) + 填充

例：

LayerIII 比特率 128000，采样频率 44100，填充0

=〉帧大小 417字节

3、每帧的持续时间

之前看了一些文章都说mp3的一帧的持续时间是26ms，结果在实际程序的编写中发现无法正确按时间定位到帧，然后又查了一些文章才知道，所谓26ms一帧只是针对MPEG1 Layer III而且采样率为44.1KHz来说是对的，但mp3文件并不都是如此，其实这个时间也是可以通过计算来获得，下面给出计算公式

每帧持续时间(毫秒) = 每帧采样数 / 采样频率 * 1000

这样通过计算可知 MPEG1 Layer III 采样率为44.1KHz的一帧持续时间为26.12...不是整数，不过我们权且认为它就是26毫秒吧。

如果是MPEG2 Layer III 采样率为16KHz的话那一帧要持续36毫秒，这个相差还是蛮大的，所以还是应该通过计算来获的，当然可以按MPEG版本，层数和采样率来建一个表，这样直接查表就可以知道时间了。

4、CRC校验

如果帧头的校验位为0，则帧头后就有一个16位的CRC值，这个值是big-endian的值，把这个值和该帧通过计算得出的CRC值进行比较就可以得知该帧是否有效。

关于CRC校验下面给出我找到的英文原文，我的英文水平不高，翻译的不行。

If the protection bit in the header is not set, the frame contains a 16 bit CRC (Cyclic Redundancy Checksum). This checksum directly follows the frame header and is a big-endian WORD. To verify this checksum you have to calculate it for the frame and compare the calculated CRC with the stored CRC. If they aren't equal probably a transfer error has appeared. It is also helpful to check the CRC to verify that you really found the beginning of a frame, because the sync bits do in same cases also occur within the data section of a frame.

The CRC is calculated by applying the CRC-16 algorithm (with the generator polynom 0x8005) to a part of the frame. The following data is considered for the CRC: the last two bytes of the header and a number of bits from the audio data which follows the checksum after the header. The checksum itself must be skipped for CRC calculation. Unfortunately there is no easy way to compute the number of frames which are necessary for the checksum calculation in Layer II. Therefore I left it out in the code. You would need other information apart from the header to calculate the necessary bits. However it is possible to compute the number of protected bits in Layer I and Layer III only with the information from the header.

For Layer III, you consider the complete side information for the CRC calculation. The side information follows the header or the CRC in Layer III files. It contains information about the general decoding of the frame, but doesn't contain the actual encoded audio samples. The following table shows the size of the side information for all Layer III files.

For Layer I files, you must consider the mode extension from the header. Then you can calculate the number of bits which are necessary for CRC calculation by applying the following formula:

4 * (number of channels * bound of intensity stereo + (32 - bound of intensity stereo));

This can be read as two times the number of stereo subbands plus the number of mono subbands and the result multiplied with 4. For simple mono frames, this equals 128, because the number of channels is one and the bound of intensity stereo is 32, meaning that there is no intensity stereo. For stereo frames this is 256. For more information have a look at the CRC code in the class CMPAFrame.

5、帧数据

在帧头后边是Side Info(姑且称之为通道信息)。对标准的立体声MP3文件来说其长度为32字节。通道信息后面是Scale factor(增益因子)信息。当解码器在读到上述信息后，就可以进行解码了。当MP3文件被打开后，播放器首先试图对帧进行同步，然后分别读取通道信息及增益因子等数据，再进行霍夫曼解码，至此我们已经获得解压后的数据。但这些数据仍然不能进行播放，它们还处于频域，要想听到歌曲还要将它由频域通过特定的手段转换到时域。接下来的处理分别为立体化处理；抗锯齿处理；IMDCT变换；IDCT变换及窗口化滑动处理。

我们知道，对于mp3来说现在有两种编码方式，一种是CBR，也就是固定位率，固定位率的帧的大小在整个文件中都是是固定的（公式如上所述），只要知道文件总长度，和从第一帧帧头读出的信息，就都可以通过计算得出这个mp3文件的信息，比如总的帧数，总的播放时间等等，要定位到某一帧或某个时间点也很方便，这种编码方式不需要文件头，第一帧开始就是音频数据。另一种是VBR，就是可变位率，VBR 是XING 公司推出的算法，所以在MP3 的FRAME 里会有“Xing"这个关键字（也有用"Info"来标识的，现在很多流行的小软件也可以进行VBR 压缩，它们是否遵守这个约定，那就不得而知了），它存放在MP3文件中的第一个有效帧的数据区里，它标识了这个MP3文件是VBR的。同时第一个帧里存放了MP3 文件的帧的总个数，这就很容易获得了播放总时间，同时还有100个字节存放了播放总时间的100个时间分段的帧索引，假设4 分钟的MP3 歌曲，240S，分成100 段，每两个相邻INDEX 的时间差就是 2.4S，所以通过这个INDEX，只要前后处理少数的FRAME，就能快速找出我们需要快进的帧头。其实这第一帧就相当于文件头了。不过现在有些编码器在编码CBR文件时也像VBR那样将信息记入第一帧，比如著名的lame，它使用"Info"来做CBR的标记。

6、VBR 头

这里列出VBR的第一帧存储文件信息的头的格式。有两种格式，一种是常见的XING Header （头部包含字符‘Xing’），另一种是VBRI Header（头部包含字符‘VBRI’）鉴于VBRI Header 不常见，下面只说XING Header，关于VBRI Header请看https://www.doczj.com/doc/af531746.html,/audio/MPEGAudioInfo.asp。

XING Header的起始位置，相对于第一帧帧头的位置，单位是字节

36-39 "Xing" 文件为MPEG1并且不是单声道(大多数VBR的mp3文件都是如此)

21-24 "Xing" 文件为MPEG1并且是单声道

21-24 "Xing" 文件为MPEG2并且不是单声道

13-16 "Xing" 文件为MPEG2并且是单声道

XING Header格式

这样算来，XING Header包括帧头一共最多只需要156个字节就够了。当然也可以在XING Header后面存储编码器的信息，比如lame在其后就是存储其版本，这需要给第一帧留足够的空间才行。

至于mp3的信息用从XING Header读出的信息就可以计算

比如

总持续时间 = 总帧数 * 每帧采样数 / 采样率（结果为秒）

平均位率 = 文件长度 / 总持续时间 * 8

五、MPEG音频标签

MPEG音频标签分为两种，一种是ID3v1，存在文件尾部，长度128字节，另一种是ID3v2，是对ID3v1的扩展，存在文件头部，长度不定。

1、ID3v1

ID3v1标签用来描述MPEG音频文件。包含艺术家，标题，唱片集，发布年代和流派。另外还有额外的注释空间。位于音频文件的最后固定为128字节。可以读取该文件的最后这128字节获得标签。

结构如下

AAABBBBB BBBBBBBB BBBBBBBB BBBBBBBB

BCCCCCCC CCCCCCCC CCCCCCCC CCCCCCCD

DDDDDDDD DDDDDDDD DDDDDDDD DDDDDEEE

EFFFFFFF FFFFFFFF FFFFFFFF FFFFFFFG

该规格要求所有的空间必须以空字符(ASCII 0)填充。但是并不是所有的应用程序遵循该规则，比如winamp就用空格(ASCII 32)代替之。

在ID3v1.1结构中有些改变。注释部分的最后一个字节用来定义唱片集中的轨道号。如果不知道该信息时可以用空字符(ASCII 0)代替。

流派使用原码表示，为下列数字之一：

Winamp扩充了这个表

其他任何的数值都认为是“unknown”

2、ID3V2

ID3V2 到现在一共有4 个版本，但流行的播放软件一般只支持第3 版，既ID3v2.3。由于ID3V1 记录在MP3 文件的末尾，ID3V2 就只好记录在MP3 文件的首部了(如果有一天发布ID3V3，真不知道该记录在哪里)。也正是由于这个原因，对ID3V2 的操作比ID3V1 要慢。而且ID3V2 结构比ID3V1 的结构要复杂得多，但比前者全面且可以伸缩和扩展。

下面就介绍一下ID3V2.3。

每个ID3V2.3 的标签都一个标签头和若干个标签帧或一个扩展标签头组成。关于曲目的信

息如标题、作者等都存放在不同的标签帧中，扩展标签头和标签帧并不是必要的，但每个标签至少要有一个标签帧。标签头和标签帧一起顺序存放在MP3 文件的首部。

（一）、标签头

在文件的首部顺序记录10 个字节的ID3V2.3 的头部。数据结构如下：

char Header[3]; /*必须为"ID3"否则认为标签不存在*/

char Ver; /*版本号ID3V2.3 就记录3*/

char Revision; /*副版本号此版本记录为0*/

char Flag; /*存放标志的字节，这个版本只定义了三位，稍后详细解说*/

char Size[4]; /*标签大小，包括标签头的10 个字节和所有的标签帧的大小*/

注:对这里我有疑惑，因为在实际寻找首帧的过程中，我发现有的mp3文件的标签大小是不包含标签头的，但有的又是包含的，可能是某些mp3编码器写标签的BUG，所以为了兼容只好认为其是包含的，如果按大小找不到，再向后搜索，直到找到首帧为止。

（1）.标志字节

标志字节一般为0，定义如下：

abc00000

a -- 表示是否使用Unsynchronisation(这个单词不知道是什么意思，字典里也没有找到，一般不设置)

b -- 表示是否有扩展头部，一般没有(至少Winamp 没有记录)，所以一般也不设置

c -- 表示是否为测试标签(99.99%的标签都不是测试用的啦，所以一般也不设置)

（2）.标签大小

一共四个字节，但每个字节只用7 位，最高位不使用恒为0。所以格式如下

0xxxxxxx 0xxxxxxx 0xxxxxxx 0xxxxxxx

计算大小时要将0 去掉，得到一个28 位的二进制数，就是标签大小(不懂为什么要这样做)，计算公式如

下：

int total_size;

total_size = (Size[0]&0x7F)*0x200000

+(Size[1]&0x7F)*0x4000

+(Size[2]&0x7F)*0x80

+(Size[3]&0x7F)

（二）、标签帧

每个标签帧都有一个10 个字节的帧头和至少一个字节的不固定长度的内容组成。它们也是顺序存放在文件

中，和标签头和其他的标签帧也没有特殊的字符分隔。得到一个完整的帧的内容只有从帧头中的到内容大

小后才能读出，读取时要注意大小，不要将其他帧的内容或帧头读入。

帧头的定义如下：

char FrameID[4]; /*用四个字符标识一个帧，说明其内容，稍后有常用的标识对照表*/

char Size[4]; /*帧内容的大小，不包括帧头，不得小于1*/

char Flags[2]; /*存放标志，只定义了6 位，稍后详细解说*/

（1）.帧标识

用四个字符标识一个帧，说明一个帧的内容含义，常用的对照如下：

TIT2=标题表示内容为这首歌的标题，下同

TPE1=作者

TALB=专集

TRCK=音轨格式：N/M 其中N 为专集中的第N 首，M 为专集中共M 首，N 和M 为ASCII 码表示的数字

TYER=年代是用ASCII 码表示的数字

TCON=类型直接用字符串表示

COMM=备注格式："eng\0 备注内容"，其中eng 表示备注所使用的自然语言

（2）.大小

这个可没有标签头的算法那么麻烦，每个字节的8 位全用，格式如下

xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx

算法如下：

int FSize;

FSize = Size[0]*0x1000000

+Size[1]*0x10000

+Size[2]*0x100

+Size[3];

（3）.标志

只定义了6 位，另外的10 位为0，但大部分的情况下16 位都为0 就可以了。格式如下：abc00000 ijk00000

a -- 标签保护标志，设置时认为此帧作废

b -- 文件保护标志，设置时认为此帧作废

c -- 只读标志，设置时认为此帧不能修改(但我没有找到一个软件理会这个标志)

i -- 压缩标志，设置时一个字节存放两个BCD 码表示数字

j -- 加密标志(没有见过哪个MP3 文件的标签用了加密)

k -- 组标志，设置时说明此帧和其他的某帧是一组

值得一提的是winamp 在保存和读取帧内容的时候会在内容前面加个'\0'，并把这个字节计算在帧内容的

大小中。

附：帧标识的含义

（4）. Declared ID3v2 frames

The following frames are declared in this draft.

AENC Audio encryption

APIC Attached picture

COMM Comments

COMR Commercial frame

ENCR Encryption method registration EQUA Equalization

ETCO Event timing codes

GEOB General encapsulated object GRID Group identification registration IPLS Involved people list

LINK Linked information

MCDI Music CD identifier

MLLT MPEG location lookup table OWNE Ownership frame

PRIV Private frame

PCNT Play counter

POPM Popularimeter

POSS Position synchronisation frame RBUF Recommended buffer size

RV AD Relative volume adjustment RVRB Reverb

SYLT Synchronized lyric/text

SYTC Synchronized tempo codes TALB Album/Movie/Show title

TBPM BPM (beats per minute)

TCOM Composer

TCON Content type

TCOP Copyright message

TDAT Date

TDLY Playlist delay

TENC Encoded by

TEXT Lyricist/Text writer

TFLT File type

TIME Time

TIT1 Content group description

TIT2 Title/songname/content description TIT3 Subtitle/Description refinement TKEY Initial key

TLAN Language(s)

TLEN Length

TMED Media type

TOAL Original album/movie/show title TOFN Original filename

TOLY Original lyricist(s)/text writer(s)

TOPE Original artist(s)/performer(s)

TORY Original release year

TOWN File owner/licensee

TPE1 Lead performer(s)/Soloist(s)

TPE2 Band/orchestra/accompaniment

TPE3 Conductor/performer refinement

TPE4 Interpreted, remixed, or otherwise modified by

TPOS Part of a set

TPUB Publisher

TRCK Track number/Position in set

TRDA Recording dates

TRSN Internet radio station name

TRSO Internet radio station owner

TSIZ Size

TSRC ISRC (international standard recording code)

TSSE Software/Hardware and settings used for encoding TYER Year

TXXX User defined text information frame

UFID Unique file identifier

USER Terms of use

USLT Unsychronized lyric/text transcription

WCOM Commercial information

WCOP Copyright/Legal information

WOAF Official audio file webpage

WOAR Official artist/performer webpage

WOAS Official audio source webpage

WORS Official internet radio station homepage

WPAY Payment

WPUB Publishers official webpage

WXXX User defined URL link frame

五、MP3文件实例剖析

在VC++中打开一个名为test.mp3文件，其内容如下：000000 FF FB 52 8C 00 00 01 49 09 C5 05 24 60 00 2A C1 000010 19 40 A6 00 00 05 96 41 34 18 20 80 08 26 48 29 000020 83 04 00 01 61 41 40 50 10 04 00 C1 21 41 50 64 ……

0000D0 FE FF FB 52 8C 11 80 01 EE 90 65 6E 08 20 02 30 0000E0 32 0C CD C0 04 00 46 16 41 89 B8 01 00 08 36 48 0000F033 B7 00 00 01 02 FF FF FF F4 E1 2F FF FF FF FF ……

0001A0 DF FF FF FB 52 8C 12 00 01 FE 90 58 6E 09 A0 02 0001B0 33 B0 CA 85 E1 50 01 45 F6 19 61 BC 26 80 28 7C 0001C0 05 AC B4 20 28 94 FF FF FF FF FF FF FF FF FF FF

……

001390 7F FF FF FF FD 4E 00 54 41 47 54 45 53 54 00 00

0013A0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

……

0013F000 00 00 00 04 19 14 03 00 00 00 00 00 00 00 00

001400 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

001410 00 00 00 00 00 00 4E

该文件长度1416H（5.142K），帧头为：FF FB 52 8C，转换成二进制为：

11111111 11111011

01010010 10001100

对照表1可知，test.mp3帧头信息见表5。

表5 test.mp3文件帧头信息

第1397H开始的三个字节是54 41 47，存放的是字符“TAG”，表示此文件有ID3 V1.0信息。139AH开始的30个字节存放歌名，前4个非00字节是54 45 53 54，表示“TEST”；

13F4H开始的4个字节是04 19 14 03，存放年份“04/25/2003”；

最后1个字节是4E，表示音乐类别，代号为78，即“Rock&Roll”；

其它字节均为00，未存储信息。

六、资料

https://www.doczj.com/doc/af531746.html,

部分参考文章的网址

https://www.doczj.com/doc/af531746.html,/mpgedit/mpeg_format/mpeghdr.htm

https://www.doczj.com/doc/af531746.html,/audio/MPEGAudioInfo.asp

https://www.doczj.com/doc/af531746.html,/hacks/mpeg-drafts/11172-3.pdf (ISO/IEC 11172-3 我想这个应该有很多人找吧，不过这里面定义的帧同步位为12位，因为是老标准)

http://webstore.iec.ch/preview/info_isoiec13818-3%7Bed2.0%7Den.pdf （ISO/IEC 13818-3 网站似乎是收费的，不过直接可下，应该不会有人找我麻烦吧）

常用音频格式

常用音频格式 1、WAV：是微软公司开发的一种声音格式文件，也叫波形声音文件，是最早的数字音频格式，对存储空间需求太大不便于交流和传播。 2、MIDI：又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。。 3、CD：CD存储采用了音轨的形式，记录的是波形流，是一种近似无损的格式。 4、MP3：全称是MPEG-1 Audio Layer3，它在1992年合并至MPEG规范中。MP3能以高音质、低采样率对数字音频文件进行压缩。 5、WMA：是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高压缩率（可达到1:18）。 6、MP4：MP4的压缩比达到了1:15，体积较MP3小，但音质没有下降。? 7、DVDAudio：是新一代的数字音频格式，为音乐格式的DVD光碟。? 8、MD：Sony公司的MD（Mini Disc）,立体声音乐。 ?9、RealAudio：是由RealNetworks公司推出的一种文件格式，可以实时传输音频信息，主要适用于网络上的在线播放。文件格式主要有RA、RM、RMX。 ?10、AIFF：是苹果公司开发的声音文件格式，被Macintosh平台和应用程序所支持。 ?11、MAC：Apple计算机公司所开发的声音文件格式，被Macintosh 平台和Macintosh应用程序所支持，支持某些压缩。常用视频格式 ?1、MPEG/MPG/DAT：包括MPEG-1、MPEG-2或MPEG-4在内的多种视频格式。 ?2、AVI：音频视频交错（Audio Video Interleaved），由微软公司发表，调用方便、图像质量好，但文件体积过于庞大。 ?3、RA/RM/RAM：其图像质量比VCD差些。 ?4、MOV：MAC机中QuickTime提供2种标准图像和数字视频格式，即可以支持静态的PIC和JPG图像格式，动态的基于Indeo压缩法的MOV和基于MPEG压缩法MPG视频格式。 ?5、ASF：是微软推出的可以直接在网上观看视频节目的文件压缩格式。图像质量比VCD差一点点，但比同是视频“流”格式的RAM格式好。

常见视频文件格式有哪些

常见视频文件格式有哪些? 2006年11月23日10:28 AVI是音频视频交错(Audio Video Interleaved)的英文缩写，它是Microsoft公司开发的一种符合RIFF文件规范的数字音频与视频文件格式，原先用于Microsoft Video for Windows (简称VFW)环境，现在已被Windows 95/98、OS/2等多数操作系统直接支持。AVI格式允许视频和音频交错在一起同步播放，支持256色和RLE压缩，但AVI文件并未限定压缩标准，因此，AVI文件格式只是作为控制界面上的标准，不具有兼容性，用不同压缩算法生成的AVI文件，必须使用相应的解压缩算法才能播放出来。常用的AVI播放驱动程序，主要是Microsoft Video for Windows或Windows 95/98中的Video 1，以及Intel公司的Indeo Video。AVI文件目前主要应用在多媒体光盘上，用来保存电影、电视等各种影像信息，有时也出现在Internet上，供用户下载、欣赏新影片的精彩片断。 .MPEG/.MPG/.DAT---MPEG文件 MPEG文件格式是运动图像压缩算法的国际标准，它采用有损压缩方法减少运动图像中的冗余信息，同时保证每秒30帧的图像动态刷新率，已被几乎所有的计算机平台共同支持。MPEG标准包括MPEG视频、MPEG音频和MPEG系统(视频、音频同步)三个部分，前文介绍的MP3音频文件就是MPEG音频的一个典型应用，而Video CD (VCD)、Super VCD (SVCD)、DVD (Digital Versatile Disk)则是全面采用MPEG技术所产生出来的新型消费类电子产品。MPEG 压缩标准是针对运动图像而设计的，其基本方法是：在单位时间内采集并保存第一帧信息，然后只存储其余帧相对第一帧发生变化的部分，从而达到压缩的目的，它主要采用两个基本压缩技术：运动补偿技术(预测编码和插补码)实现时间上的压缩，变换域(离散余弦变换DCT)压缩技术实现空间上的压缩。MPEG的平均压缩比为50∶1，最高可达200∶1，压缩效率非常高，同时图像和音响的质量也非常好，并且在微机上有统一的标准格式，兼容性相当好。这里值得注意的是DIVX。DIVX 视频编码技术可以说是一种对 DVD 造成威胁的新生视频压缩格式，也有人说它是 DVD 杀手，它由 Microsoft mpeg4 v3 修改而来，使用了MPEG4的压缩算法。同时它也可以说是为了打破 ASF 的种种协定而发展出来的。而使用这种据说是美国禁止出口的编码技术MPEG4 压缩一部 DVD 只需要 2 张 CDROM。这样就意味着读者不需要额外购买DVD光驱也可以得到和它差不多的视频质量。而且播放这种编码，对机器的要求也不高，CPU的最低额度只要求在300MHZ 以上，而且在CPU类型的选择方面，不论你的芯是PII、CELERON还是PIII、AMDK6/2、AMDK6III、ATHALON，就是CYRIXx86也可以统吃拿下。在配置上64 兆内存和一个 8兆显存的显卡上，DIVX便可以流畅的播放了。 .RA/.RM/.RMVB---RealVideo文件 RealVideo文件是RealNetworks公司开发的一种新型流式视频文件格式，它包含在RealNetworks公司所制定的音频视频压缩规范RealMedia中，主要用来在低速率的广域网上实时传输活动视频影像，可以根据网络数据传输速率的不同而采用不同的压缩比率，从而实现影像数据的实时传送和实时播放。RealVideo除了可以以普通的视频文件形式播放之外，还可以与RealServer服务器相配合，在数据传输过程中边下载边播放视频影像，而不必像大多数视频文件那样，必须先下载然后才能播放。目前，Internet上已有不少网站利用RealVideo技术进行重大事件的实况转播。RMVB影片格式比原先的RM多了VB两字，在这里VB是VBR（Variable Bit Rate--可变比特率）的缩写。在保证了平均采样率的基础上，设定了一般为平均采样率两倍的最大采样率值，在处理较复杂的动态影像时也能得到比较良好的效果，处理一般静止画面时则灵活的转换至较低的采样率，有效的缩减了文件的大小！ .MOV/.QT---QuickTime文件 QuickTime是Apple计算机公司开发的一种音频、视频文件格式，用于保存音频和视频信息，具有先进的视频和音频功能，被包括Apple Mac OS、Microsoft Windows 95/98/NT在内的所有主流电脑平台支持。QuickTime文件格式支持25位彩色，支持RLE、JPEG等领先的集成压缩技术，提供150多种视频效果，并配有提供了200多种MIDI兼容音响和设备的声音装置。新版的QuickTime进一步扩展了原有功能，包含了基于Internet应用的关键特性，能够通过Internet提供实时的数字化信息流、工作流与文件回放功能，此外，QuickTime还采用了一种称为QuickTime VR (简作QTVR)技术的虚拟现实(Virtual Reality， VR)技术，用户通过鼠标或键盘的交互式控制，可以观察某一地点周围360度的景像，或者从空间任何角度观察某一物体。QuickTime以其领先的多媒体技术和跨平台特性、较小的存储空间要求、技术细节的独立性以及系统的高度开放性，得到业界的广泛认可，目前已成为数字媒体软件技术领域的事实上的

mp3音频格式解析

解析MP3音频格式一、概述 MP3 文件是由帧(frame)构成的，帧是MP3 文件最小的组成单位。MP3 的全称应为MPEG1 Layer-3 音频文件，MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组，特指活动影音压缩标准，MPEG 音频文件是MPEG1 标准中的声音部分，也叫MPEG 音频层，它根据压缩质量和编码复杂程度划分为三层，即Layer-1、Layer2、Layer3，且分别对应MP1、MP2、MP3 这三种声音文件，并根据不同的用途，使用不同层次的编码。MPEG音频编码的层次越高，编码器越复杂，压缩率也越高，MP1 和MP2 的压缩率分别为4：1 和6：1-8：1，而MP3 的压缩率则高达10：1-12：1，也就是说，一分钟CD 音质的音乐，未经压缩需要10MB的存储空间，而经过MP3 压缩编码后只有1MB 左右。不过 MP3 对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3 采取了“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3 文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。名词解释：比特率是指每秒传送的比特(bit)数。单位为bps(Bit Per Second)，比特率越高，传送的数据越大。比特率比特率表示经过编码（压缩）后的音、视频数据每秒钟需要用多少个比特来表示，而比特就是二进制里面最小的单位，要么是0，要么是1。比特率与音、视频压缩的关系，简单的说就是比特率越高，音、视频的质量就越好，但编码后的文件就越大；如果比特率越少则情况刚好相反。采样率（也称为采样速度或者采样频率）定义了每秒从连续信号中提取并组成离散信号的采样个数，单位用赫兹（Hz）来表示。采样频率的倒数是采样周期（也称为采样时间），它表示采样之间的时间间隔。这里要注意不要将采样率与位速相混淆。二、MP3文件整体结构

几种常见音频视频音乐文件格式

几种常见音频视频音乐文件格式 1、.wmv WMV是微软推出的一种流媒体格式，它是在“同门”的ASF（Advanced Stream Format）格式升级延伸来得。在同等视频质量下，WMV格式的体积非常小，因此很适合在网上播放和传输。AVI文件将视频和音频封装在一个文件里，并且允许音频同步于视频播放。与DV D视频格式类似，AVI文件支持多视频流和音频流。WMV 不是仅仅基于微软公司的自有技术开发的。从第七版（WMV1）开始，微软公司开始使用它自己非标准MPEG-4 Par t 2。但是，由于WMV第九版已经是SMPTE的一个独立标准（421M，也称为VC-1），有理由相信WMV的发展已经不象MPEG-4那样是一个它自己专有的编解码技术。现在VC-1专利共享的企业有16家（2006年4月），微软公司也是MPEG-4 AVC/H.264专利共享企业中的一家。微软的WMV还是很有影响力的。可是由于微软本身的局限性其WMV 的应用发展并不顺利。第一, WM9是微软的产品它必定要依赖着Windows，Windows 意味着解码部分也要有PC，起码要有PC机的主板。这就大大增加了机顶盒的造价，从而影响了视频广播点播的普及。第二，WMV技术的视频传输延迟非常大，通常要10几秒钟，正是由于这种局限性，目前WMV也仅限于在计算机上浏览WM9视频文件。WMV-HD是由软件业的巨头微软公司所创立的一种视频压缩格式，一般采用.wmv为文件后缀名。其压缩率甚至高于MPEG-2标准，同样是2小时的HDTV节目，如果使用MPEG-2最多只能压缩至30GB，而使用WMV-HD这样的高压缩率编码器，在画质丝毫不降的前提下都可压缩到15GB以下。WMV-HD，基于WMV9标准，是微软开发的视频压缩技术系列中的最新版本，尽管WMV-HD是微软的独有标准，但因其在操作系统中大力支持WMV系列版本，从而在桌面系统得以迅速普及。在性能上，WMV-HD的数据压缩率与H.264一样，两者的应用领域也极其相似，因此在新一代主流视频编码标准霸主地位的争夺之中，双方展开了针锋相对的斗争，而斗争的焦点集中在下一代光盘规格“HD DVD”和数字微波广播电视等领域。一般采用.wmv为后缀的HDTV文件就是采用的WMV-HD压缩的。目前DVD论坛已经初步批准将MPEG-2、H.264和微软的WMA-HD作为下一代DVD即HD－DVD技术的强制执行标准。 2、.MOV MOV即QuickTime影片格式，它是Apple公司开发的音频、视频文件格式，用于存储常用数字媒体类型，如音频和视频。当选择QuickTime （*.mov）作为“保存类型”时，动画将保存为.mov 文件. 用格式工厂1.90可以转换 3、.mpeg MPEG1 MPEG1格式即我们通常所说的VCD视频格式。它可针对SIF标准分辨率的图像进行压缩，视频速度每秒可播放30帧，具有画质好、音质接近于CD等优点，不过对解码芯片的运算能力有较高要求。

音频编码及常用格式

音频编码及常用格式音频编码标准发展现状国际电信联盟（ITU）主要负责研究和制定与通信相关的标准，作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成，并广泛应用于全球的电话通信系统之中。目前，随着Internet网络及其应用的快速发展，在2005到2008研究期内，ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器（相应于64Kb/s的比特率）。该量化器所采用的技术在1972年由CCITT （ITU-T的前身）标准化为G.711。在1983年，CCIT规定了32Kb/s的语音编码标准G.721，其目标是在通用电话网络上的应用（标准修正后称为G.726）。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准，在欧洲，TCH-HS是欧洲电信标准研究所（ETSI）的一部分，由他们负责制定数字蜂窝标准。在北美，这项工作是由电信工业联盟（TIA）负责执行。在日本，由无线系统开发和研究中心（称为RCR）组织这些标准化的工作。此外，国际海事卫星协会（Inmarsat）是管理地球上同步通信卫星的组织，也已经制定了一系列的卫星电话应用标准。音频编码标准发展现状音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高，有的立体声形式已经不能满足听众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案：MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案，它是MPEG2音频编码的核心，是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法，一种称为MPEG2后向兼容多声道音频编码标准，简称MPEG2BC；另一种是称为高级音频编码标准，简称MPEG2AAC，因为它与MPEG1不兼容，也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用，它具有高度的灵活性和可扩展性。与以前的音频标准相比，MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起，并在诸多领域内给予高度的灵活性。

音频格式分类

音频格式分类 RAM/MV/ACC/WAV/WMA/DAC/ac3/Amr/M3U/MMF/VQF/STY/RMJ/FLVC/OXM/MT9/OXM/MOV RAM 1、Random-Access Memory(随机存取存储器): 在计算机的组成结构中，有一个很重要的部分，就是存储器。存储器是用来存储程序和数据的部件，对于计算机来说，有了存储器，才有记忆功能，才能保证正常工作。存储器的种类很多，按其用途可分为主存储... MV 释义【1】MV是英文Market Value (市场价格)的简称，而其中文简称为“市价”; 【2】MV是英文Music Video(音乐视频)的简称，而其中文简称为“乐视”; 【3】MV是英文Maldives (马尔代夫)的简称，是一个印度洋岛国; 【4】MV是英文Muzzle Velocity ... aac Advanced Audio Coding AAC音频格式 Advanced Audio Coding。一种专为声音数据设计的文件压缩格式，与Mp3类似。利用AAC格式，可使声音文件明显减小，而不会让人感觉声音质量有所降低 AAC格式可以用苹果iTunes转换或千千静听(六组件) 苹... WAV WAV简介通常使用三个参数来表示声音，量化位数，取样频率和声道数。声道有单声道和立体声之分，取样频率一般有11025Hz(11kHz) ，22050Hz(22kHz)和44100Hz(44kHz) 三种，不过尽管音质出色，但在压缩后的文件体积过大!相对其他音频格式而言... WMA 基本简介平时我们只要提到下载音乐，第一反应就是MP3，其实MP3已经逐渐成为音频格式的代名词，实际离灭亡不远，现在几乎绝大多数在线音频试听网站都使用的是 WMA格式(通常码率64 Kbps)，WMA解码比起MP3较为复杂，因此许多山寨手机及有名的低端... MOV MOV简介MOV即QuickTime影片格式，它是Apple公司开发的音频、视频文件格式，用于存储常用数字媒体类型，如音频和视频。当选择 QuickTime (*.mov)作为“保存类型”时，动画将保存为 .mov 文件。 QuickTime用于保存音频和视频信息，现在它被包括... ACC

常用的音视频格式有哪几种

)常用的音视频格式有哪几种

————————————————————————————————作者：————————————————————————————————日期：

2）常用的音视频格式有哪几种？常见得视频格式有五种：一：A VI(未压缩)。二：MOV/QT（Quick Time音频、视频文件格式）。三：MPEG/MPE/DAT(MPEG文件格式,采用有损压缩，如MP3/VCD/SVCD/DVD是采用 MPEG 技术所产生的东东)。四：RM(流式视频文件格式)。五：ASF（它使用了MPEG4的压缩算法，可以在网上直接观看视频节目的文件压缩格式）。视频格式有：.drc.dsm .dsv .dsa .dss.vob .ifo.d2v.flv.fli .flc .flic.ivf.mkv. mpg .mpeg .mpe .m1v .m2v .mpv2 .mp2v .dat .ts .tp .tpr .pva .ps s.mp4 .m4v .m4p .m4b .3gp .3gpp .3g2 .3gp2.ogm.mov .qt .amr. ratdvd.rt .rp .smi .smil.rm .ram .rmvb .rpm.roq.swf.smk .bik.wm v .wmp .wm .asf.avi.asx .m3u .pls .wvx .wax .wmx .mpcpl 音频格式有.wav.wma.ra.ogg.mpc.m4a .aac.mpa .mp2 .m1a .m2a.mp3.mi

d .midi .rmi.mka.ac3 .dts.cda.au .snd.aif .aifc .aiff 常见的视频格式有.vob .ifo.(DVD格式).mpg .mpeg .dat .mp4 .3gp .mov .rm .ram .rmvb .wmv .asf.a vi.asx 常见的音频格式有.mp3.wmv.wav.mid 回答者：chen3281 - 三级2007-3-23 10:27 视频文件有很多种类。所有的格式家起来上百种。下面说的是目前最主要的流派。 1 *. MPEG/.MPG/.DAT MPEG也是Motion Picture Experts Group 的缩写。这类格式包括了MPEG-1, MPEG-2 和MPEG-4在内的多种视频格式。MPEG-1相信是大家接触得最多的了，因为目前其正在被广泛地应用在VCD 的制作和一些视频片段下载的网络应用上面，大部分的VCD 都是用MPEG1 格式压缩的( 刻录软件自动将MPEG1转为.DAT格式) ，使用MPEG-1 的压缩算法，可以把一部120 分钟长的电影压缩到1.2 GB 左右大小。MPEG-2 则是应用在DVD 的制作，同时在一些HDTV（高清晰电视广播）和一些高要求视频编辑、处理上面也有相当多的应用。使用MPEG-2 的压缩算法压缩一部120 分钟长的电影可以压缩到5-8 GB 的大小

各类音频格式介绍

音乐格式五花八门，多如牛毛，但不外乎分为两大类：一类为音乐指令文件（如MIDI），一般由音乐创作软件制作而成，它实质上是一种音乐演奏的命令，不包括具体的声音数据，故文件很小；另一类为声音文件，是通过录音设备录制的原始声音，其实质上是一种二进制的采样数据，故文件较大。从播放形式上，声音文件还可以分为“音频流”和“非音频流”两种，前者能够一边下载一边收听，比如“.WMA”、“.RA”、“.MOV”等，后者则不能。所谓流媒体技术就是把连续的影像和声音信息经过压缩处理后放上网站服务器，让用户一边下载一边观看、收听，而不需要等整个压缩文件全部下载到自己机器后才可以观看的技术。下面，将各种音乐文件的格式收集整理如下：流式音频：Windows Media Audio(WMA) WMA就是Windows Media Audio的缩写，是微软自己开发的Windows Midea Audio技术。它和Windows Midea Video一样，经历了几代改良后，变得非常出色。比起老掉牙的MP3压缩技术，WMA无论从技术性能(支持音频流)还是压缩率(比MP3高一倍)都远远把MP3抛在后面了。据微软声称，用它来制作接近CD品质的音频文件，其体积仅相当于MP3的1/3。在48Kbps的传送速率下即可得到接近CD品质(Near －CD Quality)的音频数据流，在64Kbps的传送速率下可以得到与

CD相同品质的音乐，而当连接速率超过96Kbps后则可以得到超过CD 的品质。流式音频：RealMedia(RA/RM/RAM) RealMedia采用的是RealNetworks公司自己开发的Real G2Codec，它具有很多先进的设计，例如，SVT(Scalable Video Technology)，该技术可以让速度较慢的电脑不需要解开所有的原始图像数据也能流畅观看节目；双向编码(Two－Encoding)技术类似于VBR，它可通过预先扫描整个影片，根据带宽的限制选择最优化压缩码率。RealMedia音频部分采用的是RealAudio，它具有21种编码方式，可实现声音在单声道、立体声音乐不同速率下的压缩。流式音频：QuickTime(MOV) QuickTimeApple的QuickTime是最早的视频工业标准，在1999年发布的QuickTime4．0版本后开始支持真正的实时播放，其格式为“．mov”。它的视频压缩部分采用Sorenson Video技术，该技术支持VBR(Variable Bit Rate)，也就是我们常说的动态码率，它可以动态地分配带宽以尽可能小的文件获得最好的播放效果，并能使在解压缩时获得平滑流畅的画面。音频部分QuickTime采用一种名为QDesiglMusic的技术，据说是一种比MP3更好的音频流技术。 VQF VQF即TwinVQ（Transform－domain Weighted Interleave Vector

常见数字音频文件格式比较

常见数字音频文件格式比较一、什么是文件格式在计算机领域，文件格式说的是文件编码类型，文件的结构。例如ASCII文件,二进制文件，JPG图片文件，HTML文件，EXE文件等等。文件格式也是对文件编码方式，文件结构的一种约定，便于区分。如同一把钥匙开一把锁，不同的文件要用不同的方法去读，去显示，去写，去打开或运行。针对声音领域以下详细介绍一下音频格式。二、音频格式首先，明确一下数字音频的概念，它是指一个用来表示声音强弱的数据序列，由模拟声音经抽样、量化和编码后得到的。简单地说，数字音频的编码方式就是数字音频格式。音频格式最大带宽是20000Hz，速率介于40~50KHz之间。学过物理的人都知道，人耳所能听到的声音频率范围是[20Hz , 20000Hz]，20000Hz以上人耳是听不到的，因此音频文件格式的最大带宽是20KHz，故采样速率需要介于40~50KHz之间。三、常见数字音频格式（1）*.CD CD格式音质比较音频格式。因此要讲音频格式，CD自然是打头阵的先锋。在大多数播放软件的“打开文件类型”中，都可以看到＊.cda格式，这就是CD音轨了。标准CD格式也就是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，因此如果你如果是一个音响发烧友的话，CD是你的首选。它会让你感受到天籁之音。CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。（2）*.WA V “*.WA V”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的W A V文件和CD格式一样，也是44.1KHz的采样频率，速率88K/秒，16位量化位数。可以说，W A V格式的声音文件质量和CD相差无几，也是目前PC 机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”W A V格式。（3）*.MP3 MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III）。它是当今较流行的一种数字音频编码和有损压缩格式，它设计用来大幅度地降低音频数据量，是一种有损压缩。（4）*.WMA WMA (Windows Media Audio) 格式是来自于微软的重量级选手，后台强硬，音质要强于MP3格式，更远胜于RA格式，它和日本Y AMAHA公司开发的VQF格式一样，是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的，WMA的压缩率一般都可以达到1：18左右，WMA的另一个优点是内容提供商可以通过DRM（Digital Rights Management）方案如Windows Media Rights Manager 7加入防拷贝保护。（5）*.REAL RealAudio主要适用于在网络上的在线音乐欣赏，现在大多数的用户仍然在使用56Kbps或更低速率的Modem，所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。real的的文件格式主要有这么几种：有RA （RealAudio）、RM（RealMedia，RealAudio G2）、RMX（RealAudio Secured），还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较富裕的听众获得较好的音质。

音频视频文件格式中文名称

中文名称：音频---视频文件格式版本：原创发行时间：2007年地区：大陆语言：普通话简介：音频---视频文件格式一、影音文件 ●AVI格式：它的英文全称为Audio Video Interleaved，即音频视频交错格式。它于1992年被Microsoft公司推出，随Windows3.1一起被人们所认识和熟知。所谓“音频视频交错”，就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好，可以跨多个平台使用，其缺点是体积过于庞大，而且更加糟糕的是压缩标准不统一，最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频，而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频，所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放，但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题，如果用户在进行AVI格式的视频播放时遇到了这些问题，可以通过下载相应的解码器来解决。 ●nAVI格式：newAVI的缩写，是一个名为ShadowRealm的地下组织发展起来的一种新视频格式(与我们上面所说的AVI格式没有太大联系)。它是由Microsoft ASF压缩算法的修改而来的，但是又与下面介绍的网络影像视频中的ASF视频格式有所区别，它以牺牲原有ASF 视频文件视频“流”特性为代价而通过增加帧率来大幅提高ASF视频文件的清晰度。 ●DV-AVI格式：其英文是Digital Video Format，是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的IEEE 1394端口传输视频数据到电脑，也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi，所以也叫DV-AVI格式。 ●MPEG格式：其全称为Moving Picture Expert Group，即运动图像专家组格式，家里常看的VCD、SVCD、DVD就是这种格式。MPEG文件格式是运动图像压缩算法的国际标准，它采用了有损压缩方法减少运动图像中的冗余信息，说的更加明白一点就是MPEG的压缩方法依据是相邻两幅画面绝大多数是相同的，把后续图像中和前面图像有冗余的部分去除，从而达到压缩的目的(其最大压缩比可达到200:1)。目前MPEG格式有三个压缩标准，分别是MPEG－1、MPEG－2、和MPEG－4，另外，MPEG-7与MPEG-21仍处在研发阶段。MPEG－1：制定于1992年，它是针对1.5Mbps以下数据传输率的数字存储媒体运动图像及其伴音编码而设计的国际标准。也就是我们通常所见到的VCD制作格式。经过MPEG-1标准压缩后，视频数据压缩率为1/100-1／200，音频压缩率为1／6.5。MPEG-1提供每秒30帧352*240分辨率的图像，当使用合适的压缩技术时，具有接近家用视频制式（VHS）录像带的质量。MPEG-1允许超过70分钟的高质量的视频和音频存储在一张CD-ROM盘上。VCD采用的就是MPEG-1的标准，该标准是一个面向家庭电视质量级的视频、音频压缩标准。其文件扩展名包括.mpg、.mlv、.mpe、.mpeg及VCD光盘中的.dat文件等 MPEG－2：制定于1994年，设计目标为高级工业标准的图像质量以及更高的传输率。其文件扩展名包括.mpg、.mpe、.mpeg、.m2v及DVD光盘上的.vob文件等。MPEG-2主要针对高清晰度电视（HDTV）的需要，传输速率为10Mbps，与MPEG-1兼容，适用于1.5-60Mbps 甚至更高的编码范围。MPEG-2有每秒30帧704*480的分辨率，是MPEG-1播放速度的四倍。它适用于高要求的广播和娱乐应用程序，如DSS卫星广播和DVD，MPEG-2是家用视频制式（VHS）录像带分辨率的两倍。

常见音频文件格式的特点

常见音频文件格式的特点。要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，20KHz以上人耳是听不到的，因此音频的最大带宽是20KHZ，故而采样速率需要介于40~50KHZ之间，而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。在音频文件的制作中，正是采用这一标准。 CD格式：正统血脉当今世界上音质最好的音频格式是什么？当然是CD 了。因此要讲音频格式，CD自然是打头阵的先锋。在大多数播放软件的“打开文件类型”中，都可以看到＊.cda格式，这就是CD音轨了。标准CD格式也就是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，因此如果你是一个音响发烧友的话，CD是你的首选。它会让你感受到天籁

之音。CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。一个CD音频文件是一个＊.cda文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“＊.cda文件”都是44字节长。注意：不能直接的复制CD格式的＊.cda文件到硬盘上播放，需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV，这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话，可以说是基本上无损抓音频。推荐大家使用这种方法。 WAV：无损是微软公司开发的一种声音文件格式，它符合PIFFResource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW 等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。

文件的常见储存格式

各种储存格式文字: 、txt 纯文本文件,不携带字体,字形,颜色等文字修饰控制格式,一般文字处理软件都能打开它。、doc 使用Micｒosoｆt Word创建的格式化文件,用于一般的图文排版。、hｔml 用超文本标记语言编写生成的文件格式,用于网页制作。、ｐdｆ便携式文档格式,就是由Adobe系统公司开发的一种文件格式,主要应用于电子文档,出版等方面。图形图像: 、jpg ＪPEG文件格式就是静态图像压缩的国际标准,就是应用广泛的图像压缩格式,多用于网络与光盘读物上。、ｇif 支持透明背景图像,文件很小,色彩限定在２5６色以内,主要应用在网络上。 .bmp Mｉcrosofｔpａａinｔ的固定格式,文件几乎不压缩,占用磁盘空间大,普遍应用于Windows中。动画: 、gｉf通过同时存储若干幅图像,进而形成连续的动画。主要用于网页。

、swｆ应用Mａcrｏmeｄia公司的Ｆlａsh制作的动画。具有缩放不失真、文件体积小等特点,它采用了流媒体技术,可以一边下载一边播放,目前被广泛应用于网络上。音频: 、wav 该格式记录声音的波形,声音文件能够与原声基本一致,质量非常高,主要应用于许忠实记录原生的地方。 .mp3 一种压缩储存声音的文件格式,就是音频压缩的国际标准。特点就是声音失真小,文件小,目前网络上下载歌曲多为此格式。、mｉdiＭＩDI就是数字音乐/电子合成乐器的统一标准。ＭＩDI文件储存的就是一系列指令、不就是波形,就是因为它需要的磁盘空间非常小,目前主要用于音乐制作。视频: 、ａｖi Mｉｃｒosft公司开发的一种数字音频与视频文件格式,主要应用在多媒体光盘上,用来保存电影、电视等各种影像信息。

常见音频文件格式

音频格式详解以下是常见音频文件格式的特点。要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低的频率是从20Hz 起一直到最高频率20KHZ，20KHz以上人耳是听不到的，因此音频的最大带宽是20KHZ，故而采样速率需要介于40~50KHZ之间，而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。在音频文件的制作中，正是采用这一标准。 CD格式：正统血脉当今世界上音质最好的音频格式是什么？当然是CD了。因此要讲音频格式，CD自然是打头阵的先锋。在大多数播放软件的“打开文件类型”中，都可以看到＊.cda格式，这就是CD音轨了。标准CD格式也就是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，因此如果你是一个音响发烧友的话，CD是你的首选。它会让你感受到天籁之音。CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。一个CD音频文件是一个＊.cda文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“＊.cda文件”都是44字节长。注意：不能直接的复制CD格式的＊.cda文件到硬盘上播放，需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV，这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话，可以说是基本上无损抓音频。推荐大家使用这种方法。 WAV：无损是微软公司开发的一种声音文件格式，它符合 PIFFResource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS 平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV 格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。但缺点是体型过于“巨大”。 AIFF与AU 这里顺便提一下由苹果公司开发的AIFF（Audio Interchange File Format）格式和为UNIX系统开发的AU格式，它们都和WAV非常相像，在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。 MP3：流行

常见的声音文件格式

多媒体知识全接触（七）常见的声音文件格式第四篇声音（音频） 3.常见的声音文件格式再接下来我们介绍七种目前最为流行的多媒体声音文件效果让你认识认识: ★ WAVE，扩展名为WAV：该格式记录声音的波形，故只要采样率高、采样字节长、机器速度快，利用该格式记录的声音文件能够和原声基本一致，质量非常高，但这样做的代价就是文件太大。 ★ MOD，扩展名MOD、ST3、XT、S3M、FAR、669等：该格式的文件里存放乐谱和乐曲使用的各种音色样本，具有回放效果明确，音色种类无限等优点。但它也有一些致命弱点，以至于现在已经逐渐淘汰，目前只有MOD迷及一些游戏程序中尚在使用。 ★ MPEG-3，扩展名MP3：现在最流行的声音文件格式，因其压缩率大，在网络可视电话通信方面应用广泛，但和CD唱片相比，音质不能令人非常满意。 ★ Real Audio，扩展名RA：这种格式真可谓是网络的灵魂，强大的压缩量和极小的失真使其在众多格式中脱颖而出。和MP3相同，它也是为了解决网络传输带宽资源而设计的，因此主要目标是压缩比和容错性，其次才是音质。 ★ Creative Musical Format，扩展名CMF：Creative公司的专用音乐格式，和MIDI差不多，只是音色、效果上有些特色，专用于FM声卡，但其兼容性也很差。 ★ CD Audio音乐CD，扩展名CDA：唱片采用的格式，又叫“红皮书”格式，记录的是波形流，绝对的纯正、HIFI。但缺点是无法编辑，文件长度太大。 ★ MIDI，扩展名MID：目前最成熟的音乐格式，实际上已经成为一种产业标准，其科学性、兼容性、复杂程度等各方面当然远远超过本文前面介绍的所有标准（除交响乐CD、Unplug CD外，其它CD往往都是利用MIDI制作出来的），它的General MIDI就是最常见的通行标准。作为音乐工业的数据通信标准，MIDI能指挥各音乐设备的运转，而且具有统一的标准格式，能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果，而且文件的长度非常小。总之，如果有专业的音源设备，那么要听同一首曲子的HIFI程度依次是: 原声乐器演奏 > MIDI > CD唱片 > MOD > 所谓声卡上的MIDI > CMF，而MP3及RA要看它的节目源是采用MIDI、CD还是MOD了。另外，在多媒体材料中，存储声音信息的文件格式也是需要认识的，共有： WAV文件、VOC文件、MIDI文件、RMI文件、PCM文件以及AIF文件等若干种。 ★ WAV文件：Microsoft公司的音频文件格式，它来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点，以不同的量化位数（8位或16位）把这些采样点的值转换成二进制数，然后存入磁盘，这就产生了声音的WAV文件，即波形文件。Microsoft Sound System软件Sound Finder 可以转换AIF SND和VOD文件到WAV格式。 ★ VOC文件：Creative公司波形音频文件格式，也是声霸卡（sound blaster）使用的音频文件格式。每个VOC文件由文件头块（header block）和音频数据块（data block）组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。如声音数据静音标识ASCII码文件重复的结果重复以及终止标志，扩展块等。 ★ MIDI文件：Musical Instrument Digital Interface（乐器数字接口）的缩写。它是由世界上主要电子乐器制造厂商建立起来的一个通信标准，以规定计算机音乐程序电子合成器和其它电子设备之间交换信息与控制信号的方法。MIDI文件中包含音符定时和多达16个通道的乐器定义，每个音符包括键通道号持续时间音量和力度等信息。所以MIDI文件记录的不是乐曲本身，而是一些描述乐曲演奏过程中的指令。 ★ RMI文件：Microsoft公司的MIDI文件格式，它可以包括图片标记和文本。 ★ PCM文件：模拟音频信号经模数转换（A/D变换）直接形成的二进制序列，该文件没有附加的文件头和文件结束标志。在声霸卡提供的软件中，可以利用VOC-HDR 程序，为PCM格式的音频文件加上文件头，而形成VOC格式。Windows的Convert工具可以把PCM音频格式的文件转换成Microsoft的WAV格式的文件。 ★ AIF文件：Apple计算机的音频文件格式。Windows的Convert工具同样可以把AIF格式的文件换成Microsoft的WAV格式的文件【此文档部分内容来源于网络，如有侵权请告知删除，本文档可自行编辑和修改内容，感谢您的支持！】

常见音乐文件格式

常见音乐文件格式一览经典的WA VE WA VE文件作为最经典的Windows多媒体音频格式，应用非常广泛，它使用三个参数来表示声音：采样位数、采样频率和声道数。声道有单声道和立体声之分，采样频率一般有11025Hz(11kHz)、22050Hz(22kHz)和44 100Hz(44kHz)三种。WA VE文件所占容量=(采样频率×采样位数×声道)×时间/8(1字节=8bit)。电脑音乐MIDI MIDI是Musical Instrument Data Interface的简称，它采用数字方式对乐器所奏出来的声音进行记录(每个音符记录为一个数字)，然后，播放时再对这些记录通过FM或波表合成：FM合成是通过多个频率的声音混合来模拟乐器的声音；波表合成是将乐器的声音样本存储在声卡波形表中，播放时从波形表中取出产生声音。龙头老大MP3 ∶的 ∶甚至112 MP3可谓是大名鼎鼎，它采用MPEG Audio Layer 3技术，将声音用110 压缩率压缩，采样率为44kHz、比特率为112kbit/s。 MP3音乐是以数字方式储存的音乐，如果要播放，就必须有相应的数字解码播放系统，一般通过专门的软件进行MP3数字音乐的解码，再还原成波形声音信号播放输出，这种软件就称为MP3播放器，如Winamp等。网上霸主RA系列 RA、RAM和RM都是Real公司成熟的网络音频格式，采用了“音频流”技术，所以非常适合网络广播。在制作时可以加入版权、演唱者、制作者、Mail和歌曲的Title等信息。 RA可以称为互联网上多媒体传播的霸主，适合于网络上进行实时播放，是目前在线收听网络音乐最好的一种格式。高压缩比的VQF VQF即TwinVQ是由Nippon Telegraph and Telephone同YAMAHA公司开发的一种音频压缩技术。 ∶左右甚至更 VQF的音频压缩率比标准的MPEG音频压缩率高出近一倍，可以达到118 高。而像MP3、RA这些广为流行的压缩格式一般只有112 ∶左右。但仍然不会影响音质，当VQF以44kHz-80kbit/s的音频采样率压缩音乐时，它的音质会优于44kHz-128kbit/s的 MP3，以44kHz-96kbit/s压缩时，音乐接近44kHz-256kbit/s的MP3。迷你光盘MD MD(即MiniDisc)是SONY公司于1992年推出的一种完整的便携音乐格式，它所采用的 ∶。MD又分为可录型MD(Recordable，有磁头和激压缩算法就是ATRAC技术(压缩比是15)