当前位置:文档之家› 音频编解码

音频编解码

STM32 Audio Components3 Common Addons Codecs

Player

Recorder

Generic Codec Synchronizer Equalizer

Loudness

Mixer

PDM

SRC

MP3 Enc

MP3 Dec

WMA Dec

AAC Dec

Speex

ADPCM-IMA

G.726

G.711

M

u

s

i

c

V

o

i

c

e

Out Interface In Interface

Tag Extractor

音频格式——wav

5

?WAV是微软公司(Microsoft)开发的一种声音文件格式,在多媒体中使用的声波文件格

式之一,它是以RIFF(Resource Interchange File Format 资源交互文件格式) 格式为标准的。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成

。其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分,文件头中还包

含了音频流的编码参数。

?WAV文件是非常简单的一种RIFF文件,它的格式类型为“WAVE ”。RIFF块包含两

个子块,这两个子块的ID分别是“fmt”和“data ” 。其中“fmt”子块由结构PCMWAVEFORMAT所组成,其子块的大小就是sizeof(PCMWAVEFORMAT),数据组

成就是PCMWAVEFORMAT结构中的数据。

WAV——(实例实例))

1、以下就经常见的一种格式PCM(44字节)的WAV 文件头进行分析

下面数是面数是::spiritdsp48.wav(大小798764 字节),文件头如下文件头如下::

?地址00H-03H ,值为值为““RIFF”标志标志;;

?地址04H-07H ,值为值为““24 30 0C 00”,存储的是文件大小刨去8字节后的值字节后的值,,注意这个是little-endian 的,

也就是高地址存低位也就是高地址存低位,,地地址存高位地地址存高位,,所以Size=000C3024H=798756字节字节,,比文件总大小少8个字节个字节,,这8个字节就是00H-07H ;?地址08H-0FH ,就是就是““WAVEfmt ”标记标记;;

?

地址10H-13H ,fmt 格式的块大小格式的块大小,,这种格式时是这种格式时是““10 00 00 00”,也是little-endian 的,即块大小为16,也有可能为18,这时最后多了2个字节的附加信息个字节的附加信息。。其他格式的可能是20;?地址14H-15H ,“01 00”,也是little-endian 的,标记编码方式标记编码方式,,一般为0x0001;

?

地址16H-17H ,“02 00”,也是little-endian ,标记声道数标记声道数,,这里值为1。注意1代表单声道代表单声道,,2代表双声道代表双声道;;

WAV——续上

这里为为48000Hz;

?地址18H-1BH,“80 BB 00 00”,也是little-endian,标记采样频率

标记采样频率,,这里

每秒所需的字节数,,也是little-endian,bytepersec=0002EE00H=192000(字节)。?地址1CH-1FH,“00 EE 02 00”每秒所需的字节数

?(192000=频率*采样*通道数,一次占的字节数=48000*2*2);

有些地方也叫数据块对齐单位,,也是little-endian的,

?地址20H-21H,“04 00”,采样一次占字节数,有些地方也叫数据块对齐单位

这里是两个字节。。声道数*量化数/8=2*16/8=4(字节);

?这里是两个字节

?地址22H-23H,“10 00”,量化数

量化数,,也就是每个采样需要的bit数,也是little-endian的,所以这里是16位;

就是数据标识符““data”了;

?地址24H-27H,“64 61 74 61”,就是数据标识符

字节后的值,,这个也是little-endian的,

?地址28H-2BH,“00 30 0C 00”,存储的是文件大小刨去44字节后的值

Size=000C3000H=798720字节

字节。。

音频解码格式之——MP314

MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG-1 Audio Layer3,所以人们把它简称为MP3。MP3

是利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的file,换句话说,能够在音质丢

失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。

MP3也是一个数据压缩格式。它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一

个有损图像压缩),从而达到了小得多的文件大小。在MP3中使用了许多技术其中包括心理声学以确定音频的哪一部分可以

丢弃。MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。

根据MPEG规范的说法,尽管有许多创造和推广其他格式的重要努力,MPEG-4标准中的AAC(Advanced Audio Coding)将是MP3格式的接棒者。然而,由于MP3的空前的流通,在目前来说,其他格式并未能威胁其地位。MP3不仅有广泛的用

户端软体支持,也有很多的硬件支持,比如便携式数位音频播放器(泛指MP3播放器)、DVD和CD播放器。

mp3 -格式特点

?MP3是一个数据压缩格式是一个数据压缩格式。。

?它丢弃掉脉冲编码调制丢弃掉脉冲编码调制((PCM )音频数据中对人类听觉不重要的数据音频数据中对人类听觉不重要的数据((类似于JPEG 是一个有损图像压缩是一个有损图像压缩),),),从而达从而达到了小得多的文件大小到了小得多的文件大小。。?MP3音频可以按照不同的位速进行压缩音频可以按照不同的位速进行压缩,,提供了在数据大小和声音质量之间进行权衡的一个范围提供了在数据大小和声音质量之间进行权衡的一个范围。。MP3格式使用了混合的转换机制将时域信号转换成频域信号合的转换机制将时域信号转换成频域信号。。?32波段多相积分滤波器波段多相积分滤波器((PQF )。

?36或者12 tap 改良离散余弦滤波器改良离散余弦滤波器((MDCT ););每个子波段大小可以在每个子波段大小可以在0...1和2...31之间独立选择之间独立选择。。

?MP3不仅有广泛的用户端软件支持不仅有广泛的用户端软件支持,,也有很多的硬件支持比如便携式媒体播放器也有很多的硬件支持比如便携式媒体播放器((指MP3播放器播放器))DVD 和CD 播放器播放器。。

16

mp3 –ID3V1

?ID3v1标签用来描述

MPEG 音频文件。包含艺术家,标题,唱片集,发布年代和流派。另外还有额外的注释空间。位于音频文件的最后固定为128字节。可以读取该文件的最后这128字节获得标签。

结构如下:

AAABBBBB BBBBBBBB BBBBBBBB BBBBBBBB BCCCCCCC CCCCCCCC CCCCCCCC CCCCCCCD DDDDDDDD DDDDDDDD DDDDDDDD DDDDDEEE EFFFFFFF FFFFFFFF FFFFFFFF FFFFFFFG

18

MP3 –ID3V2

19?D3V2 的版本

D3V2 到现在一共有4 个版本,但流行的播放软件一般只支持第3 版,既ID3v2.3。由于ID3V1 记录在MP3 文件的末

尾,ID3V2 就只好记录在MP3 文件的首部了(如果有一天发布ID3V3,真不知道该记录在哪里)。也正是由于这个原因,

对ID3V2 的操作比ID3V1 要慢。而且ID3V2 结构比ID3V1 的结构要复杂得多,但比前者全面且可以伸缩和扩展。

?下面就介绍一下ID3V2.3:

每个ID3V2.3 的标签都一个标签头和若干个标签帧或一个扩展标签头组成。关于曲目的信息如标题、作者等都存

放在不同的标签帧中,扩展标签头和标签帧并不是必要的,但每个标签至少要有一个标签帧。标签头和标签帧一起顺序

存放在MP3 文件的首部

(一)、标签头

在文件的首部顺序记录10 个字节的ID3V2.3 的头部。数据结构如下:

char Header[3]; /*必须为"ID3"否则认为标签不存在*/

char Ver; /*版本号ID3V2.3 就记录3*/

char Revision; /*副版本号此版本记录为0*/

char Flag; /*存放标志的字节,这个版本只定义了三位,稍后详细解说*/

char Size[4]; /*标签大小,所有的标签帧的大小*/

(1).标志字节

标志字节一般为0,定义如下:

abc00000

a --表示是否使用Unsynchronisation,一般不设置

b --表示是否有扩展头部,一般没有(至少Winamp没有记录),所以一般也不设置

c --表示是否为测试标签(99.99%的标签都不是测试用的啦,所以一般也不设置)

(2).标签大小

一共四个字节,但每个字节只用7 位,最高位不使用恒为0。所以格式如下

0xxxxxxx 0xxxxxxx0xxxxxxx0xxxxxxx

计算大小时要将0 去掉,得到一个28 位的二进制数,就是标签大小(不懂为什么要这样做),计算公式如

下:

total_size= (Size[0]&0x7F)*0x200000+(Size[1]&0x7F)*0x4000+(Size[2]&0x7F)*0x80+(Size[3]&0x7F)

mp3 –ID3V2(续上

续上))(二)、标签帧

每个标签帧都有一个10 个字节的帧头和至少一个字节的不固定长度的内容组成。它们也是顺序存放在文件

中,和标签头和其他的标签帧也没有特殊的字符分隔。得到一个完整的帧的内容只有从帧头中的到内容大

小后才能读出,读取时要注意大小,不要将其他帧的内容或帧头读入。

帧头的定义如下:

char FrameID[4]; /*用四个字符标识一个帧,说明其内容,稍后有常用的标识对照表*/

char Size[4]; /*帧内容的大小,不包括帧头,不得小于1*/

char Flags[2]; /*存放标志,只定义了6 位,稍后详细解说*/

(1).帧标识

用四个字符标识一个帧,说明一个帧的内容含义,常用的对照如下:

TIT2=标题表示内容为这首歌的标题,下同

TPE1=作者

TALB=专集

TRCK=音轨格式:N/M 其中N 为专集中的第N 首,M 为专集中共M 首,N 和M 为ASCII 码表示的数字

TYER=年代是用ASCII 码表示的数字

TCON=类型直接用字符串表示

。。。。。。。。。(有很多种)

(2)帧大小

这个可没有标签头的算法那么麻烦,每个字节的8 位全用,格式如下

xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx

算法如下:

FSize= Size[0]*0x1000000 +Size[1]*0x10000 +Size[2]*0x100 +Size[3];

(3).标志

只定义了6 位,另外的10 位为0,但大部分的情况下16 位都为0 就可以了。格式如下:

abc00000 ijk00000

a --标签保护标志,设置时认为此帧作废

b --文件保护标志,设置时认为此帧作废

c --只读标志,设置时认为此帧不能修改(但我没有找到一个软件理会这个标志)

i--压缩标志,设置时一个字节存放两个BCD 码表示数字

j --加密标志(没有见过哪个MP3 文件的标签用了加密)

k --组标志,设置时说明此帧和其他的某帧是一组值得一提的是winamp在保存和读取帧内容的时候会在内容前面加个'\0',并把这个字节计算在帧内容的大小中。20

做好抖音视频的一些小技巧

做好抖音视频的一些小技巧 一、关于抖音视频的内容 标题是一个视频的门面,门面的好坏直接关系到上门的人数。一个优质的标题可以吸引人们的注意力,让其在观看之前就对视频产生兴趣。那什么样的标题才算是好的标题?视频的内容和风格不同,标题通常也是大相径庭。但是关于拟写标题,还是有一些共同的规律和方法的。 1. 制造悬念 悬念是非常有效的引发好奇心的手段,而好奇心可以说是观众观看视频的重要动力。 设置悬念的方法有很多,首先最直接的方式就是在标题中设置疑问。观众在看到疑问之后,如果想要找到答案,就只能在视频中寻找。这样在观看视频之后,观众不仅欣赏了视频同时还收获了解谜答疑的成就感。 抖音播主“我是小明”,以逻辑推理小故事吸引了四十多万名粉丝。他的作品通常会设置一个情景,然后让观看的人们猜测造成此情景的原因或这之后的结果。他的标题也是以诸如“小明为什么要夺门而逃”、“接下来会发生什么”这样的类型为主,通过设置悬念引发观众的好奇心。设置的疑问可以是开放式的问题,也可以是反问句式。对于开放式的问题,观众在视频中想要得到的是与自己的答案对比,所以使用开放式问题标题的视频在内容上更有包容性和普适性,尽量与观众的答案产生共鸣。这样,才能让观众产生播主是知音的感觉,才能留住观众。 而反问的视频标题,观众在视频中找寻的不是问题的答案,而是造成这种反问的原因。比如,“这居然是xx”这种标题吸引观众的原因,就是观众想知道到底什么样的情况造成了播主这样的反问。所以,使用这种标题的视频要尽量出人意料,这种意料之外能够制造惊喜和惊讶,从而“取悦”观众。 其次就是制造自我矛盾的标题。我们在很多文学作品中可以看到矛盾修饰法的存在,比如在莎士比亚戏剧作品《罗密欧与朱丽叶》中就有“美丽的暴君”、“天使般的恶魔”等诸如此类的形容。这种矛盾的修饰会让人感到迷惑,让人想去探知矛盾背后的真相。在抖音视频中,我们亦可以使用这种矛盾制造令用户疑

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

(完整)流媒体传输协议及音视频编解码技术

1.1音视频编解码技术 1.1.1 MPEG4 MPEG全称是Moving Pictures Experts Group,它是“动态图象专家组”的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。 目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD等。MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现,MPEG3只能是死于襁褓了。MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1、MPEG2技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为“AV对象”,而连续的AV对象组合在一起又可以形成AV场景。因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输AV 对象是MPEG4标准的基本内容。 在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。(合成的视觉对象包括2D、3D动画和人面部表情动画等)。在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。 由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰,一般来说,一小时的影像可以被压缩为350M左右的数据,而一部高清晰度的DVD电影, 可以压缩成两张甚至一张650M CD光碟来存储。对广大的“平民”计算机用户来说,这就意味着, 您不需要购置DVD-ROM就可以欣赏近似DVD质量的高品质影像。而且采用MPEG4编码技术的影片,对机器硬件配置的要求非常之低,300MHZ 以上CPU,64M的内存和一个8M显存的显卡就可以流畅的播放。在播放软件方面,它要求也非常宽松,你只需要安装一个500K左右的MPEG4 编码驱动后,用WINDOWS 自带的媒体播放器就可以流畅的播放了 AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的音视频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互性的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。 MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用 1.1.2 H264 H.264是由ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)联合组建的联合视频组(JVT:joint video team)提出的一个新的数字视频编码标准,

各种音视频编解码学习详解 h264

各种音视频编解码学习详解h264 ,mpeg4 ,aac 等所有音视频格式 编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。wiki的中文还是很不错的,但是阅读后建议再阅读英文。 我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。 基本概念 编解码 编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。 容器 很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。 FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、a vi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。因此wav、avi大量存在等于―IDP3‖的FourCC。 视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。 参数介绍 采样率 采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称―位速率‖)相混淆。

10万 短视频标题的21种技巧精编版

10万+短视频标题的21种技巧 最近有很多短视频行业的朋友跟我聊天,说自己内容制作完成之后,最大的问题就是不知道怎么取标题。其实做运营的同学都知道,好的标题能够辅助视频内容的传播,而不好的标题甚至会埋没一个优秀的视频内容。所以今天就和大家聊一聊今日头条发布短视频,标题究竟该如何取? 数字、数量的力量 第1招:数字的影响 当你的视频和标题被推荐到今日头条的首页时,用户滑动首页内容,视线停留在你标题上的时间也就一秒不到,那如何才能在这不足一秒的时间将你的内容最大化的输出给用户呢?就是将你的标题取得更加直观,更加简洁 那如何才能让自己的标题直观简洁呢?最简单的方法就是在你的标题中加上数字。 举例:想知道是否被好友删除,小技巧告诉你。 2招告诉你是否被微信好友给删除了! 加上数字之后是有两点好处的。一,将你的视频内容更直观的摆在用户面前,用户看到标题就知道你视频中会有哪些内容,会有几个技巧。二,给用户更加肯定的感觉。“2招告诉你是否被好友给删除了”,看完这“2招”你一定能够知道“你是否被微信好友给删除了”。一定能得到一些东西,一定程度上可以引导用户去看你的内容。 第2招:与数字有关的内容都用阿拉伯数字来表示 数字的影响中我也提到过,标题中加入数字会让标题更加直观。那相比较来说的话,“1、2、3、4”的直观程度,是比“一、二、三、四”更高的。比如说我刚刚提

到的“第一点”如果我用“第1点”来表示,你是不是觉得“第1点”更能吸引你的注意力呢?当然在文章写作中大家是很少用“第1点”代替“第一点”的。 再简单的举个例子,比如说你是烹饪教学类的短视频,某个短视频中一共涉及到3个煲汤的技巧。这个时候让你取标题,你该如何去取? 举例:三招让你学会怎样煲汤! 3招让你学会怎样煲汤! 哪个更直白、更直观,这个时候就显而易见了。 这一点也可以说是在今日头条上起标题的基本,所有和数字有关的技巧,神技能都会用阿拉伯数字来表示。当然从今日头条平台的反馈来说,这种起标题的技巧还是有收效的。 第3招:数量上吸引用户

音频编解码介绍

音频编解码原理介绍 一.为什么要进行音频编解码 二.音频编解码原理 三.几种基本音频编解码介绍 一、为什么要进行音频编解码 随着人们对多媒体图像和声音的要求越来越高,在高清晰数字电视(HDTV)和数字电影中不仅应有高质量的图像,也应当具有CD质量的立体声。因为用数字方法记录声音比用模拟方法记录声音具有更强的优势,例如传输时抗噪声能力强、增加音频动态范围、多次翻录没有信号衰减等。但是数字声音最大的缺陷是记录的数据量大,表现在两个方面:其一是在传输过程中,传输数字声音需要占用很宽的传输带宽;其二是在存储过程中,需要占用大量的存储空间。所以在数字音频中需要采用数字音频压缩技术,对音频数据进行压缩。 二、音频编解码原理 每张CD光盘重放双声道立体声信号可达74分钟。VCD视盘机要同时重放声音和图像,图像信号数据需要压缩,其伴音信号数据也要压缩,否则伴音信号难于存储到VCD光盘中。 一、伴音压缩编码原理 伴音信号的结构较图像信号简单一些。伴音信号的压缩方法与图像信号压缩技术有相似性,也要从伴音信号中剔除冗余信息。人耳朵对音频信号的听觉灵敏度有规律性,对于不同频段或不同声压级的伴音有其特殊的敏感特性。在伴音数据压缩过程中,主要应用了听觉阈值及掩蔽效应等听觉心理特性。 1、阈值和掩蔽效应 (1) 阈值特性 人耳朵对不同频率的声音具有不同的听觉灵敏度,对低频段(例如100Hz以下)和超高频段(例如16KHZ以上)的听觉灵敏度较低,而在1K-5KHZ的中音频段时,听觉灵敏度明显提高。通常,将这种现象称为人耳的阈值特性。若将这种听觉特性用曲线表示出来,就称为人耳的阈值特性曲线,阈值特性曲线反映该特性的数值界限。将曲线界限以下的声音舍弃掉,对人耳的实际听音效果没有影响,这些声音属于冗余信息。 在伴音压缩编码过程中,应当将阈值曲线以上的可听频段的声音信号保留住,它是可听频段的主要成分,而那些听觉不灵敏的频段信号不易被察觉。应当保留强大的信号,忽略舍弃弱小的信号。经过这样处理的声音,人耳在听觉上几乎察觉不到其失真。在实际伴音压缩编码过程中,也要对不同频段的声音数据进行量化处理。可对人耳不敏感频段采用较粗的量化步长进行量化,可舍弃一些次要信息;而对人耳敏感频段则采用较细小的量化步长,使用较多的码位来传送。 (2)掩蔽效应 掩蔽效应是人耳的另一个重要生理特征。如果在一段较窄的频段上存在两种声音信号,当一个强度大于另一个时,则人耳的听觉阈值将提高,人耳朵可以听到大音量的声音信号,而其附近频率小音量的声音信号却听不到,好像是小音量信号被大音量信号掩蔽掉了。由于其它声音信号存在而听不到本声音存在的现象,称为掩蔽效应。 根据人耳的掩蔽特性,可将大音量附近的小音量信号舍弃掉,对实际听音效果不会发生影响。既使保留这些小音量信号,人耳也听不到它们的存在,它属于伴音信号中的冗余信息。舍弃掉这些信号,可以进一步压缩伴音数据总量。

数字音视频编解码技术标准工作组

数字音视频编解码技术标准工作组 A VS Mxxxx: 201X年XX月 来源: 包括作者、单位名称等与创作者相关的信息 标题: 状态: 描述文件的版本或其他需要说明的信息,例如视频提案、DRM信息等 ___________________________________________________ 正文 中国数字音视频编解码技术标准工作组 会员提案专利披露与许可承诺表 根据《中国数字音视频编解码技术标准工作组知识产权政策》第十四、十五、十六条等相关规定,A VS会员在向工作组各专题组提交技术提案时应填写本《会员提案专利披露与许可承诺表》,作为该提案的必要组成部分同时提交。 专题组名称:音频□视频□系统□DRM□ 提案A VS文档编号:_ 提案日期:________ 提案标题: 提案会员名称:_ 提案代表姓名(印刷体):Email: 提案代表通讯地址:邮编 电话:______ __ 传真:__ ______________________ 提案会员应当通过选中表A或者通过选中并填写表B相关部分完成此表。表C可以自愿填写。下列表格均可根据实际需要增加表格行。 表A: 提案会员在其实际知晓的范围内已获知本提案不涉及提案会员和他人的专利、专利申请和专利计划。□ 表B-1: 在中华人民共和国已获得授权的专利和/或已公开的专利申请□ 如果本提案中包含提案会员或其关联者在中华人民共和国已获得授权的专利和/或已公开的专利申请,提案会员应当填写下表: 表B-2: 在中华人民共和国未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的未公

数字音视频编解码技术标准工作组知识产权政策

数字音视频编解码技术标准工作组知识产权政策

————————————————————————————————作者:————————————————————————————————日期:

数字音视频编解码技术标准工作组知识产权政策 (2004年9月12日第十次工作会议通过实施) (2008年3月29日第二十四次工作会议修订) 第一章、总则 第一条本知识产权政策文件(“知识产权政策”)规定了中国数字音视频编解码技术标准工作组(“工作组”)的与制订A VS技术标准的整个过程及其所产生的标准文 档相关的知识产权的管理规则。 第二条通过签署A VS会员协议,会员书面承诺该会员及其关联者及其工作组成员同意并遵守本知识产权政策的条款。 第三条本知识产权政策是A VS会员协议的必要组成部分,并通过引用纳入会员协议。 第二章、定义 第四条对于在本知识产权政策中使用并且在A VS章程、A VS会员协议和A VS章程细则中已有定义的词语,其含义应遵从有关文件中的定义。以下词语在本知识产 权政策中定义为以下含义: 1、“符合部分”仅指有关产品或服务中实施并符合最终A VS 标准的所有相关规范性要求的特定部分,这些规范性要求应当 在最终A VS标准中明确公开,并且其目的是为了使产品或服 务能够实现该最终AVS标准所定义的解码、编码、发送数字 媒体或识别和实施权利管理。 2、“必要权利要求”是指根据授权或公布专利的所在国法律, 被最终A VS标准的符合部分不可避免地侵权的该专利中的某 一权利要求,且仅限于该权利要求。 专利的某一权利要求被不可避免地侵权,是指该侵权不可能在 实施最终A VS标准时通过采用另一个技术上可行的不侵权的 实施方式予以避免。 必要权利要求不包括,并且许可也不适用于:(1)不符合上文 规定的其他权利要求,即使该权利要求包含在同一件专利中; (2)在最终的A VS标准文档中引用或以参考方式包括在内的 其他标准中涉及的权利要求;(3)制造或使用符合最终AVS 标准文档的任何产品、服务及其部分时可能必要,但没有明确 地在该标准文档中描述的实现技术。 3、“专利”是指许可方或其关联者拥有的或者在无需向非关联 第三方付费的情况下有权许可的,在任何国家授权的任何专 利、可执行的发明证书、授权的实用新型、或公布提请异议的 任何可执行的专利申请或实用新型申请,但不包括外观设计专 利和外观设计登记。 4、“规范性参考文件”是指并非由工作组制定而是通过引用包

音频剪辑软件哪个好用呢

现在网络上充斥着各种配音视频或者是修改音效的视频。B站里面的鬼畜视频几乎都是魔改音效的视频。当然这些视频都是使用视频剪辑软件和音频剪辑软件一起制作的。可以在视频中进行视频剪切、视频合并、视频分割去制作新的视频。当然音频也可以通过音频合并、音频分割和音频提取制作新的声音。那么下面就是使用音频剪辑软件制作声音的教程了。 1、首先还是需要安装一款音频编辑软件的。在迅捷视频官网中把迅捷音频转换器下载到桌面上,然后就是打开安装程序选择软件的安装保存位置,然后点击立即安装就可以了。 2、然后在软件中选择音频提取,由于软件默认使用音频转换功能,所以在开始使用之前也是需要提前修改文件格式的。然后点击软件中的添加文件按钮,把电脑中的视频文件添加到软件当中做转换。当然也可以拖到视频到软件中。

3、视频添加之后就可以进行其他的操作了。在软件右侧选择设置文件的片段名和视频片段的时间范围。然后就可以在预览面板中预览音频文件了。如果设置没有问题,那么可以点击确认并添加到输出列表了。 4、然后就是更换输出音频的保存位置了。点击软件中的更改路径按钮,然后在弹出的路径选择框中找到一个位置保存音频,软件是默认输出到桌面上也就是C:\Users\Desktop,选择好地址后点击选择文件夹即可成功修改。

5、然后就可以开始提取音频文件了。点击软件右下角的开始提取,然后需要等待软件将视频中的音频文件提取出来就行了。然后等到软件提取至100%,那么就可以在音频的保存路径看到了。或者点击打开按钮也能直接到达。 以上就是音频剪辑软件哪个好用了。当然迅捷音频转换器不仅能提取音频文件,还可以进行音频剪切、音频合并和音频转换等操作。

音频编解码技术的延时问题

SBC编解码器在A2DP协议里是必不可少的。由于是将信号以帧的形式填充到蓝牙数据包中,其整体延迟时间比较高,主要归于以下几个因素: 1.编解码器延迟:每个音频编解码器在将数据进行编码、解码并发出去之前会造成一定的内部延迟。传统的编解码器已检测到高达50ms的编解码器延迟。 2.传输延迟:A2DP传输层采用数据包结构。工程师在使用基于SBC或感知的帧填充数据包时,有两个方案选择:其一是将一个帧放入大型蓝牙数据包中(图1);其二是将一个帧分解成两个蓝牙数据包(图2)。采用第一个方案会降低数据传输的稳健性,而在第二个方案中,解码器只有在接收到两个蓝牙数据包以后才能对分解帧进行解码,因此将大大增加传输延迟时间。 图1

图2 apt-X是CSR 公司专有的一种编码格式,压缩率4:1(约352 kbit/s),号称可以达到CD 音质。由于是专有格式,必须要求播放设备与接受设备均采用CSR的蓝牙模块才行。 特点:无缓冲,低延迟,如果出现数据包损失的话,几乎无需重传数据。apt-X不同于SBC,它采用无框架结构。解码过程中,aptX编解码器无需等待便可高效地对蓝牙数据包进行填充,也就是说,一旦它接收到数据包便即刻启动解码过程,无需等待(图3)。此外,aptX采用固定压缩率算法,可在传输过程中始终提供相同的比特率,从而保证每个配备aptX的产品输出相同的音质。 aptX具备的一系列独特特性在提供专业的音频性能及稳健性的同时,还可保证40ms的编解码延迟。 图3 关于解码方式的一个比喻: 我们可以想象一个四车道的高速公路经过一座只有单车道的桥。使用aptX技术相当于桥头上的收费站将四车道上的车流处理(或编码)成单车道队列,使其能够穿桥而过。然后,在桥尾有另一个收费站将单车道车流又处理(或解码)回四车道。 SBC、AAC 和MP3技术的这些收费站,会限制通过车辆所允许携带的汽油量,这样每辆车都必须将超出限量的汽油放掉。当他们通过桥另一端的收费站后,虽然汽油也许不会全部用完,但肯定比来时要少很多。此外,一旦您过了桥,之前放掉的汽油不会再还给您。换句话说,您永远失去了这些汽油。对重现音频这一事件来说,相当于上述几种解码方法使用更具破坏性的压缩技术来处理音频数据,使其能通过蓝牙传输,这意味着它们将扔掉自认为不重要的音频元素,仅重现有限的音频带宽。 SBC与aptX差别: 与SBC(Sub-Band Codec子带编解码)技术相比,aptX的优势比较明显: 在频率响应方面,aptX可以在整个频率范围内真实还原音频,SBC则会随着频率的增高,信号渐弱,从而导致失真显著。

音视频问题处理办法讲解

音视频设置说明 目录 一、音频设置 (2) 1、会议室-音频设置 (2) 2、本地音量调节 (3) 二、回音的消除设置 (3) 1、本地设置消除回音 (4) 2、桌面应用消除回音 (4) 3、会场回音消除方法 (6) 三、声卡驱动程序更新 (7) 四、视频设置 (10) 一、音频设置 1、会议室-音频设置 (1)进入会议室后,如果声音使用效果不佳,或仍不能正常使用,点击“会议”菜单中的“音频设置”,如图: (2)在弹出的对话框中选择“调节”按扭,可以对声音的输入输出进行调节。其中麦克风增益主要是用于,会议室声音较小时使用,多用于会场。一般桌面不使用,声音太大,容易产生回音。 2

2、本地音量调节 如下图,在会议室中,左下角本地视频中,可以拖动声音输出与输出的音量调节。 点击麦克,可以禁止本地声音的输入。如下图: 二、回音的消除设置 麦克风离音箱至少要1米,麦克风不要对着音箱,防止从音箱出来的声音通过麦克风又回到系统里,造成回音;音量设置里,声音输入(录音),除麦克风外(cd音量、线路音量)都设置成静音,在播放设备里面要把麦克风输入、软件合成器设置成静音,并且在高级控制选项里把麦克风加强的勾去掉。 检测自己是否有回音方法:自己话筒打开状态下,如果本地会场无声音输入到系统,但是当外地会场

讲话时,自己的声波条却在闪动,则表示自己会场产生回音,需要进行如下调试工作。 1、本地设置消除回音 (1)打开“音频设置”窗口,点击“选项”菜单中的“属性”打开,如下:

(2)在“播放”选项中音频设置窗口将“麦克风”勾上“静音”,并将“软件合成器”勾上“静音”且将其音量设至最小,这样也可以有效的防止回音,如图: 2、桌面应用消除回音 (1)桌面应用时有时候也会产生回音,这时,检查本地的声音输入是否太大,可以适当的调整小麦克的小平滚动条较小,来减少回音。如图: 。 4 (2)购买的摄像头尽量不要带usb麦的,如果带了使用中务必禁用(在设备管理器中禁用)

音乐剪辑合并软件哪个好用

其实现在很流行的一些抖音歌曲大部分都是用音频编辑软件进行剪辑合成处理的,使用音频剪辑软件就可以将一首歌曲的副歌部分剪辑下来这时别人就很容易能快速听到此歌曲的高潮部分无需等待。那么音频编辑软件有哪些?下面小编就给大家推荐几款简单的音频编辑软件分享给大家,希望对大家能够有所帮助。 软件一:迅捷音频转换器 迅捷音频转换器是一款专业的音频转换编辑工具,拥有音频剪切、音频提取、音频转换等多种功能,能够用多种分割方式进行音频剪切,而且支持批量操作,功能强大,操作简单,绝对是一款不容错过的软件。 软件特色

1、多种音频剪切方式 支持平均分割、时间分割、手动分割 2、产品功能丰富 支持音频剪切、音频提取、音频转换 3、支持文件批量操作 不仅支持单个文件操作,还支持文件批量操作,提高效率 软件二:audacity

audacity(audacity中文版)是一个免费开源的音频编辑软件和录音软件,可导入WAV,AIFF,AU,IRCAM,MP3及Ogg Vorbis,并支持大部份常用的工具,如剪裁、贴上、混音、升/降音以及变音特效、插件和无限次反悔操作,内置载波编辑器。audacity(音频编辑软件)支持Linux、MacOS、Windows等多平台 软件特色: 1、功能强大,录音、混音、制作特效,并支持多种格式wav,mp3,ogg 等 2、免费且开源,无需支付任何费用 3、软件自带中文,界面操作简单明了

软件三:adobe audition adobe audition 3.0中文版中灵活、强大的工具正是您完成工作之所需。改进的多声带编辑, 新的效果, 增强的噪音减少和相位纠正工具, 以及 VSTi 虚拟仪器支持仅是adobe audition 3.0中文版中的一些新功能, 这些新功能为您的所有音频项目提供了杰出的电源、 控制、生产效率和灵活性。

各种音视频编解码学习详解

各种音视频编解码学习详解 编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。wiki的中文还是很不错的,但是阅读后建议再阅读英文。 我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。 基本概念 编解码 编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。 容器 很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。 FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。因此wav、avi大量存在等于―IDP3‖的FourCC。 视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。 参数介绍 采样率 采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称―位速率‖)相混淆。 采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。 对于语音采样: ?8,000 Hz - 电话所用采样率, 对于人的说话已经足够 ?11,025 Hz ?22,050 Hz - 无线电广播所用采样率 ?32,000 Hz - miniDV 数码视频camcorder、DAT (LP mode)所用采样率 ?44,100 Hz - 音频CD, 也常用于MPEG-1 音频(VCD, SVCD, MP3)所用采样率

音频编码及常用格式

音频编码及常用格式 音频编码标准发展现状 国际电信联盟(ITU)主要负责研究和制定与通信相关的标准,作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成,并广泛应用于全球的电话通信系统之中。目前,随着Internet网络及其应用的快速发展,在2005到2008研究期内,ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。 在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(相应于64Kb/s的比特率)。该量化器所采用的技术在1972年由CCITT (ITU-T的前身)标准化为G.711。在1983年,CCIT规定了32Kb/s的语音编码标准G.721,其目标是在通用电话网络上的应用(标准修正后称为G.726)。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准,在欧洲,TCH-HS是欧洲电信标准研究所(ETSI)的一部分,由他们负责制定数字蜂窝标准。在北美,这项工作是由电信工业联盟(TIA)负责执行。在日本,由无线系统开发和研究中心(称为RCR)组织这些标准化的工作。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也已经制定了一系列的卫星电话应用标准。 音频编码标准发展现状 音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法,一种称为MPEG2后向兼容多声道音频编码标准,简称MPEG2BC;另一种是称为高级音频编码标准,简称MPEG2AAC,因为它与MPEG1不兼容,也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。

音频编解码原理讲解和分析

音频编码原理讲解和分析 作者:谢湘勇,算法部,xie.chris@https://www.doczj.com/doc/545098090.html, 2007-10-13 简述 (2) 音频基本知识 (2) 采样(ADC) (3) 心理声学模型原理和分析 (3) 滤波器组和window原理和分析 (6) Window (6) TDAC:时域混叠抵消,time domain aliasing cancellation (7) Long and short window、block switch (7) FFT、MDCT (8) Setero and couple原理和分析 (8) 量化原理和分析 (9) mp3、AAC量化编码的过程 (9) ogg量化编码的过程 (11) AC3量化编码的过程 (11) Huffman编码原理和分析 (12) mp3、ogg、AC3的编码策略 (12) 其他技术原理简介 (13) 比特池技术 (13) TNS (13) SBR (13) 预测模型 (14) 增益控制 (14) OGG编码原理和过程详细分析 (14) Ogg V orbis的引入 (14) Ogg V orbis的编码过程 (14) ogg心理声学模型 (15) ogg量化编码的过程 (16) ogg的huffman编码策略 (17) 主要音频格式编码对比分析 (19) Mp3 (19) Ogg (20) AAC (21) AC3 (22) DRA(A VS内的中国音频标准多声道数字音频编码) (23) BSAC,TwinVQ (24) RA (24) 音频编码格式的对比分析 (25) 主要格式对比表格如下 (26) 语音编码算法简介 (26) 后处理技术原理和简介 (28) EQ (28)

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

常见的音频编码标准

常见的音频编码标准 在自然界中人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。然而,3G网络带来了移动多媒体业务的蓬勃发展,视频、音频编解码标准是多媒体应用的基础性标准,但其种类较多,有繁花渐欲迷人眼之感。那么常见的编码技术就是我们必须知道的,下面我们介绍一下最常见的编码技术。 1.PCM PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 2.W A V WA V是Microsoft Windows本身提供的音频格式,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式。实际上是Apple电脑的AIFF格式的克隆。通常我们使用W A V格式都是用来保存一些没有压缩的音频,但实际上W A V格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,换句话说,只要有软件支持,你甚至可以在W A V格式里面存放图像。之所以能这样,是因为W A V文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。在WINDOWS 平台上通过ACM(Audio Compression Manager)结构及相应的驱动程序(通常称为CODEC,编码/解码器),可以在W A V文件中存放超过20种的压缩格式,比如ADPCM、GSM、CCITT G.711、G.723等等,当然也包括MP3格式。 虽然W A V文件可以存放压缩音频甚至MP3,但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括:Sound Forge, Cool Edit Pro, 等等。 3.MP3 MP3它的全称是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。这个比喻相信大家都会同意。MP3是Fraunhofer-IIS研究的研究成果。MP3是第一个实用的有损音频压缩编码。在MP3出现之前,一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。 由于MP3是世界上第一个有损压缩的编码方案,所以可以说所有的播放软件都支持它,否则就根本没有生命力。在制作方面,也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer-IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的

相关主题
文本预览
相关文档 最新文档