当前位置:文档之家› 多媒体会议中新型快速实时混音算法

多媒体会议中新型快速实时混音算法

多媒体会议中新型快速实时混音算法
多媒体会议中新型快速实时混音算法

第29卷第3期2007年3月

电子与信息学报

JournalofElectronic8&InformationTbchn0109y

Vbl.29No.3

Mar.2007多媒体会议中新型快速实时混音算法

王文林廖建新朱晓民沈奇成

(北京邮电大学网络与交换技术国家重点实验室北京100876)

摘要:混音处理是多媒体会议系统中的一个关键环节,直接影响用户之问的相互交流。现有常用的混音算法巾存在着音量突变的问题,通过对这些混音算法的分析,得出了变化的混音权重是导致音量忽大忽小的主要原因的结论。在此基础上,该文提出了一种采用与混音输入无关的恒定混音权重的非均匀波形收缩混音算法,该算法混音结果自然流畅,避免了音量突变的问题。该算法运算简单,速度快,没有乘除法操作,容易硬件实现。可以广泛应用于大规模的多媒体会议系统中。

关键词:多媒体会议;音频处理单元;非均匀;波形收缩;混音

中图分类号:TN919.8文献标识码:A文章编号:1009.5896(2007)03.0690.06

ANoVelFhstReal-Ti】meAudioM奴iIlgAlgorithm

‘inMulti]mediaConference

WangWbn—linLiaoJian-xinZhuXia伊minShenQi—wei

(&o钯‰∥工n6.o,^kt叫D嘲礼9口凡d鼬itc九i佗9死c^.,Be彬哪咖饥o,PDs幻口砌死把cDmm.,Be彬叼100876,∞{nn)

Abstmct:Inmultimedia

conference,audiomi)cingi8an_es8entialcomponent,whichaff&tsthecommunicationbetween118er8.Atpresent,thecommonly瑚edaudiomi)【ingalgorithmshaveaproteanVolume.ByanalyziI培thosealgorith瑚,theconclusionofmutativemi)【ingⅥreights七ringonproteanvolumeisdrawn.Baseonthis,anovelalgorithm

n砌edAsymmetric8l、)Vrave-Shrinking(AWS)i8prop08ed.Af-Ⅸedmi)【ingweightindependentofinput8i8瑚edtoe118urethenatllralandnuentoutput8withoutproteanvolume.Withoutmultiplicationanddivisionoper8tio珊,thealgorithmi8808impleandf缸tthatitcanbeeasilyimplementedbyhard、视reandwidelyappliediIllarge8caleIImltimediaconferenceBystems.

Keywords:Multimediaconference;APu(AudioProce88unit);A8ymmetrical;Ⅵ‘孙静?shriIll【ing;Audiomi)(ing

1引言

近年来,多媒体会议成为多媒体通信发展的热点之一。在多媒体会议中,音频交流最为频繁,实时性的要求也远远高于视频及数据,是多媒体会议中最基本的要素。为了具有更好的会议临场感.与会者希望能同时听到多个发言者的声音。在分散控制会议模式下,每个发言者的语音信号都单独传送给每个与会者,在终端处进行混音后再播放,这种方式需要占用大量的网络带宽,影响语音信号的QoS(QualityofSer、rice),并对终端有较高的要求。为此,ITU-T提出了集巾控制会议模式%在Mcu(Multipointcontrolun“)中对来自各发言者的语音信号进行混音处理,再将结果传送到每个与会者,极大地降低了网络传输的负担和终端的处理能力【2lo

目前各种混音算法都有其难以弥补的缺陷和不足,很难

2005-08-18收到,2006-01.03改回

国家杰出青年科学基金(60525110),新世纪优秀人才支持计划(NCET.0垂0111),高等学校博士学科点专项科研基金(20030013006),国家移动通信产品研究开发专项基金和电子信息产业发展基金资助课题

满足大规模会议的应用。文献【3】中的平均混音算法随着混音路数的增加音量急剧降低;文献【4,5】提出的对齐混音算法在混音过程巾会出现明显的音量忽大忽小的变化;文献【6】提出的自对齐混音算法则引入了部分噪音,并且音量偏小;实际应用较多的箝位混音算法17】也存在音量突然变化情况。本文基于H.323多媒体会议中集中式会议工作模式,提出一种新型的快速实时混音算法,采用与混音输入无关的恒定混音权重,杜绝音量变化,复杂度低,基本不引入噪音,且速度快,极易于软硬件实现。

2混音处理过程

根据ITU.T的H.323规范,在MCU中有MC(MultipointController)和MP(MultipointPmce880r)两.大核心模块.其中MP提供音频、视频和数据的集中处理能力,划分为AMP(AudioMP),VMP(VideoMP)和DMP(DataMP)3大模块。其中的AMP包括了多个APU(AudioProces8ingUnit),分别对应一个会议,各APU之间独立并行工作。APU的结构如图1所示16J.

 万方数据

第3期王文林等:多媒体会议中新型快速实时混音算法691

H缓冲器1H解码器1卜.叫编码器1

_缓冲器2H解码器2卜.一编码器2

●..混音器

●::

一编码器ⅣIH缓冲器ⅣH解码器吖卜-

一编码器Ⅳ+lIⅣ

Ⅳ+l

oL…………………………!

图l音频处理器结构图

在H.323集巾控制模式下,每个与会终端与MCU建立双工单播连接,实时与MCU交换数据流。其中音频流的编码格式可以采用G.71l,G.722,G.723.1,G.728和G.729编码规范,与AMP中的某一个APU相连,APU.中的Buffer作为抖动缓冲使用,可以在一定的程度上减少由传输导致的丢包、顺序不一致和抖动带来的影响。

经过缓冲的音频还必须经过相应解码器处理后才能由混音器进行混音,混音完成后,再根据输出终端不同采用相应编码器进行编码。所以。混音一般以音频流的一帧为单位进行处理。

?3混音原理

原理1声音是由于物体振动对周围的空气产生压力而传播的一种压力波,转换成电信号后,再经过抽样、量化,仍然是一种连续平滑的波形信号。

原理2量化后的语音信号的频率与声音的频率对应,振幅与声音的音量对应。

原理3量化的语音信号的叠加等价于空气中声波的叠加。

所以当各信号的抽样率一致时,混音可以实现为将各信号的采样数据线性叠加。在上述的ITU.T的G.7)()【系列编码规范巾,只有G.722的抽样率是16000。其它规范的抽样率是8000。如果要将G.722解码器的输出与其他解码器的输出混音,只需要隔位丢弃采样数据即可。

假设在会议t,中,有M路音频参与混音,在时刻t第i(待1,2,…,蚴路音频解码输出的数据为Ⅱl(t),其值域为【一2‘}一,2Q一一1】,其中0是量化精度。要求有^r+1路编码输出,通常Ⅳ-从不失一般性,可以约定第如=1,2,…,岣路输出数据为6,(t),其巾6l(t)是除0l(t)外其他肛l路的混音输出,而%+1(£)则是全部M路的混音输出,则

MM

6J(£)=∑G,(£)'歹=1,2,…,M;%+l(t)=∑q(t)(1)‘=l,l薯J‘暑l

由式(1)可知,6,(t)的值域不再是【-2Q~,2Q一一1】,产生了溢出,破坏了语音信号的特征参数,从而引入了噪音。随着Ⅳ的不断增大,发生溢出的频率不断上升,一般来说,在M兰4时,溢出引入的噪音过大将导致混音后的语音无法辨认。所以,混音算法的难点在于如何处理混音后采样值溢出问题。4已有混音算法分析

目前混音后采样值溢出处理方案较多,但基本思想一致,即根据原理2对语音信号的振幅做一定的平滑处理,即可以在不破坏(或基本不破坏)语音信号原有的频率的基础上避免溢出.故有

6J(£)=∑毗.j(£)q(£),歹=1,2,…,M

i;1.‘#』

‰+l(£)=∑毗肌。(t)口。(£)

几乎所有的算法都由式(2)而来,其中%(z)称为混音权重,不同算法之间的区别往往仅仅是权重不相同。

(1)平均算法平均算法(a_verageaudiomi)cingalgorithm,简称V算法)最为简单,就是将采样数据线性叠加后取平均值【31'所以其混音权重函数如下:

‰∽=击,i茹¨,歹=1'2'..?,M

%㈣∽=击,江1,2,…,M

该算法的实质是将各路语音的音量减少了肛1(或∽倍,所以随着M的增大,各路语音的衰减将愈加严重,最终导致语音细不可闻。而且,随着会议的进行,发言者数量吖不断变化,则叫(曲也不断变化,导致音量忽大忽小甚至声音断续,影响语音效果。所以V算法实际应用受到很大的限制,无法适应大规模会议的混音需求。

(2)对齐算法文献【4】中的混音算法是一种典型的对齐算法(alignaudiomi)【ingalgorithm,简称A算法),该算法令各路音频流当前混音帧巾采样值的绝对值的最大值为TotalMax,累加结果中采样值的绝对值的最大值为MiXedMax。即

T。talMaXj。tE【r'n毯阳(M1)

otE【r,r+4t1'l≠,、I…17

TotalMax黼2。。In粉。l(№)I)

M妇dM吗=吲#粉。。(№)I)

tdT’.丁+4£l、lI,

其中r为该混音帧的起始时刻,4t为帧的长度。而混音权重如式(5),其中易∈【l,Mi)cedMaX,/TotalMaxf】,用来调整最终输出混音结果的值。但文献【41没有考虑到MixedMax。可能大于极限值2口一一1,此时只能取厶∈【l,(2口~一1)/TotalMax;),否则将导致溢出。.

%,(力=差易,i=1'2'…,肘,歹=1’2,…,肘+1(5)

文献[51提出的混音算法与A算法类似,但每一路语音有各自的权重,所以能将低强度信号加强,增大其可识别度,

 万方数据

电子与信息学报第29卷

但是也会将一些背景噪音放大,其混音权重如式(6)所示。

maxfIo.f外|1/

蚶)=焉箸,江1J2,…,州-1'2'…,肌l

(6)A算法有着不可避免的缺陷。第一,混音权重与各路音频采样值的最大值相关,所以在计算时导致采样值需要处理两次。第二,在实时混音过程中,连续两个混音帧的混音权重不同,这同样会导致音量忽大忽小。第三,随着混音路数M的变化,权重也不断变化,导致音量变化。所以A算法并不能满足实时会议混音的需求。

(3)箝位算法箝位算法(pincer8audiomi)【ingalgorithm,简称P算法)引入了一个初始值为1的筘位因子‘17J'混音权重表示为叫l,,(t)=‘,其中i≠幺亡=1,2,…,尬卢1,2,…,埘+1。

在计算过程中,设知时刻歹路输出值6,(%)发生溢出,则立刻重新计算正=(2争1—1)/16,(气)l,并将6,(乇)设为饱和值。气时刻以前的数据不再处理,但z;0以后的计算使用工的新值。为了避免箝位因子工的值越来越小,还必须在每隔4T时间检查工的值,如果小于1,则将其微调至稍大一些的值,即正=‘+△,。在文献【71中,4T取一个采样时间,但根据语音信号的特点可知。高强度信号往往持续一段时间,为了避免连续计算^,4T可以稍稍延长。

P算法实现简单,避免了A算法中采样值需要两次处理的问题,音量忽大忽小和声音断续的问题也较对齐算法有所改善,但如果在混音路数M较大,则溢出的概率较大,即工变化概率较大,此时如果M增加,则权重变化更加剧烈,导致音量的变化十分明显。并且,在M较大时,P算法对弱信号也将衰减工倍,将导致弱信号难以识别。所以P算法比较适用于小规模,混音路数变化不大的会议中。

(4)自对齐算法文献[61的自对齐算法(align-to_selfaudiomi)【ingakorithm,简称AS算法)提出以各路音频信号自身幅值所占的比例作为各自混音的权重,参见式(7):毗,J(t)=18l(t)I/∑10l(t)I,l≠五i,J=L2,…,M

,‘-l,llJ

fM

毗肌1(t)=|nl(t)I/∑10l(£)I,江1,2,…,M

AS算法不会发生溢出现象,但是该算法混音时没有遵循线性关系,所以会对语音频率产生一定影响而引入一定的噪音,音量大小变化剧烈,在参与混音的音频路数较多时表现尤为明显,而且此算法比较复杂,故不适合大规模实时会议中。

5非均匀波形收缩混音算法

上述几个算法各有特点,但缺陷大致相同。在V算法中,权重随参与混音的路数M变化;在A算法和P算法中。权重随TotalMax以及MixedMax变化;而在AS算法中,权重变化更为剧烈,随着每个采样值变化。因此上述各算法中的混音权重是时间£的函数。

若权重随时间变化,则定会导致各音频流的音量随时间不同而有不同程度的缩放,从而造成混音后音量大小变化不定,这就是上述各算法各种缺陷的根本原因。

而解决这个问题的关键,就是找到一个与时间t无关的权重。本文提出的非均匀波形收缩算法从这一关键问题着手,尝试解决上述缺陷。

(1)算法基本思想混音路数M以及各路语音信号的强度o。(£)都是时间t的函数,故混音权重与时间无关意味者它必须与混音路数M和q(£)无关。此时无法根据M和n,(£)计算6,(£)的值域,但由式(1)可知,M和o;(t)取任意值时6,(£)∈(-一,+一)都成立,所以在这里认为6,(£)∈(一一,+叫。

G.711规范中采用分段量化规则是基于在语音信号巾低强度信号比高强度信号出现几率更高的事实。非均匀波形收‘缩算法(AsymmetricalWjl,e.S王lrinkingaudiomixingakorithm,简称AwS算法)同样基于这一事实,其基本思想与G.711类似,采用分段收缩规则,对线性叠加后的采样数值进行收缩来保证不出现溢出,低强度信号采用较大的权重以确保信号的可识别性的同时获得一定的收缩比例.而高强度信号时采用较小的权重以确保得到相应的收缩比例.同时也保证一定的可识别性。

首先,对欲收缩的问题域分段。因为6,(£)∈(一一,+一),则16J(t)I∈[o,+oo),将【o,+o。)均匀地划分为若干段,每段长度为2口~,有[o,2口-1】,…,((铲1)2Q~,亿2口一1】,(竹2Q一,(计1)2争1】,…,若h(t)l落入区间[(俨1)2口一,礼2Q-1】,则称其为n级强度信号。

其次,确定各区问的收缩因子。引入基本收缩因子联胁1),并且遵循如下规定:区间0内的收缩因子为(七一1)/_j};区间1内的收缩因子为(1一@一1)/后)【@一1)/后】;区间2内的收缩因子则为(1一@一1)/后)(1-@一1)/后)【@一1)/叫;依次类推,区间n内的收缩因子为[@一1)/七】(1/七)”。

根据上述讨论,混音权重%(t)与i,工£均无关,虽然不能直接表现为常数的形式,但可定义为一个简单的映射关系:令6J(£)为式(1)的结果,则6;(£)=叫(6,(£)),如式(8)所示。其中89n(曲是符号函数,mod是取余操作。

炉s啡)《孚嘲‘2¨

q(t)=sgIl(㈣)∑孚…2铲1

+警㈢码(啪)mo拶.1),

%=I屯(t)I/2㈣,J=1,2,…,M+1

下面证明蟛(£)不会溢出。

证明由式(8),注意到吩永远不能为一,而且胁1,所以有

 万方数据

第3期王文林等:多媒体会议中新型快速实时混音算法693

啪|=lsgn(6J@《孚嘲‘2¨+竿盯

?(6J(t)mod2弘1)I

<篆字盼¨+竿盼¨‘.=等2¨酬‘<竿2¨驯’∥即I彰(f)J<2口一,因为采样值是整数,所以必有蟛(t)∈【_2口一,2口一一1】,即不会发生溢出。证毕(2)算法实现与优化在本算法的实际应用中,首要考虑基本收缩因子七的取值问题。为了运算方便,七一般取2的整数次幂。根据算法的特点,七值太小会对较大地收缩波形造成整体失真,太大则会导致高强度信号严重失真。所以取七=8或16较好,以下叙述中以碚8为例,此时该算法记为8.AWS算法。同时,根据G.7)o【系列规范,取仁16。

下面计算【@一1)/叫(1/七)”的值。考虑一定的数据精度,不能展开所有的移位操作,所以有当七=8时:

7=4+2+1号7z=4z+2z+z

=cz<<2,+cz<<?,+茁号吾(吉】’z

=(@<<2)+0<<1)+z)>>(3×(码+1))注意到喜孚胁¨对于固定‰七和Q来说是常数,并且当胆5时,吾皓]5215=o.875已经小于1,所以

可以忽略掉%>4以后的数值。于是得到表1。

由式(8)可知,只要计算出%之后,即可查表1得出Rsh‰和瓦,,可以求得混音结果,如式(9)所示。

%+。(t)=∑q(£)

6,(t)=‰+l(£)一吗(£),歹=1,2,…,M

码=min(1%0)I>>(印一1),4)

cJ(t)=l屯(t)I&(2口一一1)、

dJ(t)=(cJ(£)<<2)+(巳(t)<<1)+巳(£)

6∽=sgll(%(£))【h+(哆(t)>>融h~))

表1收缩因子累加式结果

吩鼬h~=3×(码+1)h=篓竿弘。1

O30

1628672

2932256

31232704

41532760

其中没有特殊注明的J取值为卢1,2,…,衅1。所以,计算一路混音输出的算法流程模型如图2所示。此流程与其他各路混音互不干涉。具有较强的并行性。

所以,混音输入路数为M输出为^件1路时,按abs(动,min(墨功,89Il(回3个函数各为一次比较计算,一个采样值的混音运算的最大复杂度为4M次加法,M次减法,4M次移位,M次按位“与”,M次查表,3M次比较操作,没有乘除操作,没有浮点运算,所以很容易采用硬件方式来实现。

图28.AWS混音算法模型

6实验结果

因为P算法与A算法的思想一致,并且前者明显优于后者,所以只选取V算法,P算法,AS算法以及8-AWS算法进行实验。在P算法中取471_10n18,4卢0.05。

如图3(a),3(b)是由解码器解码后输入到混音器的两路语音,均为10s,图3(c),3(d),3(e)和3(f)分别是由V算法,P算法,AS算法以及8-AWS算法混音后的输出。容易看出,V算法的输出虽然没有丝毫改变原有波形,但是输出的波形都收缩了两倍,即音量随之降低一半。P算法的输出波形比较符合原有波形,但当每次振幅溢出后,波形稍稍收缩,然后再慢慢扩大。而AS算法输出的波形失真较大,所有的波形尖锋明显被削弱甚至消失。8.AWS算法的输出非常符合原有波形,但波形明显比P算法的小,因为该算法的基本收缩因子为8,所有的波形都被至少收缩了1/8。

对图3(c),3(d),3(e)和图3(f)做的频谱分析,查看各波形的频谱分布情况。从原理2可知。均匀改变波形的振幅不会影响其频率,即V算法不会影响频谱分布。所以,在得到各频谱分布后,用图3(d),图3(e)和图3(f)的各频谱分布数值除以图3(c)的相同频谱的分布数值,再对结果求均方误差,分别为%=0.0120357,睨=0.198118,坼=0-0078736。

从上述结果看来,AS算法输出的波形的频谱偏离较大,因为该算法采取自对齐的方式j每一次都会改变各自波形的混音权重;而P算法的混音权重在振幅溢出处会减少,然后慢慢增加,所以也出现了较大的偏离情况;8-AWS的算法结果偏离最少,主要是因为该算法永远不会改变混音权重,只是采用非均匀收缩法,增加了高强度信号收缩比例。

从主观的听觉感受而言,V算法的结果音量偏小,随着混音输入的增多,音量越来越小,到^往4时已经无法分辨语音。而AS算法在输出大音量时语音不太自然。胜7时已比较严重,但是还能识别出语音。P算法的输出听觉效果较

 万方数据

电子与信息学报

第29卷

30000

Z3

。20

)Oa

I。1

【.“一眦山。i

I洫jiii

Ll

_

r|

『7

H-._-r

¨啊~曩

)0C

.20I

)0C

№—”*

.25I{2

567

930000

(a)解码后的语音输入l

30000

Z0uuU

20000“I。l虬‘

Il

。i.IlIliJ1500a

址l

ff

『1

7Ⅳ|r

r『

’r

7盯

_rr-一

?15000

一t..20000

.2500a

2—

67

’8

930000

(b)解码后的语音输入2

30000

ZUUUU

土IUIl▲j.1山UtI“‘-▲

“止0群

,门fI’丫1呷。1I丌’_l—

-7’矸y丌■’II-

一一!量卿

930000

(c)V算法混音后输出

(tI)P算法混音后输出

6-7

930000

(e)As算法混葺后输出.

2500C

lI

。lkJ址lJI

mlI.

∽臀

『1111

7二鲢

r_

r1

T一

1阿f

:;988{

.气nnnr

(D&Aws算法混音后输出

图3波形图

好,没有明显的断续现象,但是在突然的大音量后会有一定音量的减少,朋三10时感觉比较明显,音量缓慢增加的过程

基本感觉不出来:当^4兰5时,如果其中仅有一路信号强度较低,则该路语音不能识别。8-AWS算法输出语音的音量被减少成原有的7/8,但不影响声音辨认,低强度语音信号也能轻易识别,即使M增加到15,输出的语音一样自然流畅,没有可觉察的噪音。

各算法的时间消耗的比较如图4所示。本次测试中输入为10s语音流。每10I瑚为一帧,共计80000个采样点,执行

10次,取累加值,即图巾数值每个算法执行次数为80万次的时间。从图中可以看出。参与测试的几种算法的时间消耗基本与混音输入数量成正比关系,其中AS算法随输入增多而急剧上升,V算法,P算法以及8-AWS算法上升速度较为缓慢。在混音输入较少的时候,AS算法要比P算法快,在混音输入超过22路时,AS算法的时间消耗超过了P算法。而8.AWS的算法速度和最简单的V算法非常接近,比P算法

快近o.058。

0?250?2

o.15

墨o.1

O.05

÷矿+P+AS*8-A硼

.一

。.—/.J

?,,..馏伊—#Ⅸ”■。:一…一

—名嚣——一…一

10

15

20

25

30

35

40

45

50

混音输入数量

图4算法速度对比图

7结束语

变化的混音权重导致混音后音量忽大忽小变化,影响语音的识别。AWS混音算法基于在语音信号中低强度信号比高强度信号出现几率更高的事实,采用与混音路数无关的恒

定混音权重,混音效果理想,混音后语音自然流畅,没有噪音,具有良好的主观听觉感受,虽然音量比原有音量略微减小,但是在基本收缩因子七取值恰当时丝毫不影响声音识别,在多路语音输入时仍能保证语音质量。而且AWS算法简单,实时,快速。是目前最快的混音算法之一,完全满足多媒体

会议中高性能,高并发的混音要求,将AwS算法与文献【8]

中提出来的竞争策略结合后,能支持大规模的混音应用。同时,AwS算法不需要进行乘除法操作,没有浮点运算,容易

采用硬件实现。

.参考文献

【11

|2】

ITU.T.Packet-b船edmultimediacommunicationsystem.

ITU—TRecH.323

v4.2000.

VenkatRP,HarrickMV.andSriniva8R.Communication

盯chitecture8明dalgorithm8formediam政ing

inmultimedia

conference8.f髓E/一饥fno触。竹Ⅳct叫D嘲蛳1993,l(1):

2m-30.

GonazdlezAJ8ndHu88einA

W.Audiomixingfor

interactive

multimediacommunication8.JCIS’98.North

 

万方数据

第3期王文林等:多媒体会议中新型快速实时混音算法695

【6】

(:afolina.1998:217—220.

杨树堂,余肚生,周敬利.基于分组网络的多点实时语音混合

及调度算法.软件学报,2001,12(9):1413_1419.

Y觚gShu?tang,YuShen争sheng,a11dZhouJing-Ii.Amultipoint

real—timespeechmixingarId∞hedulingalgorithmb鹊ed∞

packetnetworks..,D“刚啦—Ⅵ,口,P,200l,12(9):1413—1419.

绘保民,王秀玲.一个改进的混音算法.屯子与信息学报,

2003,25(12):1709-1713.

XuBa0?minand、ⅣangXiu—ling.AnimpmvedmixedaudiO

a1兽omun.J0tlr眦l可Eleclronics&ln向rmntion乳ch∞to斟。

2003,25(12):1709-1713.

樊星,顾伟康,叶秀清.多媒体会议中的快速实时自适应混音

方案研究.软件学报,2005,16(1):108一115.

F锄Xing,GuWei-kang,andYeXiu?qing.Fastl℃aI-time

adaptiveaudiomixings曲emes.inmuItimediaconfe佗nc.ng.

.,Dl"。H口,q,.s碴/}w口陀,2005,16(1):108一115.

【8l

马旋,王衡,‘汪国平,等.视频会议中混音后溢出问题的研究

及解决方法.第13届全圉多媒体学术会议论文集.宁波,2004.

http://gr印hi璐.pku.edu.cn/papers/2004.htm.

涂卫平,胡瑞敏,艾浩军,等.视频会议中音频多点处理器的

研究.武汉大学学报信息科学版,2002,27(1):98—101.

Tuwei-pin&HuRui?min,柚dAiHao.jun,d耐。AudioMPin

Videoconfe陀nce.G幻m口,蛔彻d砸白r肿口肋玎&缸,腓矿耽施玎

跏如邮砂,2002,27(1):98—101.

王文林:男,1979年生,博士生,研究方向为多媒体通信、下一

代网络增值业务.

廖建新:男,1965年生,教授。博士生导师,主要研究领域为通

信软件、增值业务提供技术.

朱晓民:男,1974年生。博士。副研究员,主要研究领域为智能

网、下一代业务嘲络、协议工程.

沈奇威;男,1976年生,博士生,研究方向为网络智能、通信软

件.

 万方数据

多媒体会议中新型快速实时混音算法

作者:王文林, 廖建新, 朱晓民, 沈奇威, Wang Wen-lin, Liao Jian-xin, Zhu Xiao-min , Shen Qi-wei

作者单位:北京邮电大学网络与交换技术国家重点实验室,北京,100876

刊名:

电子与信息学报

英文刊名:JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY

年,卷(期):2007,29(3)

引用次数:0次

参考文献(8条)

1.ITU-T Packet-based multimedia communication system.ITU-T Rec H.323 v4 2000

2.Venkat R P.Harrick M V.Srinivas R Communication architectures and algorithms for media mixing in multimedia conferences 1993(1)

3.Gonazález A J.Hussein A W Audio mixing for interactive multimedia communications 1998

4.杨树堂.余胜生.周敬利基于分组网络的多点实时语音混合及调度算法[期刊论文]-软件学报 2001(9)

5.徐保民.王秀玲一个改进的混音算法[期刊论文]-电子与信息学报 2003(12)

6.樊星.顾伟康.叶秀清多媒体会议中的快速实时自适应混音方案研究[期刊论文]-软件学报 2005(1)

7.马旋.王衡.江国平视频会议中混音后溢出问题的研究及解决方法 2004

8.涂卫平.胡瑞敏.艾浩军.谢兄视频会议中音频多点处理器的研究[期刊论文]-武汉大学学报(信息科学版)

2002(1)

相似文献(1条)

1.学位论文陈庆华会议电视系统中的数据业务1999

该文首先介绍了基于ISDN的桌面会议电视系统的一般构成,之后对用于多媒体会议电视系统中特别是与数据业务相关的协议进行描进,如H.221、

H.230、H.224和T.120系列协议等.论文的第四章在总结前人研究的基础之上,结合中国的具体国情,提出了一个符合协议标准的数据通信模式,即如何在会议电视系统中建立连接、开通数据信道、完成数据传输业务以及实现数据通信的管理过程.论文的第五章是在结合已有的MCU系统板前提下,提出了实现业务的总体设计方案-软硬件结合方式.它既考虑了与已有的MCU板上的音频处理单元、视频处理单元和控制单元相结合,又能保证使软硬件的负担适中,是一种比较理想的解决方案.

引证文献(1条)

1.韩钰.普杰信一种新的网络电话会议混音算法[期刊论文]-计算机应用 2010(2)

本文链接:https://www.doczj.com/doc/849903884.html,/Periodical_dzkxxk200703044.aspx

下载时间:2010年5月25日

(完整word版)录音混音方法

录音混音方法 一. 录音环境 对录音这项看似平常,简单到从你家的电话录音机,到市面上出版的CD,DVD等,再到每天离不开你生活的广播电视,在在都显现出录音的重要角色,但是在就录音技术的讨论层面而言,对录音结果的好坏所造成的影响有几项因素。就我个人的浅见认为,录音环境、录音设备、『人』这三样因素影响最大。 谈到录音环境,就必须先对录音的种类有所认识与区分,大致来说录音可分为: 1. 广播录音:节目预录、电话收录、广播剧制作等。 2. 商业录音:唱片出版、广告制作、有声书等。 3. 电视制作录音:戏剧成音、配乐制作等。 4. 电影现场同步录音:对白收录、环境音收录、特效收录、生效创造等。 5. 音乐会/演唱会现场录音:单点录音、多轨录音等。 6. 环境音效录音:大自然声音收录、机械声收录、语音纪录保存等。 这几个分类算是最主要的录音需求,然而又会因为各类本身的实际状况与复杂性,产生各种不同的环境标准,当然这其中的重点,在于录音环境是否能提供一个合于该节目或音乐需求的因素,我们必须记着一点,只要你能收录到你所要用的声音,而且该声音合于你要出版或播出的水准,任何地方都可以成为最佳的录音环境;当然,要达到

真正的专业录音,好的录音设备也是重要的因素之一,最后影响录音结果的因素,则在『人』这个复杂的因子,因为这其中包含了个人专业技术与知识、人的情绪与心智、生理状况与听力等诸多复杂的影响范畴,这一部份我们且先略过,我们就先来谈录音环境吧! 如何挑选建录音室的地点: 1 远离机场、航道。 2 远离火车站、铁道。 3 远离市中心、大马路边。 4 尽量不要建在大楼之中,因为无法控制各楼层的噪音影响,不过在台湾不太可能不选择此一途径。 5 选择独立建筑。可以排除在大楼建筑中产生的结构性噪音问题。 6 远离工业区。 当然这些基本原则能达到最好,因为至少在设计与处理上比较经济,若无法避免就只好在设计上下工夫,多花一些预算了。 如何决定录音室的空间大小: 这是一般常被忽略的因素,一般我们会建议越大越好,因为隔音墙与声效墙、浮动地板与浮动天花板、空调与线路管线都会使建构完成的空间缩小,虽然有所谓的黄金比例的影响,如1:1.25:1.6的比例等,但不见得每个场地都有此等身材,因此专业的声响〈ACOUSTICS〉设计师对您就非常重要,特别是在有限的空间创造无限的声场可能性。接下来我将以录音室的总体考量为例,简单的介绍一个专业的录音室要如何建构,又要注意哪些问题。

对讲求助报警系统

平安城市对讲求助系统 设计说明书 一、系统概况 在社会发展过程中,往往会出现各种突发事件。当前社会的各种因素对国家安全和社会稳定的影响日益显现。在做好传统领域安全工作的同时,对防范一些恶意危害他人人身安全突发事件等方面的工作,必须切实予以加强。 数字化IP网络视频对讲系统可以及时有效的掌握社会动态,对求助者以帮助,发现有不良动向的人予远程喊话予震慑,是“创建平安城市,构建和谐社会”的重要组成部分,更能完善‘社会更加和谐’这一理念。 平安城市IP网络视频语音对讲系统的主要功能特点: 音像结合,一键呼叫,人民群众需要帮助时可以视频语音全双工通话 监控中心可以远程巡逻城市的各个监控网点,发现可疑迹象,可对不法分子远程喊话,同时也可以远程开启警笛等辅助设备,给犯罪分子予以震慑 公安局、公安分局和辖区派出所的3级管理模式,如有突发事件发生,所在地的辖区派出所会在第一时间给予响应,同时辖区派

出所可以向上级部门进行汇报,请求兄弟单位协。 总指挥中心结合所有的安监设施,当有突发事件时,可以对整个 公安系统、分局、派出所进行远程语音喊话、指挥、广播,将事件的危害性降低到最低程度 终端配置有中断触发口、大功率功放等,可外接警笛、警灯、扩 音喇叭等,在有突发事件发生时,将结合现场情况,智能给予驱动控制 系统可以定时播放、实时采播、自动打铃、远程巡更等特性 系统具备传输数字化、布局网络化、应用智能化、工程简单化等 优势 所有操作,都可录音录像或以日志的形式予以保存,以备后期查 阅。 核心技术 1) TCP/IP 技术 采用tcp/ip 网络技术,纯数字传输,通信不受地域限制。 2) 数字音视频技术 数字音视频技术是将模拟音视频信号数字编码,通过网络传输后,再由网络终端解码成高保真的模拟音视频信号。本系统借助于已有的以太网网络,具有传输损耗小、画面清晰、音质佳、不受区域限制、后期维护成本低等优势,得到业内好评。 模拟音源 网络音频设备 网络音频终端 喇叭 3) 回音消除技术 回音消除技术是为避免双向对讲时终端扬声器的声音再次进入话筒,引起的音质差、啸叫等现象的发生;抑制环境噪音对通话质量的影响而采取的技术手段,保证高质量的语音通话。 局域网/广域网 LAN/WAN

华平多路音频的混音方法

华平多路音频的混音方法 背景及问题 目前,随着视频会议及监控的迅速发展,视频和音频的应用技术已经相对成熟。在实际应用中,音频的交互处理仍然处于最基本和最核心的部分,人们对音频的实时性要求更为苛刻,因此,在网络带宽允许的条件下,当不同地点的多个终端,需要进行实时音频交互时,需要将多路音频按照一定的策略进行混合,并最终编码发送给另外的终端。 多路音频交互的核心问题就是混音,而提供资源使用率相对低且音频交互质量更高的混音方法,以提升用户的实际体验效果,已成为本领域技术人员需要解决的技术难题。 传统多路音频混音方法分析 为解决此类问题,传统的方法是采用多点控制单元(MCU)将多路音频信号混音为一路,如此可以有效降低网络数据的传输量。MCU混音的方式是:根据信号线性叠加的原理,将多路音频信号的采样量化数据叠加。随着终端数量的增多,此种方式会导致MCU的运算负荷和上传带宽急剧增大,所以此方式只能适用在较小规模的会议系统中。 将混音处理都集中在一台服务器来进行,对服务器的上传带宽和CPU处理能力要求很高,由此衍生出了分布式处理方式,即由多个终端来进行混音处理,而分布式的混音方法遇到的最主要问题就是对终端的下载带宽要求较高,同时也需要终端具有较高的多路音频解码和混音的处理能力,此外还需要终端配置良好的混音算法以获得高质量的混音效果。 目前,诸多的混音算法,用于处理4路以内的音频,还能获得较好的混音效果,然而对于4路以上的音频,混音后音质会急剧下降,而且极易出现量化溢出等问题(效果)。为了确保各路音频的波形尽量能够在混音后保持原始的形态,以达到声音真实还原和音质更佳的效果,就必须解决数据叠加溢出的问题。 常见的几种解决溢出问题的方式如下: 1.平均化时域线性叠加的方法; 此法最为简单,但是混音效果很不好,存在混音后各路的音频衰减太多,音量偏小,不利于实时的沟通。 2.基于变换域的混音方法: 将各路音频转化为频域并做覆盖性差值,最后转换回时域得到混音数据的方法。此类方法虽然能很好解决溢出问题,但实现四路以上的混音难度较高,不具备普遍应用的优势。 图1现有直接叠加混音后的效果图(6路音频输入) 华平多路音频混音方法分析 华平提供的多路音频帧的混音方法是一种基于时域信号叠加的自适应的多路音频混合方法,能够混合超过4路以上的音频,实现方法:先将多路音频帧中相应采样点的值分别叠加以获得至少一个样点数据,且当有叠加后的结果超出预设范围时,对当前帧增益因子进行调整,当一帧叠加完成后,将所得的当前帧增益因子与前一帧增益因子进行比较,根据比较后的结果再次调整当前帧增益因子,接着,再根据再次调整后的当前帧增益因子、及音量强度的初始值计算当前帧的音量强度等级,并判断音量强度等级是否等于预设值,如果是,则将叠加后获得的各样点数据形成的帧作为混音帧,如果否,则根据音量强度等级对各样点数据进行处理,以使处理后的各样点数据都处于预设范围内,并将处理后的各样点数据所形成的帧作为混音帧。 本多路音频帧的混音方法通过对线性叠加后的混音数据进行溢出判断,当溢出时,对当前帧增益因子做一定的调整和计算,然后通过对混音后每帧数据进行对比分析,根据对比前后帧的相关参数来不断调整增益调节因子,并当混音出现溢出的时候自动将当前帧做饱和处

虚拟低音的实现原理方案

虚拟低音的实现原理及验证方案 背景和理论原理: 在当前手持设备或其他消费电子设备中,由于体积和外形的要求,作为发声的喇叭尺寸受到了极大限制,尺寸的限制造成了喇叭对于低音部分无法响应.造成音频部分低音的缺失,无法给消费者提供更高要求的享受. 在人耳的研究中发现,人可以对两个高音的差频产生响应,给了听觉上造成低音的感觉,这就是所谓的虚拟低音. 实现算法框图 图1 其中谐波发生器和增益控制器的框图采用MAXBASS公布的算法:如图2

2 这里我们可以看出我们需要做的就是: ●提取低音信号和高音信号,需要设计一个高通和低通滤波器,低通滤波器来提取低音信 号,高通滤波器来提取高音信号,低通滤波器的截止频率为扬声器的截止频率,在demo 的时候我们做成固定的100HZ. ●谐波发生器. ●混频器. 滤波器 滤波器我们采用matlab的FDATOOL工具来实现,然后可以根据工具生成的系数,根据滤波器的结构采用matlab语言自己编写.滤波器可以看见的总共有4个,输入高低滤波的滤波器HPF-IN和LPF-IN,这两个滤波器的功率互补的. HPF-OUT和HPF-IN是一样的. HPF-FB是反馈回路高通滤波器.

上图可知,上面提到的4个滤波器的截止频率都是可调的.这里需要注意. 一开始我们可以做成频率固定的,因为我们可能并不会做成IC的形式,因此可以在软件中随时调整截止频率. 自动幅度控制模块: 上图为等响度曲线图,我们可以看出不同的频率,相同的升压变化造成的响度变化是不同的.这里我们定义声压-响度扩展比率,即升压变化/响度变化的值R. 在频率为20~700hz,响度为20-80方内:R的值可以近似为:

录音人声处理步骤

录音人声处理步骤和方法 2009-05-05 22:31:28| 分类:音乐技术交流阅读1132 评论1 字号:大中小订阅 录音人声处理步骤和方法 母带处理软件IZotope.Ozone3臭氧教程 母带处理软件IZotope.Ozone3臭氧教程 软音源地址:https://www.doczj.com/doc/849903884.html,本工作室开设:古典吉他考级和电吉他班编曲作曲电脑音乐制作班乐理辅导班等等 希望广大乐迷积极参与哦!{注:深圳吉他} 各位录音兄弟们好。现在是凌晨三点半。我从睡梦中醒来,给大家写这个教程。由于时间仓促,所以行文快速,有错漏的请各位高手们一一指出了。 后期处理即是母带处理。也就是录音混缩最后一个阶段的制作处理,做混音最后一步的调整和处理。母带处理不是件小事,绝对不能忽视,它甚至关系到整个作品给人的听觉上的感受。后期处理广义上指的是整个作品经过伴奏的录制、人声录制,人声效果混音、合成混缩后的再进行的环节。这是我对后期处理的理解,不知各位觉得是否贴切。许多兄弟位后期处理用恐龙(T-RACKS),哪个更好用,是仁者见仁、智者见智的,不过我还是对臭氧情有独钟。 Ozone3,江湖人称臭氧3。是一款运行在DX平台上的综合式音频效果插件,主要用于后期的母带处理。也就是最好用的后期处理软件。该插件界面超酷、功能强大、操作复杂、品质一流,目前最新版本为3.0.111版,由izotope公司开发。 OZONE3是个组合式的插件。包含有10段均衡器、混响器、电平标准化、高质量的采样精度转换、多段激励器、多段动态处理、多段立体声扩展、总输入/输出电平调节。比OZONE2多了好多新功能和算法。软件预置的方案比以往版本更丰富,有很大的实用和参考价值,并且还可以到https://www.doczj.com/doc/849903884.html,下载许多新的预置参数。 我用臭氧的时间不长,不过细细研究了一番。发现它并没有像许多人说的那么难。对OZONE的六个效果器基分别解释: 1)均衡器 是个典型的参量式EQ,可任意定制频段数量、范围和频点。这是我用过的音质最好最精细的EQ。EQ也并没有有些人说得那么神话。如果只是做流行音乐的话,你只需要记得这些人声的频段就行了。 100hz 以下(必切,喷麦声,低频噪音频段) 200-500hz 人声低音(决定响度、力度、震撼度;鼻音重则衰减) 500-900hz 人声中音、乐音、泛音(决定温暖度、音色;音色坚硬则衰减) 900-2Khz 人声齿音、人声高频(决定穿透力,音色太刺则衰减) 4-10Khz 选择切除 臭氧3 EQ的使用快捷键: ←→左移/右移频段节点(每按一次) ↑↓增益/衰减0.1db(每按一次) Ctrl + ← 增加Q值(值越大,带宽越小) Ctrl + → 减少Q值(值越小,带宽越大) 我一般只用它来修补和突出某频段的人声,这是我的常用设置: 1.5K 提升 5.3db 增加明亮感 29hz 衰减-2.3db 减少轰隆声 69hz 衰减-0.9db 减少轰隆声 600){return this.width=600;}"> 2)混响器 母带加的混响不同于混缩时的混响。最重要的是不能破坏作品的清晰度、原有声相,并要合理地设置声场。要与混音时的混响相互配合。这是我混音的设置: 600){return this.width=600;}"> 与之相对应的后期混响,要适度了(也就是说要两次混响,混音时一次,后期时一次,所以混音时的混响要适度)。不要加了效果像唱K房的感觉,这是最失败的混响。做音乐不像唱K,可以猛加混响掩盖声线的缺陷。混响太多,会令人感到不亲切,不真实,不自然地。 600){return this.width=600;}"> 后期处理加的混响主要用来冲淡伴奏轨和人声轨的混响达到统一,令人声与伴奏融合得更和谐。所以添加一定要适度。界点为50hz和7khz,以保证混响不至于浑浊。 3)音量最大化 左边部分是最大化音量(电平标准化),这个很好理解,也可以说这部分是个母带处理的整体限制器。相信用过WAVES L2的朋友很容易上手的。比L2多了几个选项。要慢慢理解。

音频常见指标介绍

THD(Total Harmonic Distortion,总谐波失真): 谐波失真是指音箱在工作过程中,由于会产生谐振现象而导致音箱重放声音时出现失真。尽管音箱或耳机中只有基频信号才是声音的原始信号,但由于不可避免地会出现谐振现象(在原始声波的基础上生成二次、三次甚至多次谐波),这样在声音信号中不再只有基频信号,而是还包括由谐波及其倍频成分,这些倍频信号将导致音箱放音时产生失真。对于普通音箱允许一定谐波信号成分存在,但必须是以对声音基频信号输出不产生大的影响为前提条件。 而总谐波失真是指用信号源输入时,输出信号(谐波及其倍频成分)比输入信号多出的额外谐波成分,通常用百分数来表示。一般说来,1000Hz频率处的总谐波失真最小,因此不少产品均以该频率的失真作为它的指标。所以测试总谐波失真时,是发出1000Hz的声音来检测,这一个值越小越好。 注:一些产品说明书的总谐波失真表示为THD<0.5%,1W,这样看来总谐波失真较小,但只是在输出功率为1W的总谐波失真,这与标准要求的测量条件下得到的总谐波失真是不同的。 SNR(Signal to Noise Ratio,信噪比): 指在规定输入电压下的输出信号电压与输入电压切断时,输出所残留之杂音电压之比,也可看成是最大不失真声音信号强度与同时发出的噪音强度之间的比率,通常以S/N表示。一般用分贝(dB)为单位,信噪比越高表示音频产品越好,常见产品都选择60dB以上。 Sample(采样): 这个字同时为动词与名词。做为名词之用时,表示一段录进来的声音(Audio);做为动词使用时,则表示录一段取样声音的录音动作。会用到"采样"这个字眼的场合,多半是针对采样过程,特别在不是录一整首歌曲,而只是录一段声音的状况。 Resolution(解析力、分辨率): 若是用在数字声音信号的领域当中,解析度是指一个取样值的位数,位数越大所能表现的数值范围就越广。解析力也叫还原度,顾名思义,是声音的还原能力。即声音的细节表现程度,以及复杂音场的处理能力 酒 阅茉角浚 缏方涌谏杓圃郊眩 乖 纫苍礁撸 诖 鞰P3等高压缩比音乐时,还原度会主变得相当重要,高还原度意味着音乐不会走样。解析力很差的机子,播放什么类型的音乐都会混乱不清,基本上不能再谈什么细节表现与层次感,亦无法把细微、复杂的东西都交代得一清二楚。然而,即使是最高级的MP3,解析力也远不如HIFI音响。 BIT RATE(比特率): 作为一种数字音乐压缩效率的参考性指标,比特率表示单位时间(1秒)内传送的比特数bps(bit per second,位/秒)的速度。通常我们使用kbps(通俗地讲就是每秒钟1000比特)作为单位。cd中的数字音乐比特率为1411.2kbps(也就是记录1秒钟的cd音乐,需要1411.2×1024比特的数据),音乐文件的BIT RATE高是意味着在单位时间(1秒)内需要处理的数据量(BIT)多,也就是音乐文件的音质好的意思。但是,BIT RATE高时文件大小变大,会占据很多的内存容量,音乐文件最常用的bit rate是128kbps,MP3文件可以使用的一般是8~320kbps,但不同MP3机在这方面支持的范围不一样,大部分的是32-256Kbps,这个指数当然是越广越好了,不过320Kbps是暂时最高等级了。 EQ均衡器: Equalization(均衡)将声音中的各频率的组成泛音等级加以修改的动作。例如,将频率为100 Hz的组成泛音推大,就会让声音中100 Hz左右的低频部份听起来明显一些。若觉

音视频通讯技术 视频二次开发方案

当我们使用像Skype、QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?网络语音通话通常是双向的,就模型层面来说,这个双向是对称的。为了简单起见,我们讨论一个方向的通道就可以了。一方说话,另一方则听到声音。看似简单而迅捷,但是其背后的流程却是相当复杂的。 语音采集 语音采集指的是从麦克风采集音频数据,即声音样本转换成数字信号。其涉及到几个重要的参数:采样频率、采样位数、声道数。 简单的来说:采样频率,就是在1秒内进行采集动作的次数;采样位数,就是每次采集动作得到的数据长度。 而一个音频帧的大小就等于:(采样频率×采样位数×声道数×时间)/8。 通常一个采样帧的时长为10ms,即每10ms的数据构成一个音频帧。假设:采样率16k、采样位数16bit、声道数1,那么一个10ms的音频帧的大小为:(16000*16*1*0.01)/8 = 320 字节。计算式中的0.01为秒,即10ms。 编码 假设我们将采集到的音频帧不经过编码,而直接发送,那么我们可以计算其所需要的带宽要求,仍以上例:320*100 =32KBytes/s,如果换算为bits/s,则为256kb/s。这是个很大的带宽占用。而通过网络流量监控工具,我们可以发现采用类似QQ等IM软件进行语音通话时,流量为3-5KB/s,这比原始流量小了一个数量级。而这主要得益于音频编码技术。所以,在实际的语音通话应用中,编码这个环节是不可缺少的。目前有很多常用的语音编码技术,像G.729、iLBC、AAC、SPEEX等等。 网络传送

当一个音频帧完成编码后,即可通过网络发送给通话的对方。对于语音对话这样Realtime 应用,低延迟和平稳是非常重要的,这就要求我们的网络传送非常顺畅。 解码 当对方接收到编码帧后,会对其进行解码,以恢复成为可供声卡直接播放的数据。 语音播放 完成解码后,即可将得到的音频帧提交给声卡进行播放。 如果仅仅依靠上述的技术就能实现一个效果良好的应用于广域网上的语音对话系统,那就没什么太大的必要来撰写此文了。正是有很多现实的因素为上述的概念模型引入了众多挑战,使得网络语音系统的实现不是那么简单,其涉及到很多专业技术。当然,这些挑战大多已经有了成熟的解决方案。首先,我们要为“效果良好”的语音对话系统下个定义,我觉得应该达到如下几点: (1)低延迟。只有低延迟,才能让通话的双方有很强的Realtime的感觉。当然,这个主要取决于网络的速度和通话双方的物理位置的距离,就单纯软件的角度,优化的可能性很小。(2)背景噪音小。 (3)声音流畅、没有卡、停顿的感觉。 (4)没有回音。 下面我们就逐个说说实际网络语音对话系统中额外用到的技术。 回音消除AEC 现在大家几乎都已经都习惯了在语音聊天时,直接用PC或笔记本的声音外放功能。殊不知,这个小小的习惯曾为语音技术提出了多大的挑战。当使用外放功能时,扬声器播放的声音会被麦克风再次采集,传回给对方,这样对方就听到了自己的回音。所以,实际应用中,回音消除的功能是必需的。

虽然对于录音和混音来说没有什么一定的原则

虽然对于录音和混音来说没有什么一定的原则,但是一旦你开发出一套自己 的混音步骤,那么它至少可以告诉你混音工作应该从哪儿下手。下面就是我的混音步骤。 在混音中你会花大量的时间来进行各种各样的调整。关于混音我们这里列出了12个(这只是个最低数量!)主要的步骤,而混音中最难的地方却是这些步骤之间的相互影响。当你改变均衡设臵的同时,电平值也会发生变化,这是因为你对声音中的某些元素进行了提升或是衰减,它会影响到其他的元素。事实上,你可以认为混音就是一把“音频密码锁”。当你将所有的号码都调到了正确的数字时,那么你就完成了一件伟大的混音。让我们一起来看一看这12个步骤,但是你要切记一点,这只是某一个人关于混音的见解,你很可能需要一套完全不同的但却是最适合于你的混音方法。 第1步:做好准备 混音可能是一件非常单调而乏味的事情,因此要设臵一个高效率的工作空间。如果你没有一把坐感舒适的椅子,那么你最好还是到附近的办公用具商店去一趟。准备一些纸张和一个笔记本,以便进行记录时使用,将灯光调整得暗一些,这样可以使你耳朵的灵敏度高于你的眼睛,还要让自己兴奋起来,开始你的“旅行”。要定时进行休息(例如每隔45到60分钟),这样可以让耳朵得到放松并使你保持一个清醒的头脑投入到工作当中去。如果你是在录音绷中进行工作,那么这种休息就显得有些太奢侈了,但是这种两三分钟的休息却可以让你更加客观地进行判断,使你的混音工作得以迅速地完成。 第2步:回顾音轨 先使用较低的音量听一听所有音轨中都有些什么东西,然后记录下音轨的信息,并使用即时贴或是可以擦除的笔来简要地标明哪一个声音对应调音台上的哪一路。最好按照一般的逻辑习惯来组合声音,例如将所有打击乐器的声音都放在调音台上相连的路中。 第3步:带上耳机清除瑕疵 检查录音细微的瑕疵是一件需要用到“左脑”的理性行为,这不同于用“右脑”来进行感性的混音工作。如果大脑在这两种性质不同的工作状态中跳来跳去一定会阻碍你创造力的发挥,因此在进行正式的混音之前,要尽可能地做好清理工作——消除录音中的杂音、弹错的音符以及其他类似的东西。这时你可以戴上耳机,分别单独播放每一个音轨来捕捉录时中的每一个细节。如果你是对MIDI音轨进行混音,那么此刻你应该做的工作无疑是减薄多余的控制器信号,消除重叠的音符,删去单音乐器音轨中多出来的声音(例如贝司和铜号的声部)。 为了整理录在磁带上(包括数字式磁带和模拟式磁带)的音轨,可以先将它们转录到硬盘录音机中,进行一些数字化的编辑和噪声抑制工作。虽然一些细小的杂音

【图文教程】广播剧和广播剧ED歌曲音频后期混响大法

混响大法(一)真实世界中的混响 ——整理:徐胤清声音遇到障碍会反射,所以我们这个世界充满了混响。如图: 在这个世界中,有没有没有混响的地方呢?有!你坐上飞机,飞到一万米高空,然后往下跳,这时你大喊大叫,就是没有混响的,因为你在空中,周围没有任何障碍物,你的声音将会无限扩散出去而不会被反射回来。所以就没有混响。 另一个没有混响的地方就是声学实验室。声学实验室的墙壁、天花板、地面是经过特殊处理的,声音到达墙壁后将会被墙壁吸收而不会被反射回来。为什么会被吸收?你可以做一个小实验,找100根针,就是缝衣服的针,把它们捆在一起,弄齐,然后你可以看看这一捆针的针头面,你会发现它是黑的,因为光线到达这一面后,经过多次反射,一直射到里面去,出不来,所以就没有光被反射出来,就好像光都被吸收了一样。声学实验室的布置也是

类似于此,把声音吸收。 录音棚是半个声学实验室,能做到吸收大部份的混响。录音棚的墙壁排列都是不规则的,表面是用松软的棉制品构成,虽然比不上那捆针头,但声音到达墙壁后进入那乱糟糟的棉花里,七反射八反射就留在棉花里出不去了,所以录音棚里的混响也很小。 在一个房间里大吼一声,会有多少反射声,答案是无数。看图: 在这个房间里,你拍一下巴掌,得到的声音是这样:

是不是很多?这其实是比较简单的一个反射过程。如果这个房间里再摆上一些桌子椅子,反射会更加复杂。 闭上眼睛,大吼一声,你就可以知道你大概处在一个什么样的环境中,在外面,还是在家里。甚至你在家里大吼一声,就可以知道你在哪个房间里,在这个房间的哪个位置上。这是因为各个房间由于空间大小不一样、家具的摆放不同、墙壁的材料不同,所以具有各自不同的混响特征;同一个房间里不同的位置上,由于你距离墙壁的远近不同,所以也具有不同的混响特征。你熟悉这些特征,所以你就能光凭声音就能分辨你在什么位置上。 一个看起来很菜鸟的问题:为什么录音和混音要加混响? 为什么录音和混音要加混响?答:因为录音时是没有混响的。 为什么录音时是没有混响的?答:因为录音棚是无混响的。 为什么录音棚是无混响的? 其实专业的录音棚是有混响的,他们有很多板状的材料,可以灵活把房间改造成各种混响特征。但随着数字录音技术的飞速发展,数字混响效果器能够模拟真实情况下的混响,所以大家就干脆把录音棚弄成无混响的,录完音后再用效果器来模拟混响效果,想要什么混响就有

Au_30_混音录歌教程

Adobe Audition 3.0录音教程 录音篇: 首先我们点选左上角的“文件”菜单,选择“新建会话”如图: 在这里是选择你作品的采样率,点确定。采样率越高精度越高,细节表现也就越丰富,当然相对文件也就越大,这里我们选择默认的也就是44100,因为大多数网络下载的伴奏都是44100HZ的,当然也有少数精品是48000HZ,比如一些CD上的扒下来的,所以大家在录音前先要知道自己选用的伴奏采样率是多少,乱选的话会出现变调的尴尬事 接下来我们要插入伴奏,可以点选“文件”菜单选择“导入”来插入你要的伴奏,或者是通过点选左边的快捷图标,被导入的文件会排列在左边的材质框里,我们选择刚刚导入的伴奏按右键,出现菜单,点选插入到多轨,它回自动插入到默认的第一轨道,也可以通过点选伴奏后按住左键不放直接拖到轨道里。

这样一来伴奏就加载完成了,接下来我们进入最重要的一个环节,就是录人声。点选第2轨,按下红色按钮R会出现一个对话框让你保存录音的项目,选择一个容量比较大的硬盘分区,新建一个专门的文件夹,然后保存在那里,以后每次录音的时候都会有一个保存项目,这就是录音文件的临时储存区,所有录音的内容都可以从那里找到,不过最好养成定期清理的习惯要不你会被庞大的文件淹没到你的硬盘的。呵呵!

言归正传,点选左下角的红色录音按钮,现在我们就可以拿起武器(麦)开始放声怒吼拉 ~~~(省略以下像杀猪叫一般的过程~~~) 录音完毕我们按下左下脚的方块停止键,此时将得到一条线条优美饱满的人声(翻胃中)。

二、效果篇~ 人要打扮才漂亮,歌也一样不好好打扮打扮还真没法出去见人。现在我们就来为刚录好的人声磨个皮,~~呵呵俗称降噪!首先左键双击人声的轨道切换到单轨编辑模式,也可以通过选择左上脚编辑、多轨切换图标来选择。 进入单轨编辑视图后,在人声轨道找一处没开唱的部分,点左键刷选一段,然后点选左上角的“效果”切换到效果界面,选择下面的“修复”菜单,双击“降噪器”后将回出现如下面版,注意我红圈里的两个参数,特性快照指的是在刷选时间里的采样副数,这里根据你的电脑性能来选择,数字越高采集点越密集,但是速度越慢,一般短时间内选1000就够了,我选了4000(谁叫俺电脑快呢~~)然后是FFT大小,这个依据你的设备好坏录音环境和电流底噪来决定,这个参数和你的设备性能等比上升,当然设备不好也可以选择高位参数只不过不准确,一般耳麦选4096~8192,设备和录音环境好的依次上升。参数都选好后点获取特性.

基于数字语音教室的多路混音算法及应用

基于数字语音教室的多路混音算法及应用 Multi-Point Audio Mixing Algorithm Based on Digital Classroom for Language learning and Its Application (1.武汉理工大学;2.长沙理工大学;3衡阳师范学院)刘新华13,李方敏1,旷海兰23,张小麟1 LIU Xinhua,LI Fangmin,KUANG Hailan, ZHANG Xiaolin 摘 要:在研究音频混音技术的基础上,结合基于嵌入式技术的数字语音教室的实际情况,提出了一种应用于数字语音教室的多路实时混音算法,并给出了在数字语音教室中利用多路混音算法实现多人实时音频交互的方法。 关键词:数字语音教室;嵌入式技术;混音 中图分类号: TP393 文献标识码: A 【Abstract】By researching on audio mixing technology and combining the real situation of digital classroom for language learning based on embedded technology, this paper proposes a algorithm for multi-point real-time audio mixing and its real application in digital classroom for language learning to solve the multi-point real-time audio communication. 【Keywords】Digital classroom for language learning; Embedded technology; Audio Mixer 0引言 随着多媒体语音数码技术、网络通信技术、实时嵌入式软件和硬件技术的进步,数字语音教室的技术日趋成熟。由于其在语音教学应用上有着传统语音教室无可比拟的强大功能,而被现代教育系统推广。数字语音教室是建立在网络数据交换的基础上,将经过A/D转换后的语音数据或音频的数据,通过标准的网络协议,传送到用户终端,网络及终端之间的消息传递,以符合标准网络协议的命令数据的形式反映,以达到语言学习的良好音质,满足教学方式多样性需求,充分合理的组建和利用教学资源的一种全新的语言学习系统。作为现代化教学的手段,数字语音教室将逐渐取代传统的语音教室。 在数字语音教室中,学生终端是基于嵌入式技术,而教师机采用的是计算机多媒体技术,二者通过网络通信技术实现交互,在这种交互过程中,尤其是以学生终端与教师机之间的实时音频交流为主要内容。在课堂教学中,当教师机进行广播讲话或广播音频时,学生端被动接受音频流;当教师端与学生终端进行一对一谈话时,由于双方均可收发音频流,在基于TCP/IP协议下,可以实现双工通信,但是如果将这种一对一谈话,向全班同学示范,即其他终端均能实时听见双方的谈话内容,就必须将双方的音频流进行混音,实时地广播给其他终端,特别是在一对多实时音频交流、小组实时音频讨论的情况下,需要进行更为复杂的混音处理,即多路混音处理。因此,多路实时音频混音技术,是设计开发数字语音教室的一个关键技术。 本文从分析数字语音教室的体系结构出发,在考虑学生终端处理能力及网络通信负荷的情况下,对数字音频混音技术进行了研究,提出了一种应用于数字语音教室的多路实时音频混音算法并分析了数字语音教室中混音技术的实际应用。 1数字语音教室的体系结构 传统型语言学习系统的结构设计主要就是以录音机机芯为主体,通过各厂家自行定义的相关线缆来进行连接与传输。数字化系统的核心技术是基于计算机数据传输协议的网络技术,在实际应用中,我们设计开发的数字语音教室的体系结构如图1所示:学生终端基于嵌入式技术,支持TCP/IP网络协议,支持语音输入、输出处理,能够输入4个以上选择项,具有选择和执行菜单功能。并具有以下外部接口:以太网网卡;电源接口;麦克风/耳机语音输入输出设备、显示屏(LCD)及键盘。教师机采用普通的PC机,采用Windows系统,利用Visual C++编写的服务器程序来控制包括学习终端的整个系统。根据实际要求可以为教师端配置磁带卡座、DVD播放器、投影仪、VCD机等外部辅助教学工具,这些均由教师机通过主板

虚拟低音的实现原理及验证方案

虚拟低音的实现原理及验证方案 虚拟低音的实现原理及验证方案背景和理论原理: 在当前手持设备或其他消费电子设备中,由于体积和外形的要求,作为发声的喇叭尺寸受到了极大限制,尺寸的限制造成了喇叭对于低音部分无法响应.造成音频部分低音的缺失,无法给消费者提供更高要求的享受. 在人耳的研究中发现,人可以对两个高音的差频产生响应,给了听觉上造成低音的感觉,这就是所谓的虚拟低音. 实现算法框图 音频输出高通滤波器音频信号+HPFIN 谐波发生低通滤波器器和增益LPFIN控制器 图1 其中谐波发生器和增益控制器的框图采用MAXBASS公布的算法:如图2 高通滤波器截止谐波输出频率为扬声器截LPFS IN*+止频率100 HPFOUT 1 sample delay包络检测 A(n)高通滤波器截止 频率f1*增益计算G=0.3HPF-FB 图2 A^k(n) 这里我们可以看出我们需要做的就是: , 提取低音信号和高音信号,需要设计一个高通和低通滤波器,低通滤波器来提取低音信 号,高通滤波器来提取高音信号,低通滤波器的截止频率为扬声器的截止频率,在demo

的时候我们做成固定的100HZ. , 谐波发生器. , 混频器. 滤波器 滤波器我们采用matlab的FDATOOL工具来实现,然后可以根据工具生成的系数,根据滤波器的结构采用matlab语言自己编写.滤波器可以看见的总共有4个,输入高低滤波的滤波器HPF-IN和LPF-IN,这两个滤波器的功率互补的. HPF-OUT和HPF-IN是一样的. HPF-FB是反馈回路高通滤波器. 上图可知,上面提到的4个滤波器的截止频率都是可调的.这里需要注意. 一开始我们可以做成频率固定的,因为我们可能并不会做成IC的形式,因此可以在软件中随时调整截止频率. 自动幅度控制模块:

音频混音常用效果器简介--开封名将录音棚

音频混音效果器类型简介 效果介绍 每种类型的效果都有什么作用?应当什么时候加以应用? 是什么让经过专业录音的歌曲听起来那么得“专业”?这应该不仅仅只是插上麦克风和吉他那么简单吧?实际上也是,良好的录音会提供给你好的素材和环境。比如,民族音乐或者交响乐就需要现场录制,不用其它修饰。 话说,大量的录音作品使用了效果工具,让声音更紧,更甜。这些设备被称作效果处理器,有硬件和软件的版本。你应该在很多种专业录音棚的照片上看到过。 效果器有很多不同的类型。有一些非常使用,用来控制录音信号。另外也有设计来增加空间感的。还有一些特殊的效果,用以增加歌曲的乐趣。 因为大多数流行的硬件效果器都有数字技术的基础,所以效果处理器是最早进行软件模型化处理并投放市场的。 现在市场中有经典效果器模型以及利用现代计算机优势制作的全新处理工具。 大多数的软件音序器会捆绑一些基本的效果,还有一些需要你从网络或零售商那里获得。不过,你并不需要花大量的资金去建立你的效果器工厂——有成百上千的免费效果器可以使用,这都归功于很多天才的软件开发者的无私奉献。 混响

压缩比例越高,效果就越强烈。1:1的设置没有什么作用,12:1的设置则会很猛烈。同样你也可以配合启动值和释放值来控制压缩器运作的速度。 使用 在那些需要收紧的对象上使用压缩。除非你的歌手掌握了很好的麦克风技巧,否则人声是需要考虑的。鼓组也是,用压缩器可以对其进行良好的塑造。 通过压缩,你的整体混音响度会更大。不过,太多的压缩或限制很容易让你的音乐失去生命。EQ和滤波器 PSP Audioware的sQuad套装中有一系列受模拟设备影响的EQ。 作用 EQ可以控制轨道的高中低频的用量。有的只有低音和高音控制,另外的则有8,16或32个频段。每一段都有滑竿,可以切除或提升特定频率或设定频率。 EQ和滤波器基本上是同样的东西,不过滤波器主要是设计用来减少特定频率的电平,而不做提升。 这些工具可以用来塑造轨道的音色——良好的混音中各种声音不会相互冲突。EQ或滤波器就是设计用来帮助收紧或强化频率的。 原理 EQ和滤波器给了你提升或衰减特定频率电平的控制能力。 滤波器是最简单的——它们通常提供了“切除”频率点之下或之上内容的功能。使用后,这

多媒体会议中新型快速实时混音算法

第29卷第3期2007年3月 电子与信息学报 JournalofElectronic8&InformationTbchn0109y Vbl.29No.3 Mar.2007多媒体会议中新型快速实时混音算法 王文林廖建新朱晓民沈奇成 (北京邮电大学网络与交换技术国家重点实验室北京100876) 摘要:混音处理是多媒体会议系统中的一个关键环节,直接影响用户之问的相互交流。现有常用的混音算法巾存在着音量突变的问题,通过对这些混音算法的分析,得出了变化的混音权重是导致音量忽大忽小的主要原因的结论。在此基础上,该文提出了一种采用与混音输入无关的恒定混音权重的非均匀波形收缩混音算法,该算法混音结果自然流畅,避免了音量突变的问题。该算法运算简单,速度快,没有乘除法操作,容易硬件实现。可以广泛应用于大规模的多媒体会议系统中。 关键词:多媒体会议;音频处理单元;非均匀;波形收缩;混音 中图分类号:TN919.8文献标识码:A文章编号:1009.5896(2007)03.0690.06 ANoVelFhstReal-Ti】meAudioM奴iIlgAlgorithm ‘inMulti]mediaConference WangWbn—linLiaoJian-xinZhuXia伊minShenQi—wei (&o钯‰∥工n6.o,^kt叫D嘲礼9口凡d鼬itc九i佗9死c^.,Be彬哪咖饥o,PDs幻口砌死把cDmm.,Be彬叼100876,∞{nn) Abstmct:Inmultimedia conference,audiomi)cingi8an_es8entialcomponent,whichaff&tsthecommunicationbetween118er8.Atpresent,thecommonly瑚edaudiomi)【ingalgorithmshaveaproteanVolume.ByanalyziI培thosealgorith瑚,theconclusionofmutativemi)【ingⅥreights七ringonproteanvolumeisdrawn.Baseonthis,anovelalgorithm n砌edAsymmetric8l、)Vrave-Shrinking(AWS)i8prop08ed.Af-Ⅸedmi)【ingweightindependentofinput8i8瑚edtoe118urethenatllralandnuentoutput8withoutproteanvolume.Withoutmultiplicationanddivisionoper8tio珊,thealgorithmi8808impleandf缸tthatitcanbeeasilyimplementedbyhard、视reandwidelyappliediIllarge8caleIImltimediaconferenceBystems. Keywords:Multimediaconference;APu(AudioProce88unit);A8ymmetrical;Ⅵ‘孙静?shriIll【ing;Audiomi)(ing 1引言 近年来,多媒体会议成为多媒体通信发展的热点之一。在多媒体会议中,音频交流最为频繁,实时性的要求也远远高于视频及数据,是多媒体会议中最基本的要素。为了具有更好的会议临场感.与会者希望能同时听到多个发言者的声音。在分散控制会议模式下,每个发言者的语音信号都单独传送给每个与会者,在终端处进行混音后再播放,这种方式需要占用大量的网络带宽,影响语音信号的QoS(QualityofSer、rice),并对终端有较高的要求。为此,ITU-T提出了集巾控制会议模式%在Mcu(Multipointcontrolun“)中对来自各发言者的语音信号进行混音处理,再将结果传送到每个与会者,极大地降低了网络传输的负担和终端的处理能力【2lo 目前各种混音算法都有其难以弥补的缺陷和不足,很难 2005-08-18收到,2006-01.03改回 国家杰出青年科学基金(60525110),新世纪优秀人才支持计划(NCET.0垂0111),高等学校博士学科点专项科研基金(20030013006),国家移动通信产品研究开发专项基金和电子信息产业发展基金资助课题 满足大规模会议的应用。文献【3】中的平均混音算法随着混音路数的增加音量急剧降低;文献【4,5】提出的对齐混音算法在混音过程巾会出现明显的音量忽大忽小的变化;文献【6】提出的自对齐混音算法则引入了部分噪音,并且音量偏小;实际应用较多的箝位混音算法17】也存在音量突然变化情况。本文基于H.323多媒体会议中集中式会议工作模式,提出一种新型的快速实时混音算法,采用与混音输入无关的恒定混音权重,杜绝音量变化,复杂度低,基本不引入噪音,且速度快,极易于软硬件实现。 2混音处理过程 根据ITU.T的H.323规范,在MCU中有MC(MultipointController)和MP(MultipointPmce880r)两.大核心模块.其中MP提供音频、视频和数据的集中处理能力,划分为AMP(AudioMP),VMP(VideoMP)和DMP(DataMP)3大模块。其中的AMP包括了多个APU(AudioProces8ingUnit),分别对应一个会议,各APU之间独立并行工作。APU的结构如图1所示16J.  万方数据

人声混响初级教程(Adobe Audition 3.0,Vocaloid2混音可用)

(如有人要转载此帖请注明原出处https://www.doczj.com/doc/849903884.html,/read.php?tid=10972115) 本来是打算写一个音频后期的详细教程,不过由于种种原因这个计划搁浅了,于是只好挑一个重点的部分来写. 嗯...好像大多数人对于后期混音都比较惧怕...我刚开始时也是这样,走了无数弯路,不过呢...在别人的指导下我终于有所顿悟...嗯...我把我学到的大概讲一下吧,希望同学们少走弯路. 本文所使用的音频处理平台为Adobe Audition 3.0,所使用的插件除了Au自带的外还有Waves水银包(经常做音频后期处理的同学应该都有这套插件吧)和iZotope Zone(著名的母带处理插件,别名"臭氧"). 重点讲一下对轨的技巧和效果器的连接方式,参数方面就不讲了,感觉越讲会越糊涂,而且有一些参数我也没搞明白,参数也不是绝对的,自己慢慢摸索可能更好. 1.对轨 对轨除了听以外还要看,看什么?看波形.导入音频文件后将其插入到多轨界面下的轨道中,首先要做的是将原唱歌曲和歌曲伴奏对齐,翻唱人声是比对原唱来对轨的,而不是去对伴奏. 原唱和伴奏对齐的要点是找鼓点,鼓点的波形通常较为突出,如果没有鼓点也要找相对明显的乐器声点.

波形大致对其后将鼓点部分继续放大,可以看到一些不规则的波形,波峰很明显,将波峰对齐~OK 接下来是将翻唱的人声干音和原唱对齐,可以比对音节的起头和音节的波峰,如果有些长音节难以辨别还可以去比对短音节.对齐后就可以准备将人声和伴奏混缩了. 2.添加辅助输出BUS(即总线,BUS这个词在计算机领域里有"总线"的意思) 关于后面要说到的总线轨,主控轨和多轨效果格架,如果想深入了解的去看这里 https://www.doczj.com/doc/849903884.html,/playlist/playindex.do?lid=8474438&iid=50261269&cid=25 https://www.doczj.com/doc/849903884.html,/playlist/playindex.do?lid=8474438&iid=50261257&cid=25

相关主题
文本预览
相关文档 最新文档