当前位置：文档之家› 音频处理实验报告》

音频处理实验报告》

深圳大学实验报告

实验课程名称：多媒体技术与应用

实验项目名称：音频处理 ______

学院：________ 专业：__________________________________

报告人： ___ 学号： _____________班级：___________ __

同组人：

指导教师： ____________________ 实验时间： __________________

实验报告提交时间： ________________________

教务处制

一、实验目的与要求

1.通过实验加深对声音数字化的理解。

2.熟悉一种音频处理软件的使用方法。

二、实验步骤：

（1）导入音频

在编辑视图下，选择“导入文件”命令，这时会出现“打开”对话框，在“查

找范围”中选择所需的文件夹，单击相应的音频文件。这时导入事先搜索下载或

录好的音频文件，其波形显示在波形显示区中。如图所示。

（2）降低噪声

因为本人用手持移动设备录音的缘故，因而受到环境影响较大，导致录制的声

音夹杂一些噪声（虽然在Audition中播放时并不明显），因此要用降噪效果器将

噪声减弱，提高录音音频的质量。操作是：先选择一段有嘶嘶声的波形（这里我

选取了全部的录音音频段），执行“效果/修复/消除嘶声”菜单命令，这时会出现“嘶声消除”对话框。如图所示。

单击“获取低噪”按钮，显示区域会显示分析结果，然后单击“试听”按钮，如果发现有过度降噪的现象，可以手动调整部分曲线。最后单击“确定”按钮即可。

降噪器是常用的噪声降低器，它能够将录音中的本底噪声最大程度地消除。因录音音频经过嘶声消除后噪音已被绝大部分地消除，故本人没有再使用降噪器处理录音音频。

（3）淡入/淡出

制作淡入效果的方法是：先选择开头的一小段合适的声音波形（经本人的反复试听，截取了“效果”菜单中选择“振幅和压限/振幅/淡化”命令，这时会出现“振幅/淡化”对话框，如图所示。

在“预设”列表框中选择“淡入”效果，单击“确定“按钮，被选中的声音波形就出现了淡入的效果。

制作淡出效果的方法是：先选择一小段结尾部分的波形，从“效果”菜单中选择“振幅和压限/振幅/淡化”命令，这时会弹出“振幅/淡化”对话框。在“预设”列表框中选择“淡出”效果，单击“确定”按钮，被选中的声音波形就出现了淡出的效果。（因为还没有截取与朗诵相对应的背景音乐片段，因此淡出效果的处理在后几步中才进行）

（4）音频剪辑（选取波形、删除波形等）

①选取波形：

在选取区域的起始点开始拖曳鼠标，直到选取结束松开鼠标。在拖曳过程中鼠

标的位置要保持在两个波形之间，才能同时选中左、右两个声中的波形，如图所示。

②删除波形：

先选取一段要删除的波形，然后按Delete键，即可将选取的波形删除。如图是删除后的效果。

利用选取和删除波形的操作，本人将两段背景音乐中不适合用作朗诵背景音并且冗余的部分删除，调整了两段背景音乐的合成和朗诵进入背景音乐的位置，并在两段背景音乐中都进行了淡化效果的处理，处理结果如图所示。

（5）延迟效果

为声音添加延迟效果的操作方法是：从“效果”菜单中选择“延迟与回声/延迟”命令，这时会出现“延迟”对话框。其中，移动“延迟时间”滑块可以改变左右声道的延迟时间。如图所示。（本人是选取其中一段背景音乐的末尾一段进行延迟效果处理）

（6）改变波形的振幅（音量增大、音量减小）

改变波形振幅的操作方法是：从“效果”菜单中选择“振幅和压限/放大”命令，这时会出现“放大”对话框，如图所示。

向右移动滑块可以增大声音音量，向左移动滑块可以减小声音音量，单击“预览”按钮可以预听声音效果，如果觉得不满意，还可以继续调整滑块，直到音量大小满意为止。

因为本人在试听最后音频时觉得次背景音乐声音过大，而朗诵声音过小，因此反复调试，直到最后结果满意为止。图为最终效果。

三．实验结果

利用Audition CS3完成了一个诗朗诵音频作品。该音频由2首背景音乐和1首无伴奏诗朗诵合成，其中运用了Audition CS3中的导入音频、降低噪声、淡入、淡出、音频剪辑（选取波形、删除波形等）、延迟效果和改变波形的振幅（音量增大、音量减小）等操作方法。

四．实验心得

1. 为了能有一个好的效果，我不断地进行编辑，有一次，我听起来觉得整段音频存在一些噪音，然后就按“效果/修复/降噪”，可没想到把整段声音都处理了，连自己的声音也几乎听不到了。原来这种处理方式是不行的，于是我又重新录过音，尽量减少环境噪音。可一次一次的经验，让我对音频编辑这个操作有了很深的了解，能力有了一定程度上的提高。

2. 在导出音频之前应该把音频处理的界面导出到一个位置，因为如果你在上交作业前重新听一次发觉还有瑕疵，想重新再处理一下，那就可以打开原来保存的处理界面。

3.通过运用Adobe Audition软件，我成功地制作了属于自己的配乐诗朗诵的音频文件，当自个完成打开聆听后，感觉既新鲜又兴奋。多媒体技术真的很强大，各种丰富的声音特效可以让原本平淡无奇的人声变得如此神奇，我因此而爱上了多媒体技术。

4.在以后的学习生活中，我要不断地实践，加深对音频制作软件的了解，提高使用他们的熟练程度，更好地为自己服务。当然，针对本次作业，由于是第一次实践，对软件的掌握还不够熟悉，所以制作出来的音频文件存在一些瑕疵，但我会不断努力的学习，我的水平一定能够更上一层楼的。

注：1、报告内的项目或内容设置，可根据实际情况加以调整和补充。

2、教师批改学生实验报告时间应在学生提交实验报告时间后10日内。

数字音视频处理

实验报告课程名称数字音视频原理实验题目MATLAB音频文件处理专业电子信息工程班级3班学号09080323 学生姓名王志愿实验成绩指导教师吴娱 2012年3月一、实验目的 1、掌握录制语音信号的基本过程； 2、掌握MATLAB编程对语音信号进行简单处理的方法并分析结果。二、实验要求

上机完成实验题目，独立完成实验报告。三、实验内容 1、问题的提出：数字语音是信号的一种，我们处理数字语音信号，也就是对一种信号的处理，那信号是什么呢？信号是传递信息的函数。离散时间信号（序列）——可以用图形来表示。按信号特点的不同，信号可表示成一个或几个独立变量的函数。例如，图像信号就是空间位置（二元变量）的亮度函数。一维变量可以是时间，也可以是其他参量，习惯上将其看成时间。信号有以下几种：（1）连续时间信号：在连续时间范围内定义的信号，但信号的幅值可以是连续数值，也可以是离散数值。当幅值为连续这一特点情况下又常称为模拟信号。实际上连续时间信号与模拟信号常常通用，用以说明同一信号。（2）离散时间信号：时间为离散变量的信号，即独立变量时间被量化了。而幅度仍是连续变化的。（3）数字信号：时间离散而幅度量化的信号。语音信号是基于时间轴上的一维数字信号，在这里主要是对语音信号进行频域上的分析。在信号分析中，频域往往包含了更多的信息。对于频域来说，大概有8种波形可以让我们分析：矩形方波，锯齿波，梯形波，临界阻尼指数脉冲波形，三角波，余弦波，余弦平方波，高斯波。对于各种波形，我们都可以用一种方法来分析，就是傅立叶变换：将时域的波形转化到频域来分析。 2、设计方案：首先要对声音信号进行采集，Windows自带的录音机程序可驱动声卡来采集语音信号，并能保存成.WAV格式文件，供MATLAB相关函数直接读取、写入或播放。利用MATLAB中的wavread命令来读入（采集）语音信号，将它赋值给某一向量。再将该向量看作一个普通的信号，对其进行FFT变换实现频谱分析，再依据实际情况对它进行滤波。对于波形图与频谱图（包括滤波前后的对比图）都可以用MATLAB画出。我们还可以通过sound/wavplay命令来对语音信号进行回放，以便在听觉上来感受声音的变化。 3、主体部分：（1）语音的录入与打开： [x,fs,bits]=wavread('d:\1.wav');%用于读取语音，采样值放在向量x中，fs 表示采样频率(Hz)，bits表示量化位数。

音频基础知识

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。有关音频的物理属性由于过于专业，请大家参考其他资料。自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。一、音频基本概念 1、什么是采样率和采样大小（位/bit）。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。 2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有

音乐剪辑合并软件哪个好用

其实现在很流行的一些抖音歌曲大部分都是用音频编辑软件进行剪辑合成处理的，使用音频剪辑软件就可以将一首歌曲的副歌部分剪辑下来这时别人就很容易能快速听到此歌曲的高潮部分无需等待。那么音频编辑软件有哪些？下面小编就给大家推荐几款简单的音频编辑软件分享给大家，希望对大家能够有所帮助。软件一：迅捷音频转换器迅捷音频转换器是一款专业的音频转换编辑工具，拥有音频剪切、音频提取、音频转换等多种功能，能够用多种分割方式进行音频剪切，而且支持批量操作，功能强大，操作简单，绝对是一款不容错过的软件。软件特色

1、多种音频剪切方式支持平均分割、时间分割、手动分割 2、产品功能丰富支持音频剪切、音频提取、音频转换 3、支持文件批量操作不仅支持单个文件操作，还支持文件批量操作，提高效率软件二：audacity

audacity（audacity中文版）是一个免费开源的音频编辑软件和录音软件，可导入WAV，AIFF，AU，IRCAM，MP3及Ogg Vorbis，并支持大部份常用的工具，如剪裁、贴上、混音、升/降音以及变音特效、插件和无限次反悔操作，内置载波编辑器。audacity(音频编辑软件)支持Linux、MacOS、Windows等多平台软件特色： 1、功能强大，录音、混音、制作特效，并支持多种格式wav,mp3,ogg 等 2、免费且开源，无需支付任何费用 3、软件自带中文，界面操作简单明了

软件三：adobe audition adobe audition 3.0中文版中灵活、强大的工具正是您完成工作之所需。改进的多声带编辑, 新的效果, 增强的噪音减少和相位纠正工具, 以及 VSTi 虚拟仪器支持仅是adobe audition 3.0中文版中的一些新功能, 这些新功能为您的所有音频项目提供了杰出的电源、控制、生产效率和灵活性。

音频处理的一些技巧

一、正常对话两个人的音量大小在-15到-6之间会很河蟹二、场景切换时间长度不要少于3秒，不然会感觉很赶。三、淡入淡出时间长度不要少于2秒，不然会完全没感觉。四、声音层次的分布：人声> 音效> BGM > 环境音效。五、人物脚步声除非特定，不要多于4秒，不然会很拖节奏。首先说一下：波形振幅处理 1、波形振幅—动态处理：这个是一个用来做音量的动态处理的一般来说很少用到。。因为它用起来不如C4那么直观。 2、波形振幅--渐变：渐变里面有很多的预制项，大多数时候我们只需要用到正常的预制就好了前面6个10 3 6DB CUT或则是BOOST就是音量波形减小或则增大。 CENTE WAVE 就是调整直流偏移。。就是调波形中线的东西 FADE IN和FADE OUT就是淡入淡出，这个记得你要先选一段，不然直接处理就变全干音淡入或则淡出了。也可以通过调整那个-240的数值做出声音慢慢接近或则慢慢走远的效果。然后是4个PAN开头的，意思是第一个，左边没声音，第二个，声音从左到右，第三个，声音从右到左，第四个，右边没声音。。这四个带耳机做一次就会听的很明显。接下来4个和上面四个差不多，第一个是右声道淡入，第二个是右边衰减3，第三个是左声道淡入，第四个是左边衰减3。我们可用2 和4做出声音偏左或偏右的感觉！调整那个-3DB 数值可以让感觉更偏或更中间。 3、波形振幅--空间回旋：就是立体声回旋啦，自己试听下就明白了 4、波形振幅--强硬限制：这是一个限幅器，就是用来限制增幅强度的。类似音量标准化，不过不同的地方在于这个是增加是加法。而音量标准化是乘法即按比例放大。 5、波形振幅—声道重混缩：这个就是混缩左右波形的让它重新生成的一个东西，比如说有一些干音左边大右边小，我们就声道重混缩一下，它就一样了。这个还有一个用处就是做伴奏带，消人声里面的VOCAL CUT 就是了。 6、波形振幅—声相/声场：就是声音位置处理和加强立体声感觉的一个东西，试着做1、2下就明白了，大多数时候用不到。 7、波形振幅—音量包络：

第三节音频处理软件GoldWave

第三节音频处理软件GoldWave 学习目标： 1了解GoldWave的特点。 2掌握GoldWave的基本操作及技巧。 3能使用GoldWave软件处理日常生活中遇到的各种音频问题一、GoldWave的特点 l GoldWave是一个功能强大的数字音乐编辑器，它可以对音频内容进行播放、录制、编辑以及转换格式等处理。 2支持WA V、OGG、VOC、MP3、WMA等几十种音频文件格式。 3可以从CD，VCD、DVD或其它视频文件中提取声音。 4软件内含丰富的音频处理特效，可以对声音进行回声、混响、降噪等特殊的处理。 5支持各种不同音频格式之间的相互转换。二、GoldWave的使用 1音频播放 (1)在主界面单击“文件-----打开”命令，或单击工具栏的“打开”按钮，在打开的对话框中选择播放的音频文件，单击“打开”按钮，声音波形将出现在窗口中。如果是立体声文件则分为上下两个声道的波形，绿色部分代表左声道，红色部分代表右声道，可以分别或统一对它们进行操作。 (2)单击控制器上的“全部播放”按钮进行播放。播放该音频文件，在播放波形文件的过程中可以随时进行暂停、停止、向后播放、向前快速播放等操作；在GoldWave窗口中会看到一条白色的指示线，指示线的位置表示正在播放的波形。单击“显示控制窗口”按钮，在控制器面板上会看到音频显示以及各个频率段声音的音量大小。 (3)通过控制器工具栏可以设置音频的播放方式、向后播放、向前快速播放、暂停、停止、创建文件录音及在选区内录音等操作；工具栏上各个按钮对应的快捷键及功能是：F2从头开始全部播放、F3只播放选区内音频、F4从当前位置开始播放、F5：向后播放、F6向前快速播放、F7暂停、F8停止、F9创建一个文件开始录音、Ctrl+F9在当前选区内开始录音、Fll设置控制器属性。 (4)单击“设置控制器属性”按钮(Fll)，出现“控制属性”对话框，进行具体的播放模式选择，并勾选“循环”复选框和设置循环次数等。也可对“录音”、“音量”、“视觉”、“设备”和“检测”等选项卡进行设置。 2音频录制录制声音之前应确保音频输入设备（壹克风）已经正确连接到计算机上，常用录制声音文件的方法是： (l)按F9键将创建一个文件并开始录音； (2)录音完毕，单击“停止录音”按钮(ctrl+F8); (3)单击GoldWavel工具栏上的“保存”按钮，打开“保存声音为”对话框； (4)选择文件类型、文件名及保存位置，单击“保存”按钮； 3时间标尺和显示缩放打开一个音频文件之后，在波形显示区域的下方有一个指示音频文件时间长度的标尺．它以秒为单位，清晰的显示出任何位置的时间情况。如果音频文件太长或细微观察波形的细节变化，可改变显示的比例来进行查看，单击“查看”菜单下的“放大”、‘缩小”命令可以完成，或用快捷键Shift十进

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

浦喆科技音频处理器

音频处理器品牌：浦喆是一款高性能、多种音频处理技术高集成的8路输入8路输出的数字音频处理器，采用DSP 音频处理技术，为用户提供卓越的声音品质；内置反馈抑制、回声消除、噪声消除等功能，还原高品质声音。主要应用于中大型场所，可以满足远程视频会议、体育场馆、会议中心、礼堂、宴会厅、展厅、多媒体会议、指挥中心等公共扩声系统等多方面的应用需求。功能特点: 1. 输入每通道：8路平衡式话筒/线路，采用裸线接口端子，平衡接法。 2. 输出每通道：8路平衡式线路输出，采用裸线接口端子，平衡接法。 3. 提供24bit/48KHz卓越的高品质声音。 4. 全功能矩阵混音，提供用户灵活、简单的信号路由操作，路由路径和电平大小可在一个按钮上完成。 5. 面板具备USB接口，支持多媒体存储，可进行播放或存储录播 6. 配置双向RS-232接口，可用于控制外部设备。 7. 配置RS-485接口，可实现自动摄像跟踪功能。 8. 配置8通道可编程GPIO控制接口（可自定义输入输出）。 9. 支持断电自动保护记忆功能。 10. 支持通道拷贝、粘贴、联控功能。 11. Enternet多用途数据传输及控制端口，可以支持实时管理单台及多台设备。 12. 支持通过浏览器访问设备，下载自带管理控制软件；软件界面直观、图形化，可工作在XP/Windows7、8、10等系统环境下。 13. 支持iOS、iPad、Android的手机/平板APP进行操作控制。技术参数： 1. 输入通道：前级放大、信号发生器、扩展器、压缩器、5段参量均衡、AM自动混音功能、AFC自适应反馈消除、AEC回声消除、ANC噪声消除 2. 输出通道：31段参量均衡器、延时器、分频器、高低通滤波器、限幅器 3. 采样率：48K 4. 幻像供电：DC 48V 5. 频率响应：20Hz-20KHz 6. 总谐波失真+噪声：＜0.002% @1KHz ,4dBu 7. 数/模动态范围(A-计权)：120dB 8. 模/数动态范围(A-计权)：120dB 9. 输入阻抗(平衡式)：20KΩ； 10. 最大输出阻抗（平衡式)：100Ω； 11. 通道隔离度：1kHz，100dB 12. 输入共模抑制：60Hz，80dB 13. 最大输出电平：+24dBu，平衡 14. 最大输入电平：+24dBu，平衡 15. 工作温度：0℃-40℃ 16. 工作电源：AC110V-220V,50Hz/60Hz 17. 电源功耗：<40W 18. 尺寸(宽x深x高)：482×258×45(mm)

(完整版)audition人声处理技巧

audition人声处理技巧人声音源的频谱分布比较特殊，就其发音方式而言，他有三个部分：一个是由声带震动所产生的乐音，此部分的发音最为灵活，不同音高、不同发音方式所产生的频谱变化也很大；二是鼻腔的形状较为稳定，因而其共鸣所产生的谐音频谱分布变化不大；三是口腔气流在齿缝间的摩擦声，这种齿音与声带震动所产生的乐音基本无关。频率均衡可以大致的将这三部分频谱分离出来。用于调节鼻音的频率段在500Hz，以下均衡的中点频率一般在80~150Hz，均衡带宽为4个倍频程。例如，可以将100Hz定为频率均衡的中点，均衡曲线应从100~400Hz平缓的过渡，均衡增益的调节范围可以为+10Db~ -6dB。这里应提醒大家的是：进行此项调整的监听音箱不得使用低频发音很弱的小箱子，以避免鼻音被无意过分加重。人声乐音的频谱随音调的变化也很大，所以调节乐音的均衡曲线应非常平缓，均衡的中点频率可在1000~3400Hz，均衡带宽为六个倍频程。此一频段控制着歌唱发音的明亮感，向上调节可温和地提升人声的亮度。然而如需降低人声的明亮度，情况就会更复杂一些。一般音感过分明亮的人声大多都是2500Hz附近的频谱较强，这里我们可用均衡带宽为1/2倍频程，均衡增益为-4dB左右的均衡处理，在2500Hz附近寻找一个效果最好的频点即可。人声齿音的频谱分布在4kHz以上。由于此频段亦包含部分乐音频谱，所以建议调节齿音的频段应为6~16KHz，均衡带宽为3个倍频程，均衡中点频率一般在10~12KHz，均衡增益最大向上可调至+10Db；如需向下降低人声齿音的响度，则应使用均衡带宽为1/2倍频程，均衡中点频率为6800Hz的均衡处理，其均衡增益最低可向下降至-10Db。由以上分析可以看出，对人声进行频率均衡处理时，为突出某一音感而进行的频段提升，都尽量使用曲线平缓的宽频带均衡。这是为了使人声鼻音、乐音、齿音三部分的频谱分布均匀连贯，以使其发音自然、顺畅。从理论上讲，应使人声在发任何音时，其响度都保持恒定。为了在不破坏人生自然感的基础上对其进行特定效果的处理可以使用1/5倍频程的均衡处理，具体有以下几种情形：（1）音感狭窄，缺乏厚度，可在800Hz处使用1/5倍频程的衰减处理，衰减的最大值可以在-3dB。（2）卷舌齿音的音感尖啸，"嘘"音缺乏清澈感，可在2500Hz处使用1/5倍频程的衰减处理，衰减的最大值可以在-6Db。对音源的均衡处理，最好是使用能显示均衡曲线的均衡器。一般数字调音台均衡器上的均衡增益调节钮用"G"来标识，均衡频率调节钮用"F"来标识，均衡带宽调节钮用"F"或"Q"来标识。延时反馈延时反馈是效果处理当中应用最为广泛，但也是最为复杂的方式。其中，混响、合唱、镶边、回声等效果，其基本处理方式都是延时反馈。 1、混响混响效果主要是用于增加音源的融合感。自然音源的延时声阵列非常密集、复杂，所以模拟混响效果的程序也复杂多变。常见参数有以下几种：混响时间：能逼真的模拟自然混响的数码混响器上都有一套复杂的程序，其上虽然有很多技术参数可调，然而对这些技术参数的调整都不会比原有的效果更为自然，尤其是混响时间。高频滚降：此项参数用于模拟自然混响当中，空气对高频的吸收效应，以产生较为自然的混响效果。一般高频混降的可调范围为0.1~1.0。此值较高时，混响效果也较接近自然混

音视频问题处理办法讲解

音视频设置说明目录一、音频设置 (2) 1、会议室-音频设置 (2) 2、本地音量调节 (3) 二、回音的消除设置 (3) 1、本地设置消除回音 (4) 2、桌面应用消除回音 (4) 3、会场回音消除方法 (6) 三、声卡驱动程序更新 (7) 四、视频设置 (10) 一、音频设置 1、会议室-音频设置（1）进入会议室后，如果声音使用效果不佳，或仍不能正常使用，点击“会议”菜单中的“音频设置”，如图：（2）在弹出的对话框中选择“调节”按扭，可以对声音的输入输出进行调节。其中麦克风增益主要是用于，会议室声音较小时使用，多用于会场。一般桌面不使用，声音太大，容易产生回音。 2

2、本地音量调节如下图，在会议室中，左下角本地视频中，可以拖动声音输出与输出的音量调节。点击麦克，可以禁止本地声音的输入。如下图：二、回音的消除设置麦克风离音箱至少要1米，麦克风不要对着音箱，防止从音箱出来的声音通过麦克风又回到系统里，造成回音；音量设置里，声音输入（录音），除麦克风外（cd音量、线路音量）都设置成静音，在播放设备里面要把麦克风输入、软件合成器设置成静音，并且在高级控制选项里把麦克风加强的勾去掉。检测自己是否有回音方法：自己话筒打开状态下，如果本地会场无声音输入到系统，但是当外地会场

讲话时，自己的声波条却在闪动，则表示自己会场产生回音，需要进行如下调试工作。 1、本地设置消除回音（1）打开“音频设置”窗口，点击“选项”菜单中的“属性”打开，如下：

（2）在“播放”选项中音频设置窗口将“麦克风”勾上“静音”，并将“软件合成器”勾上“静音”且将其音量设至最小，这样也可以有效的防止回音，如图： 2、桌面应用消除回音（1）桌面应用时有时候也会产生回音，这时，检查本地的声音输入是否太大，可以适当的调整小麦克的小平滚动条较小，来减少回音。如图：。 4 （2）购买的摄像头尽量不要带usb麦的，如果带了使用中务必禁用（在设备管理器中禁用）

音频编辑软件教程

音频编辑软件教程音频编辑软件教程系统介绍一下用Cooleditpro2.0录制自唱歌曲的一个全过程，希望对喜欢唱歌,想一展歌喉的朋友有所帮助。录制原声录音是所有后期制作加工的基础，这个环节出问题，是无法靠后期加工来补救的，所以，如果是原始的录音有较大问题，就重新录吧。 1、打开CE进入多音轨界面右击音轨1空白处，插入你所要录制歌曲的mp3伴奏文件，wav也可(图1)。

(图1) 2、选择将你的人声录在音轨2，按下“R”按钮。(图2)

(图2) 3、按下左下方的红色录音键，跟随伴奏音乐开始演唱和录制。(图3)

(图3) 4、录音完毕后，可点左下方播音键进行试听，看有无严重的出错，是否要重新录制(图4) (图4) 5、双击音轨2进入波形编辑界面(图5)，将你录制的原始人声文件保存为mp3pro格式(图6图7)，以前的介绍中是让大家存为wav格式，其实mp3也是绝对可以的，并且可以节省大量空间。

(图5) (图6)

注)需要先说明一下的是：录制时要关闭音箱，通过耳机来听伴奏，跟着伴奏进行演唱和录音，录制前，一定要调节好你的总音量及麦克音量，这点至关重要!麦克的音量最好不要超过总音量大小，略小一些为佳，因为如果麦克音量过大，会导致录出的波形成了方波，这种波形的声音是失真的，这样的波形也是无用的，无论你水平多么高超，也不可能处理出令人满意的结果的。另：如果你的麦克总是录入从耳机中传出的伴奏音乐的声音，建议你用普通的大话筒，只要加一个大转小的接头即可直接在电脑上使用，你会发现录出的效果要干净的多。降噪处理降噪是至关重要的一步，做的好有利于下面进一步美化你的声音，做不好就会导致声音失真，彻底破坏原声。单单这一步就足以独辟篇幅来专门讲解，大家

音频基础知识

一般认为20Hz－20kHz是人耳听觉频带，称为“声频”。这个频段的声音称为“可闻声”，高于20kHz的称为“超声”，低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别，所以二者的接线方法是不一样的，应引起注意。声学的基本概念音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如： 1．语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定，即以主观打分（MOS）来度量，它分为以下五级：5（优），不察觉失真；4（良），刚察觉失真，但不讨厌；3（中），察觉失真，稍微讨厌；2（差），讨厌，但不令人反感；

音频处理

使用技巧不管你的MP3歌曲的简单剪接或者音频格式的转换,还是更加高级的后期加工GoldWave都可以令你轻松胜,甚至你自己录一首卡拉OK,也可以经过GoldWave的修饰成为像歌星一样水晶般的动人声音! 快速入门GoldWave是标准的绿色软件，不需要安装且体积小巧（压缩后只有0.7M），将压缩包的几个文件释放到硬盘下的任意目录里，直接点击GoldWave.exe就开始运行了。既然是音频编辑软件，我就先得用音频文件来"开刀"！选择文件菜单的打开命令，指定一个将要进行编辑的文件，然后按回车。在毫无等待的时间相应内，GoldWave马上显示出这个文件的波形状态和软件运行主界面，让我吃惊它的运行反应速度。整个主界面从上到下被分为3个大部分，最上面是菜单命令和快捷工具栏，中间是波形显示，下面是文件属性。我的主要操作集中在占屏幕比例最大的波形显示区域内，如果是立体声文件则分为上下两个声道，可以分别或统一对它们进行操作。选择音频事件要对文件进行各种音频处理之前，必须先从中选择一段出来（选择的部分称为一段音频事件）。GoldWave的选择方法很简单，充分利用了鼠标的左右键配合进行，在某一位置上左击鼠标就确定了选择部

分的起始点，在另一位置上右击鼠标就确定了选择部分的终止点，这样选择的音频事件就将以高亮度显示，现在我们的所有操作都只会对这个高亮度区域进行，其它的阴影部分不会受到影响。选择的部分以高亮度显示当然如果选择位置有误或者更换选择区域可以使用编辑菜单下的选择查看命令（或使用快捷键Ctrl+W），然后再重新进行音频事件的选择。剪切、复制、粘贴、删除音频编辑与Windows其它应用软件一样，其操作中也大量使用剪切、复制、粘贴、删除等基础操作命令，因此牢固掌握这些命令能够更有助于我们的快速入门。GoldWave的这些常用操作命令实现起来十分容易，除了使用编辑菜单下的命令选项外，快捷键也和其他Windows应用软件差不多。要进行一段音频事件的剪切，首先要对剪切的部分进行选择，然后按Ctrl+X就行了，稍事等待之后这段高亮度的选择部分就消失了，只剩下其他未被选择的阴影部分。用选择查看命令并重新设定指针的位置到将要粘贴的地方，用Ctrl+V就能将刚才剪掉的部分还原出来，真是太方便了，和普通软件使用方法完全相同！同理，用Ctrl+C 进行复制、用Del进行删除。如果在删除或其他操作中出现了失误，用Ctrl+Z就能够进行恢复，所以在操作中尽可以放心大胆的使用，任何错误都可以挽回嘛！

音频处理器的调节方法

现在数字音频处理器越来越多地运用到工程当中了，对于有基础有经验的人来说，处理器是一个很好用的工具，但是，对于一些经验比较欠缺的朋友来说，看着一台处理器，又是一大堆英文，不免有点无从下手。其实不用慌，我来介绍一下处理器使用步骤。/ J( E: b) J3 }0 ^! _ a9 U 以一个2进4出的处理器控制全频音箱＋超低音音箱的系统为例：# a- X* J3 A1 _9 r/ ^ 1、首先是用处理器连接系统，先确定好哪个输出通道用来控制全频音箱，哪个输出通道用来控制超低音音箱，比如你用输出1、2通道控制超低音，用输出3、4通道控制全频。接好线了，就首先进入处理器的编辑（EDIT）界面来进行设置，进入编辑界面不同的产品的方法不同，具体怎么进入，去看说明书。& F5 r/ N5 p! S* I1 A 2、利用处理器的路由（ROUNT）功能来确定输出通道的信号来自哪个输入通道，比如你用立体声方式扩声形式，你可以选择输出通道1、3的信号来自输入A，输出通道的2、4的信号来自输入B。信号分配功能不同的产品所处的位置不同，有些是在分频模块里，有些是在增益控制模块里，这个根据说明书的指示去找。7 m. z) | a8 P1 d+ f6 ~& E 3、根据音箱的技术特性或实际要求来对音箱的工作频段进行设置，也就是设置分频点。处理器上的分频模块一般用CROSSOVER或X-OVER表示，进入后有下限频率选择（HPF）和上限频率选择（LPF），还要滤波器模式和斜率的选择。首先先确定工作频段，比如超低音的频段是40－120赫兹，你就把超低音通道的HPF设置为40，LPF设置为120。全频音箱如果你要控制下限，就根据它的低音单元口径，设置它的HPF大约在50－100Hz,。处理器滤波器形式选择一般有三种，bessel,butterworth和linky-raily，我以前有帖子专门说明过三种滤波器的不同之处，这里不赘述。常用的是butterworth和linky-raily两种，然后是分频斜率的选择，一般你选24dB/oct就可以满足大部分的用途了。 4、这个时候你需要检查一下每个通道的初始电平是不是都在0dB位置，如果有不是0的，先把它们都调到0位置上，这个电平控制一般在GAIN功能里，DBX的处理器电平是在分频器里面的，用G表示。 5、现在就可以接通信号让系统先发出声音了，然后用极性相位仪检查一下音箱的极性是否统一，有不统一的，先检查一下线路有没有接反。如果线路没接反，而全频音箱和超低音的极性相反了，可以利用处理器输出通道的极性翻转功能（polarity或pol）把信号的极性反转，一般用Nomal或“＋”表示正极性，用INV或“－”表示负极性。6 e0 u% [% V% E% p 6、接下来就要借助SIA这类工具测量一下全频音箱和超低音的传输时间，一般来说是会有差异的，比如测到全频的传输时间是10ms，超低音是18ms，这个时候就要利用处理器的延时功能对全频进行延时，让全频和低音的传输时间相同。处理器的延时用DELAY或DL Y 表示，有些用m（米）有些用MS（毫秒）来显示延时量，SIA软件也同时提供了时间和距离的量，你可以选择你需要的数据值来进行延时。 7、接下来就该进行均衡的调节了，可以配合测试工具也可以用耳朵来调，处理器的均衡用EQ来表示，一般都是参量均衡（PEQ），参量均衡有3个调节量，频率（F），带宽（Q或OCT），增益（GAIN或G）。具体怎么调，就根据产品特性、房间特性和主观听觉来调了，这个就自己去想了。1 i# v# n ?; ^, B 8、均衡调好后，就要进行限幅器的设置了，处理器的限幅器用LIMIT来表示，进去以后一般有限幅电平（THRESHOLD），压缩比（RATIO）的选项，你要做限幅就要先把压缩比RA TIO 设置为无穷大（INF），然后配合功放来设置限幅电平，变成限幅器后，启动时间ATTACK 和恢复时间RELEASE就不用去理了。DBX处理器的限幅器用PEAKSTOP来表示，启动后，直接设置限幅电平就可以了，至于怎么调限幅器，我有专门的帖子，自己去看。/ W( y9 c' h- o6 v+ ~( X 9、都调好了就要保存数据，处理器的保存一般用STORE或SA VE表示，怎么存，就看产

常用媒体编辑软件

常用媒体编辑软件音频文件与音频编辑软件 1．音频。我们知道声音是一种波形，通过麦克风可以将声音转换成模拟电信号，通过录音设备将声音录下来。然而计算机设备只能处理数字信号，所以要对模拟声音信号转换成为数字信号才能存储和处理。对声音的数字化处理包括采样和量化两个步骤。采样是指每间隔一段时间读取一个声音信号的幅度，一般使用44.1KHZ的采样率，此外还有22.05KHZ和11.025KHZ。量化是对模拟音频信号的幅度进行数字化，一般采用16位以确保采样的精度，此外还有8位和32位。当采样率和量化精度取较大值时，能够提高声音的保真度，而存储容量也会随之剧增。 2．MIDI。是英文Musical Instrument Digital Interface的缩写，中文含义是电子乐器数字化接口，是用多媒体计算机直接合成音乐的标准。MIDI文件不是一段录制好的声音，而是记录声音发声的过程，即音乐演奏的过程。因此MIDI 文件与数字音频相比，具有修改方便，体积小等优点。 3．声音文件格式。常用的声音文件格式有： ?WAV微软公司为Windows操作系统开发的声音文件 ?MIDI电子乐器数字化接口标准文件格式 ?MP3数字音乐压缩格式文件 ?VQF最新的NTT开发的声音文件，比MP3的压缩比还高 ?AIF Macintosh平台的声音文件视频文件与视频编缉软件常用视频软件有绘声绘影，Premiere，Ulead media studio和IfilmEdit等。这些软件是由不同的公司开发的，都能够编辑多种视频文件格式，如MPG、AVI 和MOV等。视频是由一系列的帧组成的，每一帧又是一幅静止的图像。计算机通过视频采集设备对视频信号进行扫描，然后通过采样、量化和编码生成数字视频。数字视频通常包括运动的图像、语音、背景音乐和音效，具有数据量大和实时性强两个特点。数字视频文件格式（下面的列表中提供了常用的数字视频文件格式）：?avi微软公司为Windows系统开发的视频文件格式 ?asf微软公司开发的视频文件格式 ?mov Quick Time动画文件 ?mpg MPEG视频文件 ?dat VCD中的视频文件 ?rm Realplayer 播放格式

音频基础知识

一. 音频基础知识 1. 音频编解码原理数字音频的出现，是为了满足复制、存储、传输的需求，音频信号的数据量对于进行传输或存储形成巨大的压力，音频信号的压缩是在保证一定声音质量的条件下，尽可能以最小的数据率来表达和传送声音信息。信号压缩过程是对采样、量化后的原始数字音频信号流运用适，当的数字信号处理技术进行信号数据的处理，将音频信号中去除对人们感受信息影响可以忽略的成分，仅仅对有用的那部分音频信号，进行编排，从而降低了参与编码的数据量。数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余，包括时域冗余、频域冗余和听觉冗余。 1.1时域冗余 A．幅度分布的非均匀性：信号的量化比特分布是针对信号的整个动态范围而设定的，对于小幅度信号而言，大量的比特数据位被闲置。 B．样值间的相关性:声音信号是一个连续表达过程，通过采样之后，相邻的信号具有极强的相似性，信号差值与信号本身相比，数据量要小的多。 C．信号周期的相关性:声音信息在整个可闻域的范围内，每个瞬间只有部分频率成分在起作用，即特征频率，这些特征频率会以一定的周期反复出现，周期之间具有相关关系。 D．长时自我相关性:声音信息序列的样值、周期相关性，在一个相对较长的时间间隔也会是相对稳定的，这种稳定关系具有很高的相关系数。 E．静音:声音信息中的停顿间歇，无论是采样还是量化都会形成冗余，找出停顿间歇并将其样值数据去除，可以减少数据量。 1.2 频域冗余 A．长时功率谱密度的非均匀性：任何一种声音信息，在相当长的时间间隔内，功率分布在低频部分大于高频部分，功率谱具有明显的非平坦性，对于给定的频段而言，存在相应的冗余。 B．语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值，而在另一些频率上出现谷值，这些共振峰频率具有较大的能量，由它们决定了不同的语音特征，整个语言的功率谱以基音频率为基础，形成了向高次谐波递减的结构。 1.3 听觉冗余根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型，将通过听觉领悟信息的复杂过程，包括接受信息，识别判断和理解信号内容等几个层次的心理活动，形成相应的连觉和意境，由此构成声音信息集合中的所以数据，并非对人耳辨别声音的强度、音调、方位都产生作用，形成听觉冗余，由听觉冗余引出了降低数据率，实现更高效率的数字音频传输的可能。 2. 常见音频编解码标准 2.1 AAC(Advanced Audio Codin) AAC于1997年形成国际标准ISO 13818-7。先进音频编码AAC开发成功，成为继MPEG-2音频标准（ISO/IEC13818-3）之后的新一代音频压缩标准。在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2 AAC。换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不

(完整word版)数字音频处理

数字语音实验吕佩壕 10024134 一、实验要求 1.编程实现一句话语音的短时能量曲线，并比较窗长、窗口形状（以直角窗和和哈明窗为例）对短时平均能量的影响； 2. 编程分析语音信号的短时谱特性，并比较窗长、窗口形状（以直角窗和和哈明窗为例）对语音短时谱的影响； 3. 运用低通滤波器、中心削波和自相关技术估计一段男性和女性语音信号的基音周期，画出基音轨迹曲线，给出估计准确率。二、实验原理及实验结果 1.窗口的选择通过对发声机理的认识，语音信号可以认为是短时平稳的。在5~50ms 的范围内，语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms 。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在窗长N=50时的时域波形。图1.1 矩形窗和hamming 窗的时域波形矩形窗的定义：一个N 点的矩形窗函数定义为如下： {1,00,()n N w n ≤<=其他 Hamming 窗的定义：一个N 点的hamming 窗函数定义为如下： 0.540.46cos(2),010,()n n N N w n π-≤<-??? 其他 = 这两种窗函数都有低通特性，通过分析这两种窗的频率响应幅度特性可以发 0.2 0.40.60.811.2 1.41.61.82矩形窗 sample w （n ） 0.1 0.20.30.40.50.6 0.70.80.91hanming 窗 sample w （n ）

现（如图1.2）：矩形窗的主瓣宽度小（4*pi/N ），具有较高的频率分辨率，旁瓣峰值大（-13.3dB ），会导致泄漏现象；汉明窗的主瓣宽8*pi/N ，旁瓣峰值低（-42.7dB ），可以有效的克服泄漏现象，具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗，在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。图1.2 矩形窗和Hamming 窗的频率响应 2．短时能量由于语音信号的能量随时间变化，清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析，可以描述语音的这种特征变化情况。定义短时能量为： 2 2 1 [()()] [()()]n n m m n N E x m w n m x m w n m ∞ =-∞ =-+= -= -∑∑ ，其中N 为窗长特殊地，当采用矩形窗时，可简化为： 2 () n m E x m ∞ =-∞ = ∑ 图2.1和图2.2给出了不同矩形窗和hamming 窗长,对所录的语音“我是吕佩壕”的短时能量函数：（1）矩形窗（从上至下依次为“我是吕佩壕”波形图，窗长分别为32,64,128,256,512的矩形窗的短时能量函数）： 00.10.20.3 0.40.50.60.70.80.91 -80 -60-40-20 0矩形窗频率响应归一化频率(f/fs)幅度/d B 00.10.20.3 0.40.50.60.70.80.91 -100 -50 Hamming 窗频率响应归一化频率(f/fs) 幅度/d B