多媒体技术应用教程2

  • 格式:ppt
  • 大小:2.12 MB
  • 文档页数:60

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
图2-2 人耳可听最小响度曲线
11
2.1.1 人类听觉特性
4.绝对听觉门限 绝对听觉门限( Hearing, 绝对听觉门限(Absolute Threshold of Hearing, ATH)指一个人在没有噪声的环境下, ATH)指一个人在没有噪声的环境下,能够产生 听觉,感知到一个纯音信号(某频率点) 听觉,感知到一个纯音信号(某频率点)的最小 能量幅度。 能量幅度。 绝对听觉门限用声压级表示,静音为0dB 0dB, 绝对听觉门限用声压级表示,静音为0dB,痛阈为 140dB。 140dB。
24
2.1.3 语音
语音是一种特殊的媒体,语音是人类所特有的,但 语音是一种特殊的媒体,语音是人类所特有的, 也是一种波形 一种波形, 也是一种波形,在计算机中表示方式与波形声音 的文件格式相同。 的文件格式相同。 语音处理的研究已经有一百多年的历史, 语音处理的研究已经有一百多年的历史,其研究范 围主要涉及:语音合成、语音编码、语音识别的 围主要涉及:语音合成、语音编码、语音识别的 基本算法和应用。 基本算法和应用。 计算机处理语音过程如图所示。 计算机处理语音过程如图所示。
15
2.1.1 人类听觉特性
7.异时掩蔽 指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的 情况下。 情况下。 若掩蔽声音出现之前的一段时间内发生掩蔽效应, 若掩蔽声音出现之前的一段时间内发生掩蔽效应, 则称为超前掩蔽,否则称为滞后掩蔽。 则称为超前掩蔽,否则称为滞后掩蔽。
16
2.1.1 人类听觉特性
7
听阈图2-1 听阈-频率曲线
8
2.1.1 人类听觉特性
2.音调 音调(Pitch)在物理学中是指声音的高低 声音的高低, 音调(Pitch)在物理学中是指声音的高低,实际上 就是指人耳对不同频率声音的一种主观感受。 就是指人耳对不同频率声音的一种主观感受。音 调主要由声音的频率决定, 调主要由声音的频率决定,同时也与声音强度有 频率高的声音,人感觉其音调也较高, 关。频率高的声音,人感觉其音调也较高,反之 人感知音调低的声音其频率也低。 ,人感知音调低的声音其频率也低。 对音调可以进行定量的判断,其度量单位为美( 对音调可以进行定量的判断,其度量单位为美 Mel),定义一个声压级为40dB 频率为1kHz ),定义一个声压级为40dB, 1kHz的 Mel),定义一个声压级为40dB,频率为1kHz的 纯音的音调为1000Mel 1000Mel。 纯音的音调为1000Mel。
4
2.1.1 人类听觉特性
音频信号的感知过程与人耳的听觉系统密不可分。 音频信号的感知过程与人耳的听觉系统密不可分。 对于人类听力感知的研究, 人类听力感知的研究 对于人类听力感知的研究,其范围从人耳的生理 设计到大脑对听觉信息的解释。当前, 设计到大脑对听觉信息的解释。当前,大部分感 知音频的编码算法都是基于心理声学模型的。 知音频的编码算法都是基于心理声学模型的。
2
第二章 音频处理技术
2.1 音频基本原理
2.1.1 人类听觉特性 2.1.2 数字音频 2.1.3 声音 2.1.4 语音
3
近十年来,随着计算机技术的高速发展, 近十年来,随着计算机技术的高速发展,以及能同 时满足数字信号的高压缩率和数字信号的高保真 透明重放质量的压缩算法及标准得到大量开发与 使用,数字音频已经广泛应用于因特网、 使用,数字音频已经广泛应用于因特网、多媒体 及无线通信系统,CD品质的数字音频 品质的数字音频已经从根本 及无线通信系统,CD品质的数字音频已经从根本 上替代了模拟音频。因此, 上替代了模拟音频。因此,人们对音频信号数字 化处理提出了越来越高的要求, 化处理提出了越来越高的要求,相应软硬件实现 手段的效率也在不断提高。 手段的效率也在不断提高。
18
2.1.2 数字音频
用计算机来处理音频信号必须将模拟音频信号转换 成有限个数字表示的离散序列,过程为: 成有限个数字表示的离散序列,过程为:选择采 样频率,即进行采样;选择分辨率, 样频率,即进行采样;选择分辨率,即进行量化 最后编码形成声音文件。 ;最后编码形成声音文件。声音的采样与量化如 图所示。 图所示。
9
2.1.1 人类听觉特性
3.响度和响度级 响度(Loudness) 人耳感受声音强弱的主观感觉 响度(Loudness)是人耳感受声音强弱的主观感觉 程度,这种感觉与音强、频率和波形都有关系, 程度,这种感觉与音强、频率和波形都有关系, 其度量单位为宋(Sone), ),定义一个声压级为 其度量单位为宋(Sone),定义一个声压级为 40dB,频率为1kHz的纯音的响度为1Sone 1kHz的纯音的响度为1Sone。 40dB,频率为1kHz的纯音的响度为1Sone。 响度级( Level) 响度级(Loudness Level)是指某响度与基准响度相 比的等级,其度量单位为方(Phon),定义1kHz ),定义 比的等级,其度量单位为方(Phon),定义1kHz 纯音的响度级为1Phon 1Phon。 纯音的响度级为1Phon。
5
2.1.1 人类听觉特性
1.听阈与听域 2.音调 3.响度和响度级 4.绝对听觉门限 5.临界频带 6.同时掩蔽 7.异时掩蔽 8.感知熵
6
2.1.1 人类听觉特性
1.听阈与听域 听阈( Threshold)就是指人能听到的最低 听阈(Auditory Threshold)就是指人能听到的最低 声压级( Level,SPL)。 声压级(Sound Power Level,SPL)。 听域( Area)是指人能感知的声音的范围 人能感知的声音的范围, 听域(Audible Area)是指人能感知的声音的范围, 正常人耳能够感知的频率范围大致是20Hz~ 正常人耳能够感知的频率范围大致是20Hz~ 20Hz 20kHz;正常人能感知声音的声压级范围是0 20kHz;正常人能感知声音的声压级范围是0~ 128dB。 128dB。
20
2.1.2 数字音频 2.量化 量化
量化(Quantity) 量化(Quantity)的目的是将采样后的信号波形的 幅度值(样本)进行离散化处理, 幅度值(样本)进行离散化处理,样本从模拟量 转化成了数字量。 转化成了数字量。 量化位数越多, 量化位数越多,所得到的量化值越接近原始波形的 采样值。 采样值。 量化方式有三种:零记忆量化、分组量化和 量化方式有三种:零记忆量化、分组量化和序列量 化。
12
图2-3 绝对听觉门限曲线
13
2.1.1 人类听觉特性
5.临界频带 指一个纯音可以被以它为中心频率, 指一个纯音可以被以它为中心频率,并且具有一定 频带宽度的连续噪声所掩蔽, 频带宽度的连续噪声所掩蔽,在这一频带内噪声 功率等于该纯音的功率。 功率等于该纯音的功率。使该纯音处于刚能被听 到的临界状态,即称这一带宽为临界频带宽度。 到的临界状态,即称这一带宽为临界频带宽度。 临界频带的单位为巴克(Bark)。 临界频带的单位为巴克(Bark)。
8.感知熵 感知熵( Entropy) 感知熵(Perceptual Entropy)指利用心理声学的掩 蔽现象和信号能量化原理来测量音频信号中感知 相关的信息。一般以位(bit)作为单位, 相关的信息。一般以位(bit)作为单位,实际上 表示了音频信号压缩的理论极限。 表示了音频信号压缩的理论极限。
23
2.1.3 声音
声音的质量简称音质。 声音的质量简称音质。 与采样频率有关。对于数字音频信号, 1)与采样频率有关。对于数字音频信号,音质的好 坏与数据采样频率和数据位数有关。 坏与数据采样频率和数据位数有关。采样频率越 位数越少,音质越差。 低,位数越少,音质越差。 与音频处理设备有关。 2)与音频处理设备有关。音响放大器和扬声器的质 量能够直接影响重放的质量。 量能够直接影响重放的质量。 与信号噪声比有关。在录音时, 3)与信号噪声比有关。在录音时,音频信号幅度与 噪声幅度的比值越大越好,否则声音被噪声干扰, 噪声幅度的比值越大越好,否则声音被噪声干扰, 会影响音质。 会影响音质。
多媒体技术应用教程
陈永强,张聪主编 陈永强, 胡兵,崔树芹, 胡兵,崔树芹,苏勇参编
电子工业出版社 2011.8
1
第二章 音频处理技术
2.1 音频基本原理 2.1.1 人类听觉特性 2.1.2 数字音频 2.1.3 声音 2.1.4 语音 2.2常用音频压缩标准 常用音频压缩标准 2.2.1音频压缩基础 音频压缩基础 2.2.2常用音频压缩标准 常用音频压缩标准 2.2.3音频文件格式 音频文件格式 2.3音频处理软件 音频处理软件Audition 音频处理软件 2.3.1功能介绍 功能介绍 2.3.2编辑环境 编辑环境 2.3.3基本操作 基本操作 2.4 音频实验 2.4.1音频处理实验 音频处理实验 2.4.2录制歌曲实验 录制歌曲实验
17
2.1.2 数字音频 音频信号是时间和幅度都连续变化的一维模拟信号 时间和幅度都连续变化的一维模拟信号, 音频信号是时间和幅度都连续变化的一维模拟信号, 要想在计算机中对它进行处理, 要想在计算机中对它进行处理,就要将它变成时 间和幅度都是离散的数字信号,所以数字音频是 间和幅度都是离散的数字信号,所以数字音频是 指音频信号经过离散化处理后再用一系列的数字 来表示的信号,其特点是保真度好,动态范围大。 来表示的信号,其特点是保真度好,动态范围大。 数字音频可分为波形声音 语音和音乐。 波形声音、 数字音频可分为波形声音、语音和音乐。波形声音 实际上包含了所有的声音形式, 实际上包含了所有的声音形式,因此数字音频有 时也泛称为声音。 时也泛称为声音。
14
2.1.1 人类听觉特性
6.同时掩蔽
掩蔽效应是指当两个响度不等的声音作用于 人耳时, 人耳时,响度较高的频率成分的存在会影 响到对响度较低的频率成分的感知。 响到对响度较低的频率成分的感知。 当两个或更多的音频信号到达人内耳时,掩 当两个或更多的音频信号到达人内耳时, 蔽声与被掩蔽声同时作用发生掩蔽效应, 蔽声与被掩蔽声同时作用发生掩蔽效应, 就称同时掩蔽。 就称同时掩蔽。
19
2.1.2 数字音频 1.采样 采样
采样(Sampling)指把模拟信号在时域上以固定的时间间隔 采样(Sampling)指把模拟信号在时域上以固定的时间间隔 对波形的值进行抽取,再用若干位二进制数表示。 对波形的值进行抽取,再用若干位二进制数表示。 对声音波形采样的频率直接影响声音的质量 采样频率越高, 采样的频率直接影响声音的质量, 对声音波形采样的频率直接影响声音的质量,采样频率越高, 声音保真度越好,但所要求的数据存储量也越大。 声音保真度越好,但所要求的数据存储量也越大。 根据采样定理, 采样频率大于信号最高频率的两倍时, 根据采样定理,当采样频率大于信号最高频率的两倍时,在 采样过程中就不会丢失信息,并且可以用采样后的信号重 采样过程中就不会丢失信息, 构原始信号,从而不失真地还原出原始的声音信号。 构原始信号,从而不失真地还原出原始的声音信号。 对于音频,最常用的采样频率有三种:44.1kHz、22.05 kHz 对于音频,最常用的采样频率有三种:44.1kHz、 kHz,其中44.1kHz采样频率是最常用的。 44.1kHz采样频率是最常用的 和11.025 kHz,其中44.1kHz采样频率是最常用的。 声道数是声音通道的个数,指一次采样的声音波形个数 声音波形个数。 声道数是声音通道的个数,指一次采样的声音波形个数。
21
2.1.3 声音
声学是研究声音的学科,包括声波的产生、 声学是研究声音的学科,包括声波的产生、传播和 接收。物体振动在弹性体里的传播称为波来自百度文库接收。物体振动在弹性体里的传播称为波,而在 空气中传播的波就称为声波,能被人的听觉器官 空气中传播的波就称为声波, 声波 所感觉到的声波叫声音 其频率一般在20Hz 声音, 20Hz~ 所感觉到的声波叫声音,其频率一般在20Hz~ 20kHz之间 之间。 20kHz之间。
22
2.1.3 声音
声音的三要素是音调、音色和音强。 声音的三要素是音调、音色和音强。 音调 音调是指声音的高低,音调与频率有关。 音调是指声音的高低,音调与频率有关。 音色是指具有特色的声音。 音色是指具有特色的声音。 音强是指声音的强度,也称为声音的响度, 音强是指声音的强度,也称为声音的响度,音强与 声波的振幅成正比 。