mpegaudio音频处理的基本知识
- 格式:doc
- 大小:33.50 KB
- 文档页数:8
了解电脑声音音频编解码和音效处理的基础知识在计算机中,声音是电信号的形式被处理和传输的。
对于从电子设备中发出的声音,电脑声音音频编解码和音效处理技术至关重要。
本文将介绍电脑声音音频编解码和音效处理的基础知识,包括它们的概念、作用以及常见的应用。
一、声音音频编解码的概念和作用1.1 概念声音编码是将声音信号转换为数字化的过程,而声音解码则是将数字化的声音信号还原为模拟声音信号。
在计算机中,声音信号是以数字的形式存在的,因此需要进行编码和解码的转换才能进行处理和传输。
1.2 作用声音音频编解码的作用是保证声音信号在计算机中的正确传输和处理。
编码过程将模拟声音信号转化为数字信号,方便计算机系统对其进行处理。
解码过程则将数字信号转化为模拟声音信号,使用户能够听到声音的输出。
二、常见的声音音频编解码技术2.1 PCM编解码PCM(Pulse Code Modulation)是一种经典的声音编解码技术,它将模拟声音信号通过采样和量化的方式转换为数字信号。
采样是指对模拟声音信号进行周期性的取样,而量化是指对取样后的信号进行数值化的处理。
PCM编解码的优点是处理简单,音质较好,被广泛应用于电话、录音和音乐制作等领域。
2.2 AAC编解码AAC(Advanced Audio Coding)是一种高级音频编解码技术,它能够提供更高的压缩比和更好的音质。
AAC编解码通过采用更高效的算法和更复杂的编码结构来实现对声音信号的压缩和还原。
AAC编解码在数字音频广播、数字电视和音乐播放器等领域得到了广泛应用。
2.3 MP3编解码MP3(MPEG-1 Audio Layer III)是一种流行的音频编解码技术,它能够在保证一定音质的前提下实现更高的压缩比。
MP3编解码通过去除声音信号中的冗余信息和不可听的频率成分来进行压缩。
尽管MP3编解码存在一定的音质损失,但其广泛应用于音乐压缩和在线音乐播放等领域。
三、音效处理的概念和常见技术3.1 概念音效处理是指对声音信号进行加工和改变,以达到特定的效果和目的。
音频处理技术方案概述音频处理是指对音频信号进行处理和优化的过程。
在今天数字音频技术的发展下,音频处理技术应用广泛,如音频剪辑、音频增强、音频去噪等。
本文将介绍音频处理的基本原理和常见的音频处理技术方案。
音频处理的基本原理音频处理的基本原理是根据音频信号的特点,利用数字信号处理技术对音频信号进行分析、处理和重构。
主要包括以下几个步骤:1.采样:将模拟音频信号转换为数字音频信号。
采用固定的采样频率和采样位数,将连续的模拟信号离散化为离散的数字信号。
2.滤波:对音频信号进行滤波处理,以去除不需要的频率成分或噪声。
3.增强:通过调整音频信号的增益和均衡,增强音频的清晰度和音质。
4.去噪:对音频信号进行降噪处理,以提高音频的质量和可听度。
5.变声:对音频信号进行音调、声色等方面的变换,以实现特定的声音效果。
常见的音频处理技术方案1. 音频剪辑音频剪辑是一种常见的音频处理技术,用于去除音频中的不需要部分或者将多段音频拼接成一段音频。
常见的音频剪辑操作包括:•裁剪:根据需要的音频长度,裁剪掉不需要的部分。
•拼接:将多段音频按照时间顺序拼接成一段音频。
•重采样:调整音频的采样率,改变音频的播放速度。
2. 音频增强音频增强是一种提高音频质量和音量的处理技术。
常见的音频增强技术包括:•均衡器:调整音频的频谱平衡,增强特定频率段的音量。
•压缩:对音频动态范围进行压缩,使音频更加平衡和清晰。
•限幅:限制音频的最大幅度,避免音频失真。
3. 音频去噪音频去噪是一种降低音频中噪声干扰的处理技术。
常见的音频去噪技术包括:•频域滤波:通过分析音频的频域特性,滤除频谱中的噪声成分。
•时域滤波:通过分析音频的时域特性,滤除时间上的噪声成分。
•混响消除:通过建模和去除音频中的混响成分,减少噪声干扰。
4. 变声变声是一种改变音频声音特性的处理技术,常用于音频编辑、语音合成等应用。
常见的变声技术包括:•音调变换:改变音频的音调,使其变为男声或女声等特定声音。
音频工程师的音频编码和解码知识音频编码和解码是音频工程师工作中不可或缺的知识领域。
在音频技术的发展历程中,编码和解码技术的应用越来越广泛,对于实现高质量的音频传输和存储至关重要。
本文将介绍音频编码和解码的基本概念、常见的编码和解码算法以及其在音频工程中的应用。
一、音频编码的基本概念音频编码是将音频信号转化为数字信号的过程,通过编码可以将模拟音频信号转化为数字形式进行传输、存储和处理。
音频编码的基本概念包括采样、量化和编码三个过程。
1. 采样:音频信号是连续变化的模拟信号,为了进行数字化处理,需要将其离散化。
采样是将连续的音频信号在时间上进行离散化,获取一系列的采样值。
2. 量化:采样得到的采样值是连续的模拟信号值,为了数字化处理,需要对其进行量化。
量化是将连续的采样值映射为离散的量化级别,使其能够用有限的比特位表示。
3. 编码:量化后的离散信号需要进行编码,将其转化为可传输、存储和处理的数字编码形式。
常见的编码方式包括脉冲编码调制(PCM)、自适应差分编码(ADPCM)、无损编码(FLAC、ALAC)和有损编码(MP3、AAC)等。
二、常见的音频编码算法1. PCM编码:脉冲编码调制(PCM)是最常见的音频编码方式之一,它将采样值进行线性量化,并使用固定的比特位数来表示。
PCM编码在音频工程领域应用广泛,但由于其较大的数据量,限制了音频传输和存储的效率。
2. ADPCM编码:自适应差分编码(ADPCM)是一种通过利用采样间的差异来减少数据量的编码方式。
它使用差分编码来表示音频信号的动态范围,并通过自适应算法来调整量化级别,以提高编码效率。
3. 无损编码:无损编码技术可以实现音频信号的无损传输和存储,即在压缩的过程中不会引起任何信息的丢失。
常见的无损编码算法包括FLAC(Free Lossless Audio Codec)和ALAC(Apple Lossless Audio Codec)等。
4. 有损编码:有损编码技术通过牺牲一定的音频质量来减少数据量,以提高传输和存储的效率。
⾳频基础知识⼀.⾳频基础知识1.⾳频编解码原理数字⾳频的出现,是为了满⾜复制、存储、传输的需求,⾳频信号的数据量对于进⾏传输或存储形成巨⼤的压⼒,⾳频信号的压缩是在保证⼀定声⾳质量的条件下,尽可能以最⼩的数据率来表达和传送声⾳信息。
信号压缩过程是对采样、量化后的原始数字⾳频信号流运⽤适,当的数字信号处理技术进⾏信号数据的处理,将⾳频信号中去除对⼈们感受信息影响可以忽略的成分,仅仅对有⽤的那部分⾳频信号,进⾏编排,从⽽降低了参与编码的数据量。
数字⾳频信号中包含的对⼈们感受信息影响可以忽略的成分称为冗余,包括时域冗余、频域冗余和听觉冗余。
1.1时域冗余.幅度分布的⾮均匀性:信号的量化⽐特分布是针对信号的整个动态范围⽽设定的,对于⼩幅度信号⽽⾔,⼤量的⽐特数A.幅度分布的⾮均匀性据位被闲置。
B.样值间的相关性:声⾳信号是⼀个连续表达过程,通过采样之后,相邻的信号具有极强的相似性,信号差值与信号本⾝相⽐,数据量要⼩的多。
C.信号周期的相关性:声⾳信息在整个可闻域的范围内,每个瞬间只有部分频率成分在起作⽤,即特征频率,这些特征频率会以⼀定的周期反复出现,周期之间具有相关关系。
D.长时⾃我相关性:声⾳信息序列的样值、周期相关性,在⼀个相对较长的时间间隔也会是相对稳定的,这种稳定关系具有很⾼的相关系数。
E.静⾳:声⾳信息中的停顿间歇,⽆论是采样还是量化都会形成冗余,找出停顿间歇并将其样值数据去除,可以减少数据量。
1.2频域冗余.长时功率谱密度的⾮均匀性:任何⼀种声⾳信息,在相当长的时间间隔内,功率分布在低频部分⼤于⾼频部分,功率谱A.长时功率谱密度的⾮均匀性具有明显的⾮平坦性,对于给定的频段⽽⾔,存在相应的冗余。
B.语⾔特有的短时功率谱密度:语⾳信号在某些频率上会出现峰值,⽽在另⼀些频率上出现⾕值,这些共振峰频率具有较⼤的能量,由它们决定了不同的语⾳特征,整个语⾔的功率谱以基⾳频率为基础,形成了向⾼次谐波递减的结构。
计算机音频处理基础知识音频编解码和音效处理计算机音频处理是指对声音和音频信号进行数字化、编解码和音效处理的技术。
音频编解码和音效处理是其中两个重要的方面,本文将分别对它们进行介绍。
一、音频编解码音频编解码是将模拟音频信号或数字音频信号转换为数字化的音频表示,并进行压缩和解压缩以便于传输和存储。
它在音频通信、多媒体应用、音乐制作等领域起着重要的作用。
1. 数字音频的表示在计算机中,音频信号被离散化为数字化的样本,并以数字形式表示。
常用的音频表示方式包括PCM(Pulse Code Modulation)和DPCM(Differential Pulse Code Modulation)。
PCM是一种直接根据模拟信号的幅度值进行采样的编码方式,而DPCM则是通过比较连续样本的差异进行编码,以减少数据量。
2. 音频压缩由于音频信号的数据量较大,音频编解码中的一个关键任务是对音频信号进行压缩,以减小数据量,提高传输和存储效率。
音频压缩可以分为有损压缩和无损压缩两种方式。
有损压缩通过去除信号中的一些感知较小的信息来降低数据量,但会引入一定的失真。
无损压缩则通过编码技术将音频数据无损地压缩,但压缩率通常较低。
3. 音频解压缩音频解压缩是将压缩后的音频数据恢复为原始音频信号的过程。
解压缩过程是对压缩数据进行解码和重建的过程,以便于后续的音频处理和播放。
二、音效处理音效处理是指对音频信号进行各种效果处理,以改变音频的音质、音调、声场等特性,使其符合特定需求。
音效处理广泛应用于音频剪辑、音乐制作、影视制作等领域。
1. 均衡器均衡器是一种常用的音效处理工具,用于调节音频信号的频谱分布,改变不同频率下的音量,以增强或弱化特定频段的音频效果。
常见的均衡器包括低音(Bass)、中音(Mid)和高音(Treble)调节。
2. 混响混响是指模拟和增强音频信号在不同空间环境中的反射和吸收效果,使人听到音频时产生一种具有空间感的效果。
mpeg 音频标准MPEG音频标准。
MPEG(Moving Picture Experts Group)音频标准是一系列由国际标准化组织制定的音频编码标准,旨在实现高质量音频压缩和传输。
这些标准涵盖了多种音频编码技术,包括MPEG-1音频、MPEG-2音频、MPEG-4音频和MPEG-H音频。
本文将介绍MPEG音频标准的主要特点和应用领域。
MPEG-1音频是MPEG音频标准的第一个版本,于1993年发布。
它采用了一种被称为Layer III的音频编码技术,通常被称为MP3。
MP3因其出色的音质和高压缩比而成为了音频文件的主流格式,被广泛用于音乐存储和传输。
MPEG-1音频还包括了Layer I和Layer II编码技术,但它们并没有像MP3那样被广泛采用。
MPEG-2音频是MPEG音频标准的第二个版本,于1995年发布。
它在MPEG-1音频的基础上进行了改进,增加了多声道编码和更高的比特率支持。
这使得MPEG-2音频在广播和电视等领域得到了广泛应用,成为了数字音频广播和DVD 音频的主要格式之一。
MPEG-4音频是MPEG音频标准的第三个版本,于1999年发布。
它引入了一系列新的音频编码技术,包括AAC(Advanced Audio Coding)和SBR(Spectral Band Replication)。
AAC因其更好的音质和更高的压缩效率而逐渐取代了MP3成为了音频文件的新主流格式,被广泛应用于在线音乐和流媒体等领域。
MPEG-H音频是MPEG音频标准的最新版本,于2013年发布。
它引入了一系列新的音频编码技术,包括3D音频和交互式音频。
这使得MPEG-H音频在虚拟现实、增强现实和游戏音频等领域得到了广泛应用,成为了未来音频技术发展的重要方向之一。
总的来说,MPEG音频标准在音频编码技术的发展历程中起到了至关重要的作用。
它不仅推动了音频文件格式的不断进步,也促进了音频传输和存储技术的不断革新。
电脑音频技术了解音频编码与声音处理音频编码是将声音信号转换为数字形式的过程,以便在计算机系统中存储、传输和处理。
声音处理则是对音频信号进行增强、去噪等处理的技术。
本文将介绍电脑音频技术中的音频编码和声音处理两个方面的基本知识。
一、音频编码音频编码是将模拟声音信号转换为数字形式的过程。
它的主要目的是压缩音频数据,以节省存储空间和传输带宽。
以下是几种常见的音频编码格式:1. PCM(Pulse Code Modulation,脉冲编码调制)PCM是一种最基本的音频编码格式。
它将声音信号分为不同的采样点,并用数字表示每个采样点的幅度。
PCM编码无损,但数据量较大。
2. ADPCM(Adaptive Differential Pulse Code Modulation,自适应差分脉冲编码调制)ADPCM是一种有损压缩的音频编码格式。
它通过根据连续采样点之间的差异来减少数据量。
尽管有些质量损失,但相对于PCM,它可以显著减小数据量。
3. MP3(MPEG Audio Layer-3)MP3是一种流行的音频编码格式,广泛应用于音乐压缩和传输领域。
MP3利用了人耳听觉特性,通过去除音频信号中的听觉冗余来实现高压缩率。
尽管MP3是有损压缩格式,但其音质在适当的比特率下仍能保持较高的品质。
4. AAC(Advanced Audio Coding,高级音频编码)AAC是一种用于音频压缩的格式,常用于数字音乐、互联网广播和移动通信等领域。
与MP3相比,AAC在相同比特率下提供更好的音质。
它还支持多通道编码和低延迟编码,适应了不同的应用需求。
二、声音处理声音处理是对音频信号进行一系列算法和技术加工,以实现去噪、降低噪音、声音增强等效果的过程。
以下是几种常用的声音处理技术:1. 噪音抑制噪音是影响音频质量的一个重要因素,因此,在音频处理中噪音抑制是一个关键技术。
常见的噪音抑制算法有谱减法、子带迭代抑制、计算感知阈值等。
2. 回声消除在通话或录音中,由于话筒和扬声器的采样和放音,通常会产生回声。
mp3 编码原理MP3是一种音频压缩技术,其全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III),简称为MP3。
它被设计用来大幅度地降低音频数据量。
利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的文件,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。
以下是MP3编码的基本原理:1. 采样:这是音频编码的第一步。
MP3在创建时,会以160000Hz的频率对音频信号进行采样。
这意味着每秒钟会获取160000个样本。
2. 量化:在采样后,每个样本都会被转化为一个数字。
在MP3中,这个数字的范围是-32768到32767。
这个过程被称为量化。
3. 编码:量化后的数据需要进行编码,才能被计算机理解和存储。
在MP3中,使用了Huffman编码和Run-Length Encoding(RLE)等压缩技术。
4. 心理声学模型:这是MP3编码中最核心的部分。
通过使用心理声学模型,MP3编码器可以预测哪些频率和声音人类难以察觉,从而进一步压缩数据。
5. 压缩:经过心理声学模型处理后,音频数据会被进一步压缩,以减少存储空间的需求。
6. 解码:当播放MP3时,解码器会逆转上述过程,从压缩的音频数据中还原出原始的音频信号。
7. 解码器:最后,音频信号会被送入扬声器或其他设备进行播放。
需要注意的是,这个过程是一个复杂且精细的过程,涉及到许多数字信号处理和心理学知识。
尽管如此,它仍然是现代音频编码的基础之一,影响了许多其他的音频编码和压缩技术。
音频编码和解码的原理和常见格式音频编码和解码是数字音频处理中的重要环节,它们影响着音频信号的传输和存储效率,以及音质的表现。
本文将介绍音频编码和解码的原理,并介绍几种常见的音频格式。
一、音频编码的原理音频编码是将模拟音频信号或数字音频信号转化为能够有效传输和存储的数字数据的过程。
音频编码的目标是在保证音质的前提下,尽可能减少数据的存储空间和传输带宽。
1. 采样和量化音频信号是连续的模拟信号,为了将其转化为数字信号,首先需要对其进行采样和量化。
采样是指以一定的时间间隔对音频信号进行抽样,将每个采样点的幅值转化为数字表示。
量化则是对采样点的幅值进行量化,将其映射到离散的数字级别上。
2. 压缩编码在音频编码的过程中,为了减少数据量,常常会采用压缩编码的方法。
压缩编码可以通过减小音频数据的冗余信息来达到节省空间的目的。
常见的压缩编码算法有无损压缩和有损压缩两种。
- 无损压缩:无损压缩是通过去除冗余信息来减小数据大小,但是在解压缩后可以完全还原原始音频信号。
常见的无损压缩算法有无损预测编码、熵编码等。
- 有损压缩:有损压缩是在压缩编码的过程中,除了去除冗余信息外,还通过减少对人耳听感无明显影响的信号部分来进一步减小数据大小。
常见的有损压缩算法有MP3、AAC、WMA等。
二、音频解码的原理音频解码是将编码后的音频数据还原为原始音频信号的过程。
解码过程需要对编码过程中使用的算法进行相应的逆操作,以重新生成原始的音频数据。
1. 解压缩解码首先,解码器需要对音频数据进行解压缩,还原为压缩编码前的数据。
对于无损压缩算法,解压缩过程会完全还原原始音频数据;对于有损压缩算法,解压缩过程会在还原数据的同时,对损失的部分进行补偿。
2. 数字到模拟转换解码后得到的音频数据是数字信号,为了让人耳能够听到音频,需要将其转换为模拟信号。
这一过程称为数模转换,通常使用数模转换器(DAC)来实现。
三、常见的音频格式在实际应用中,根据不同的需求和使用场景,人们开发了许多不同的音频格式。
MPEG AUDIO音频处理的基本知识音频数据因为其內容的特性,以传统的压缩方法很难达到很高的压缩率,不过我们人耳并没有无限的时间解析度和频率解析度,其实原始的音频信号中包含了很多我们听不到的内容。
把这些对我们来说其实无意义的内容去掉,这样就可以达到很高的压缩率。
这种利用人类感官知觉的特性的失真压缩法,就叫做perceptual coding(感知编码)。
人耳的生理结构,由外耳的耳殼收集外界的声波到达中耳的耳膜产生震动,经由三块小骨连接前庭窗传入内耳,其中由于耳殼的內凹形状,外耳道的长度和宽度..等等生理的构造,会对不同频率产生共振升压的效果,尤其是2~5KHz的频率,会在这个过程中被放大。
人耳的听觉频率范围,大约是20Hz~20KHz,音量范围则是130dB SPL,大于130dB会产生痛苦的感觉,小于0dB则被当成是静音。
如上所述,人耳对2~5KHz 的频率最敏感,越往高频感觉越不敏锐,音量要超过一定的界限以上不能被人耳察觉,这个最低可以听闻的界限,叫做ATH (absolute threshold of hearing)。
内耳的耳蜗有许多绒毛细胞,分别会对不同的频率产生反应,将基底膜淋巴液的波动转换成神经的电流信号,传达给大脑。
也就是说耳蜗的作用就像一个频谱分析仪,把声波转换成不同频率的信号,每一个特定位置的绒毛细胞会受到特定频率的刺激,但是当基底膜传导波动时其临近周围的阿绒毛细胞也会受到刺激。
这也就是说如果有一个频率的音量很大,在它附近同时有一个比较弱的频率的话,比较弱的频率的声音就会被比较强的声音给遮蔽掉。
我们人耳没有办法分辨出有一个比较弱的频率的声音存在。
这个遮蔽的作用叫做frequency masking。
另外从基底膜收到声音震动到达稳定状态,还有声音结束后完全停止,中间都需要一段时间。
所以如果有一个很大声的声音出现,在这个声音开始之前,到这个声音结束之后,有一段时间我们听不到其他声音的,这种遮蔽效应,我们称为temporal masking,之前的叫pre-masking,之后的叫post-masking。
前面提到耳蜗就像一部频谱分析仪,或者说像一个band pass filter,会把声音分成许多不同的子频带,每个频带里都有一个中心频率,越往两边遮蔽效果就越弱,在同一个频带里面的频率会互相影响,我们对他们的感知特性也十分接近,这种人耳知觉特性的频带,我们称为critical band。
critical band 的宽度并不是都相等的,低频的部分比较窄,高频的部分则比较宽,总共分成26个critical band。
除了人耳的生理结构特性以外,大脑的作用也占了一个很重要的角色。
我们都知道高音是由基音决定,而音色是由泛音决定,我们很惊讶的发现,人类的大脑会自动补上基音,即使这个基音并不存在。
譬如说电话的频宽只有300~3200Hz,但是当我们听一个基音在120Hz的男性讲电话的时候,我们还是可以听出他的正确的音高,不会把男生听成女生。
大脑是如何运用复杂的计算去重建这个不存在的基音,我们目前尚无法得知。
经过长期的实验和观察,我们可将人耳的听觉特性定性,建立一个人耳的听觉模型,叫做psychoacoustic model,有了这些对人耳知觉特性的了解,我们就可以根据这些理论来压缩音频数据,把我们听不到的声音去掉。
说是去掉,实际上是怎么做的呢?要将无限的连续的模拟信号转换成有限的离散的数字信号,中间必须经过取样和量化的过程,譬如说现在量化的位阶只有0~8九个数字,每一个位阶的间隔大小是一格,对一个4.9的信号作量化,得到的数字是5,和原来4.9相差0.1,这个误差叫做量化噪音。
假设我们把量化的位阶减少到5个,分别为0~8中的0,2,4,6,8。
位阶的间隔大小变成两格,此时再对4.9量化,量化的结果就是4,误差扩大到0.9,也就是说量化的位阶越少,量化的间隔就越大,量化噪音也就越大。
前面说到心理声学模型是如何工作的ISO MPEG1 Audio提供了两个心理声学模型,分别是psychoacoustic model 1 和2,model2比 model 1 要复杂,但是判断的效果更好。
两个模型可以用在任何一个layer, layer1~3(MPEG1 Layer 3即使素称MP3). 不过我们通常是将model1用于MP1和MP2,model2用于MP3。
当然也有例外,譬如说一个特殊版本的toolame(压缩 MP1, MP2最好的encoder)就是采用model2而不是model1。
MPEG1 Audio 压缩的时候一边是用一个polyphase filter bank,将PCM Data 分成好几个“等宽”的subband等待进一步的量化压缩,一边是psychoacoustic model,使用 512(MP1)或 1024(MP2/MP3)point(取 512/1024 个 sample 计算,或者说 window size=512/1024)的 FFT 变换,将 PCM data 变换到频率域,进行频谱分析。
之所以另外使用FFT分析,是因为FFT有比较好的频率解析度,计算各个频率的遮蔽效应时比较精确。
然后psychoacoustic model会将频率按照critical band(人耳听觉特性的频带)分为好几组,计算各个critical band 的遮蔽曲线。
在计算遮蔽曲线时,第一件要做的工作是区分哪些频率的声音是tone,哪些频率是noise。
为什么这么区分呢?因为根据实验发现这两种声音的遮蔽能力不一样,noise具有比tone更强的遮蔽效应。
这边会提到两个名词,一个是TMN(Tone Mask Noise),tone 遮蔽 noise 的能力,单位是dB,比较弱,另一个是 NMT(Noise Mask Tone),noise 遮蔽 tone 的能力,比较强。
对这两个参数的调整会调整tone和noise的遮蔽能力,整个遮蔽曲线会受到影响。
一般,降低这两个参数,会使整个遮蔽曲线下降,可以容忍的量化噪音就比较低,量化噪音必须减少,分配的bit数就必须增加,所以bitrate会增大,但是量化杂音也会随之减少。
在判断哪些声音是tone,哪些是noise,model1和model2采用不同的方法。
model1是寻找区域范围内,音量最大的频率,把这个频率当作tone,因为tone 通常是一定的区域范围内音量最大的。
其他剩下的部分就当成是noise,加起来以一个单一的频率代表。
model2的做法则不是去区分tone和non-tone(noise),而是给每个频率一个tone index,由0~1,index数字越大,代表这个频率越像tone,根据这个index的比例大小,分别计算它们的遮蔽影响力,这样不是更精确吗?那要怎么判断某个频率有多像tone呢?model 2是用预测的方法:以现在的状态去预测下一个状态是什么。
在这里model2会存储过去的两个分析过的window频谱,根据频谱的变化来判断哪些频率有多像tone。
因为tone的声音会具有可预测性,前后的变化会有高度的相关性,不会随机的杂乱跳动。
根据前后的频谱变化,model2更可以准确的分辨出tone和noise。
找出tone和noise后,接着把不重要没有意义的tone、noise去掉,譬如说两个tone靠近,一强一弱,或是低于ATH绝对听觉极限以下的tone / noise,都可以把它去掉。
然后计算剩下来的tone、noise的遮蔽效应,求出每个critical band的遮蔽曲线,最后再合并这些曲线,找出全体的遮蔽曲线。
实际上,psychoacoustic model会计算一个数值,然后把这个数字传给量化阶段的程式,让量化阶段的程式知道这个频带可以允许的量化噪音是多少,该MPEG Audio压缩算法基本原理及MP3算法实现学院:物理与电子信息学院专业:通信工程姓名:光勇学号:120803018分配多少bit数。
这个传给量化公式的参数叫做SMR(Signal to Mask Ratio)。
SMR = SNR - NMR;前面提过,MPEG1 Audio在分成好几个subband 准备做量化的时候,用的是等宽的filter bank,这和我们人耳的critical band不同。
因为低频部分的一个subband可能包含好几个critical band。
到了高频的时候,可能好几个subband包含在一个critical band里面。
这样心理声学模型计算出来的各个critical band 的 SMR 要怎么给呢?model1 是取subband 涵盖的范围中,最小的SMR。
这么做在低频的时候,会将好几个critical band的SMR取其最小的一个给subband,因为subband包含了好几个critical band,如果用这几个critical band中最大的SMR,将会有部分频率的遮蔽效应会估计错误,所以为了妥协,只好取最小的。
高频的时候则是好几个subband共用一个SMR。
model1有一个致命伤,就是高频的时候,一个criticalband横跨好几个subband,以这个中央代表的noise频率计算出来的SMR,就无法适用在每个subband里面。
(距离中央越远的就越不正确。
)model2 低频的时候取最小的SMR,和model1 一样,高频的时候则是取critical band好几个SMR的平均值给subband。
model2不采用集中式的noise,而是用tone index的方式来计算tone和noise的遮蔽效应,所以在高频的时候会比model1精确。
接下来介绍MDCT 和 Quantization(量化)。
将PCM data 分成好几个subband等待心理声学模型的判断,做进一步的量化压缩,这种压缩方法叫做subband coding。
这个filter用的是polyphase filter bank,将PCM data分成32个等宽的subband。
这个polyphase filter bank有几个缺点:1)它是有失真的filter,也就是说还没有开始量化,经过filtering以后的subsample立刻将它还原回PCM data,结果就已经和原来不一样了。
不过这个失真很小(大概小于0.07dB)所以对品质不会有太大的伤害。
2)它是等宽的频带,不符合人耳听觉特性的critical band,对后续的量化处理不利。
3)它的截止点平缓,所以当输入频率很靠近截止点的时候,相邻的两个subband 会发生aliasing效应(混淆效应)。
MP1 一个frame 384个sample, MP2和MP3用1152个sample,而且MP3会将polyphase filter bank切出来32个subband的sample,再用MDCT变换,进一步划分成更细的频带,提高对频率的解析度。