第2讲 语音信号处理基础知识
- 格式:ppt
- 大小:1.55 MB
- 文档页数:61
语⾳信号处理⼊门系列(2)——信号处理中的⼏个关键概念数字信号 信号是信息的物理载体,信息是信号的具体内容。
连续时间信号:在连续时间范围内定义的信号,信号的幅度可以是连续的(模拟信号),也可以是离散的离散时间信号:时间为离散变量的信号,即独⽴变量时间被量化了,⽽幅度仍是连续变化的数字信号:时间离散⽽幅度量化的信号从模拟信号到数字信号我们经常处理语⾳的时候会发现两个常⽤的格式:“pcm”和“wav”,这两种格式其实本质上是⼀样的,pam是脉冲编码调制(p ulse c odem odulation)的⼀个缩写,pcm的实质就是这三个步骤:采样量化编码。
数字信号基本运算移位:设某⼀序列x(n),当m>0 时,x(n-m) 表⽰序列x(n) 逐项依次延时(右移)m 位。
(左加右减)翻褶:设某⼀序列x(n),则x(-n) 是以n=0 的纵轴为对称轴将x(n) 加以翻褶。
和:z(n)=x(n)+y(n)积:z(n)=x(n)·y(n)累加:y(n)=\sum_{k=-\infty}^{n}x(k)差分 (⼀阶):y(n)=x(n)-x(n-1)尺度变换:对于序列x(n), 形如x(mn)或者x(\frac{n}{m})(m为正整数)的序列为x(n)的尺度变换序列。
以x(2n)为例,是以低⼀倍的抽样频率从x(n)中每隔两点取⼀点,这种运算称为抽取,常⽤于语⾳信号的下采样,通常在抽取之前要加⼊⼀个防混叠的滤波器。
类似的,x(\frac{n}{2})称为插值,在语⾳信号每两个点之间插⼊⼀个值,因为我们不知道这个插⼊的值是多少,⼀般插0,本⾝信息并没有增加,通常在插值之后我们还需要⼀个平滑,也就是在插⼊这些零点之后,后接⼀个平滑滤波器,利⽤相邻采样点之间的取值,把插⼊的值算出来,常⽤于语⾳升采样。
线性卷积 (linear convolution) : y(n)=\sum_{m=-\infty}^{\infty} x(m) h(n-m)=x(n) * h(n)由卷积的定义可知,卷积在图形表⽰上可分为四步:翻褶、移位、相乘、相加。
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。