第二章 语音信号处理基础知识
- 格式:doc
- 大小:588.50 KB
- 文档页数:15
《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。
在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。
随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。
到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。
近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。
1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。
(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。
(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。
1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。
声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。
听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。
1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。
语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。
这些模型为语音信号处理提供了理论基础和工具。
第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
语音信号处理的基础知识语音信号处理是一门涉及到声音录制、分析、编码、识别等多个学科的交叉领域,其在现代通信技术、人机交互等领域中发挥着重要作用。
本文将介绍语音信号处理的基础知识,包括语音的参数表示、语音的数字化、语音的编码和解码等方面。
一、语音的参数表示语音信号的参数表示是指将语音信号表示为具有物理意义的、易于处理的数学参数。
在语音信号的参数表示中,常用的方法包括时域参数和频域参数两种。
时域参数是指将语音信号分段,然后对每一段信号进行时域特征分析,将其表示为均值、方差、能量、过零率等参数。
时域参数的优点是对信号的采样率没有要求,因此对于不同采样率的语音信号都可以进行处理。
但是,时域参数的缺点是对于语音信号中的高频成分无法处理,因此无法反映语音信号的高频特性。
频域参数是指将语音信号进行傅里叶变换,将信号变换到频域后,对于每个频率分量进行幅度、相位等特征参数提取。
频域参数的优点在于可以反映语音信号的高频特性,因此在语音识别、声码器设计等方面有重要应用。
但是频域参数的缺点在于对于信号的采样率有一定要求,因此需要进行抽样和重构处理,这样会引入一定的误差。
二、语音的数字化语音的数字化是指将模拟语音信号转换为数字信号的过程,其目的在于便于存储和处理。
在数字化语音信号中,一般采用脉冲编码调制(PCM)技术进行采样和量化。
脉冲编码调制是一种通过改变脉冲宽度、位置和幅度等参数来表示信号的方法。
在语音数字化中,采用的是线性脉冲编码调制,即将模拟语音信号进行采样、量化后转换为数字信号。
采样是指将模拟信号在时间轴上离散化,量化是指将采样信号的振幅幅度量化为离散的数值。
采样和量化的具体实现可以采用多种算法,如最近邻量化、线性量化、对数量化和均衡限制量化等。
三、语音的编码和解码语音信号编码是指将语音信号转换为适合传输和存储的码流。
在语音信号编码中,常用的方法包括线性预测编码(LPC)、自适应差分编码(ADPCM)、快速傅里叶变换编码(FFT)、线性预测离散余弦变换编码(LPDCT)等。
第二章语音信号处理基础知识1、语音信号处理?语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。
2、语音信号处理的目的?1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话人、识别出说话内容等。
因此,在研究各种语音信号处理技术之前,需要了解语音信号的基本特性,同时,要根据语音的产生过程建立实用及便于分析的语音信号模型。
本章主要包括三方面内容:语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。
第一部分内容语音的产生过程,我们要弄清两个问题:1)什么是语音?2)语音的产生过程?3、什么是语音?语音是带有语言的声音。
人们讲话时发出的话语叫语音,它是一种声音,由人的发音器官发出且具有一定的语法和意义。
语音是声音和语言的组合体,所以对于语音的研究包括:1)语音中各个音的排列由一些规则控制,对这些规则及其含义的研究成为语言学;2)对语音中各个音的物理特征和分类的研究称为语音学。
4、语音的产生语音的产生依赖于人类的发声器官。
人的发音器官包括:肺、气管、喉、咽、鼻、口等。
◆喉以上的部分称为声道,其形状随发出声音的不同而变化;◆喉的部分称为声门。
◆喉部的声带是对发音影响很大的器官。
声带振动产生声音。
◆声带开启和闭合使气流形成一系列脉冲。
每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。
基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。
基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。
人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。
人的说话的过程:1)想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机;接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,以表达想说的内容和情感。
2)说出阶段:由想说阶段大脑中枢的决策,以脉冲形式向发音器官发出指令,使得舌、唇、鄂、声带、肺等部分的肌肉协调地动作,发出声音。
与此同时,大脑也发出一些指令给其他有关器官,使之产生各种动作来配合言语的效果,如表情、手势、身体姿态等。
经常有些人说话时会手舞足蹈。
另外,还会开动“反馈”系统来帮助修正语音。
3)传送阶段:说出的话语是一连串声波,凭借空气为媒介传送到听者的耳朵。
有时遇到某种阻碍或其他声响的干扰,使声音产生损耗或失真。
4)接收阶段:从外耳收集的声波信息,经过中耳的放大作用,达到内耳。
经过内耳基底膜的振动,激发器官内的神经元使之产生脉冲,将信息以脉冲形式传送给大脑。
5)理解阶段:听觉神经中枢收到脉冲信息后,经过一种至今尚未完全了解的方式,辨认说话人及听到的信息,从而听懂说话人的话。
再开始介绍语音信号的特性之前,我们先了解一下语音和语言的定义。
5、语言是从人们的话语中概括总结出来的规律性的符号系统。
包括构成语言的语素、词、短语和句子等不同层次的单位,以及词法、句法、文脉等语法和语义内容。
语言学是语音信号处理的基础。
例如,可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。
6、语音学Phonetics是研究言语过程的一门科学。
它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。
现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。
发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。
首先来了解一下语音的声学特性。
7、语音信号的声学特性语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。
音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
说话时一次发出,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。
元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔,从唇腔出去时,这些声腔完全开放,气流顺利通过产生音素。
-它构成一个音节的主干,长度和能量看,元音在音节中都占主要部分。
辅音:呼出的声流,由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通,而克服这些发音器官的这种阻碍产生的音素。
-通常只出现在音节的前端、后端或前后两端。
发辅音时由声带是否振动引起浊音和清音的区别:-声带振动的是浊音;-声带不振动的是清音。
8、基音频率发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期称为基音周期,其倒数为基音频率。
所以浊音声带振动的基本频率称为基音频率,一般用F表示。
无论一个音节或是一段连都是随时间变化的,该变化产生了声调,其变化轨迹为声调续语音,各个音节的元音段的F轨迹。
基音频率与个人声带的长短、厚薄、韧性和发音习惯等有关,在很大程度上反映了个人的特征。
一般来说,男性说话者的基音频率大致分布在50-200Hz,女性和小孩的基音频率在200-450Hz之间。
9、共振峰共振峰是一组谐振频率:声道可以看成一根具有非均匀截面的声管,在发音时起到共鸣器的作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率(简称共振峰)。
元音的一个重要的声学特性就是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
元音的共振峰与发音机制(舌位高低、前后,舌尖的状态等)有关。
不同元音对应于一组不同的共振峰参数,为精确描述语音,应尽可能使用多个共振峰,但实际应用时,只用前3个就够了,分别称为F1,F2,F3。
表给出了前3个共振峰成年男子和成年女子的分布范围。
所以虽然一般地说,虽然就语音的基音频率而言是女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。
下面我们再看一下语音的时域波形和频谱特性:10、语音信号的时域波形和频谱特性时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。
表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。
图上标明了时间及各个音节的起始位置。
由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。
例如,从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似于白噪声,振幅很小,没有明显的周期性;而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大。
它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。
如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。
语音信号具有很强的时变特性,有些波形具有很强的周期性,有些波形具有很强的噪声特性,且周期性和噪声性语音的特征也在不断变换中。
但在较短的时间内,语音信号的特征可以认为基本不变,所以,语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或者变化很缓慢。
-因此可以截取一段进行傅里叶变换(具体的频谱分析方法将在第三章中介绍),求其短时谱。
于是,从中截取一小段进行频谱分析。
下图给出“sou”中音素“ou”的傅里叶变换:时间大约为时间波形180ms处开始,取时间波形宽度为256个样本,因采样频率为8kHz,故语音段持续时间为32ms(256/8)。
从该频谱图上可以直接看出浊音的基音频率及谐波频率。
在0~1.83kHz之间几乎有6个峰值,因此,基音频率为301Hz(1.83kHz/6)。
观察时间波形“ou”波形周期之间的距离也可证明,其中在225~250ms之间大约有7.5个周期,因此可以估计周期为300Hz(7.5/25)。
在频谱图中可以看出明显的具有几个凸起点,它们出现的频率就是共振峰频率,从而表明元音具有明显的共振峰特性。
清辅音“k”的傅里叶变换如下图所示:可以看出,频谱峰点之间间隔是随机的,表明该清辅音没有周期分量。
11、语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。
显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。
由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如10ms~30ms之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。
短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。
因此,人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。
语谱图是一种三维频谱,它表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
记录这种谱图的仪器就是语谱仪。
语谱仪实际上是一个带通滤波器组的输出随时间连续变化,连续重复进行语音信号频率分析的仪器。
带通滤波器有两种带宽选择:窄带为45Hz,宽带为300Hz。
窄带语谱图具有较好的频率分辨率,有利于显示基音频率及其各次谐波,但时间分辨率较差,不利于观察共振峰的变化;宽带语谱图则具有良好的时间分辨率及较差的频率分辨率。
它能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图中共振峰呈现为黑色条纹。
语谱图上因其不同的黑白程度,形成不同的纹路,称为“声纹”,其因人而异,即不同说话人语谱图的声纹是不同的。
因而可以利用声纹鉴别不同说话人。