第二章 语音信号处理基础知识

  • 格式:doc
  • 大小:588.50 KB
  • 文档页数:15

下载文档原格式

  / 15
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章语音信号处理基础知识

1、语音信号处理?

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。

2、语音信号处理的目的?

1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话人、识别出说话内容等。

因此,在研究各种语音信号处理技术之前,需要了解语音信号的基本特性,同时,要根据语音的产生过程建立实用及便于分析的语音信号模型。

本章主要包括三方面内容:语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。

第一部分内容语音的产生过程,我们要弄清两个问题:1)什么是语音?2)语音的产生过程?

3、什么是语音?

语音是带有语言的声音。人们讲话时发出的话语叫语音,它是一种声音,由人的发音器官发出且具有一定的语法和意义。语音是声音和语言的组合体,所以对于语音的研究包括:1)语音中各个音的排列由一些规则控制,对这些规则及其含义的研究成为语言学;2)对语音中各个音的物理特征和分类的研究称为语音学。

4、语音的产生

语音的产生依赖于人类的发声器官。人的发音器官包括:肺、气管、喉、咽、鼻、口等。

◆喉以上的部分称为声道,其形状随发出声音的不同而变化;

◆喉的部分称为声门。

◆喉部的声带是对发音影响很大的器官。声带振动产生声音。

◆声带开启和闭合使气流形成一系列脉冲。

每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。

基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。

人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。

人的说话的过程:

1)想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机;

接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,以表达想说的内容和情感。

2)说出阶段:由想说阶段大脑中枢的决策,以脉冲形式向发音器官发出指令,使得舌、唇、鄂、声带、肺等部分的肌肉协调地动作,发出声音。与此同时,大脑也发出一些指令给其他有关器官,使之产生各种动作来配合言语的效果,如表情、手势、身体姿态等。经常有些人说话时会手舞足蹈。另外,还会开动“反馈”系统来帮助修正语音。

3)传送阶段:说出的话语是一连串声波,凭借空气为媒介传送到听者的耳朵。有时遇到某种阻碍或其他声响的干扰,使声音产生损耗或失真。

4)接收阶段:从外耳收集的声波信息,经过中耳的放大作用,达到内耳。经过内耳基底膜的振动,激发器官内的神经元使之产生脉冲,将信息以脉冲形式传送给大脑。

5)理解阶段:听觉神经中枢收到脉冲信息后,经过一种至今尚未完全了解的方式,辨认说话人及听到的信息,从而听懂说话人的话。

再开始介绍语音信号的特性之前,我们先了解一下语音和语言的定义。

5、语言

是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等不同层次的单位,以及词法、句法、文脉等语法和语义内容。语言学是语音信号处理的基础。例如,可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。

6、语音学

Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以

及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。

本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。

7、语音信号的声学特性

语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。

说话时一次发出,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。

音素是语音发音的最小单位。任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。

元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔,从唇腔出去时,这些声腔完全开放,气流顺利通过产生音素。-它构成一个音节的主干,长度和能量看,元音在音节中都占主要部分。

辅音:呼出的声流,由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通,而克服这些发音器官的这种阻碍产生的音素。-通常只出现在音节的前端、后端或前后两端。

发辅音时由声带是否振动引起浊音和清音的区别:-声带振动的是浊音;-声带不振动的是清音。

8、基音频率

发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期称为基音周期,其倒数为基音频率。

所以浊音声带振动的基本频率称为基音频率,一般用F

表示。无论一个音节或是一段连

都是随时间变化的,该变化产生了声调,其变化轨迹为声调续语音,各个音节的元音段的F

轨迹。

基音频率与个人声带的长短、厚薄、韧性和发音习惯等有关,在很大程度上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在50-200Hz,女性和小孩的基音频率在200-450Hz之间。

9、共振峰

共振峰是一组谐振频率:声道可以看成一根具有非均匀截面的声管,在发音时起到共鸣器的作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率(简称共振峰)。元音的一个重要的声学特性就是共振峰(Formant)。共振峰参数是区别不同元音的