语音信号处理_2_基础知识

格式：ppt
大小：5.15 MB
文档页数：58

下载文档原格式

语音信号处理PPT_第二章语音信号处理基础知识

• • •
把从肺部呼出的直流气流变为音源，即变为交流的断续流或乱流；喉对音源起共振和反共振的作用，使它带有音色；从嘴唇或鼻孔去空间辐射的作用；
肺把气流送入喉；喉将来自肺的气流调制为周期性脉冲或类似随机噪声的激励声源，并送入声道；声道对频谱进行润色后在嘴唇处的气压变化形成可以传播的声波。肺相当于动力源，喉相当于调制器，声道相当于滤波器和扩音器。
3.
韵母
38个韵母：8个单韵母，14个复韵母，16个鼻韵母。单韵母是由单元音构成的，如：a、o、e、i、u、u。复韵母是由复合元音构成的韵母，如：ai、ei、ao、ou等。鼻韵母是由鼻辅音“n”或“ng”收尾的韵母，如：an、en、 uan、ang、eng、iang等。韵母发音时声带是振动的，音强也较大，波形上可以看到大的振幅，而且呈现周期性。注意：元音不等同于韵母，元音、辅音是按音素的发音特征来分的；而声母、韵母则是按音节结构来分的。

2.5.2 语音信号的语谱图
声纹：语谱图上其不同的黑白程度，形成的不同的纹路。不同的人有不同的声纹，利用声纹进行说话人识别。横杆：与时间轴平行的几条深黑色条纹，对应共振峰。语谱图中有无横杆是判断是否是浊音的标志。竖直条：与时间轴垂直的窄黑条，每个竖直条相当于一个基音，条纹间隔表示基音周期。元音在语谱图上对应横杆（共振峰的存在）噪声和清擦音表现为乱纹。
2.1 语音和语言一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面：语言学：各个音的排列规则及其含义的研究。语音学：各个音的物理特性和分类的研究。考虑的是语音的产生、感知等过程。三个主要的分支：发音语音学、声学语音学、听觉语音学。

语音信号的基础知识课件

虚拟助手是一种能够协助用户完成日常任务的应用。通过语音合成与识别技术，虚拟助手能够理解用户的意图，提供相应的服务。例如，日程提醒、天气查询、音乐播放等。
有声读物是一种将书籍转换为音频形式的产品。通过语音合成技术，可以将文字转换为自然语音朗读；通过语音识别技术，可以方便地实现音频文件的文字转录。有声读物的出现为那些不方便阅读或视力不好的人群提供了方便的阅读方式。
05 语音信号的未来发展
语音信号处理技术的发展趋势
01
深度学习算法的广泛应用
随着深度学习技术的不断发展，语音信号处理将更加依赖于深度学习算
法，如卷积神经网络、循环神经网络等，以提高语音识别的准确率和语
音合成的自然度。
02
端到端语音处理
端到端语音处理技术将逐步成为主流，这种技术能够直接将输入的语音
语音合成技术的原理
语音合成技术主要基于波形编码、统计建模和深度学习等技术实现。其中，波形编码通过模仿人类发音器官的动作，生成与人类语音相似的波形；统计建模则通过建立声学模型和语言模型，预测语音的波形；深度学习则通过训练神经网络，学习语音的生成过程。
语音合成技术的应用
语音合成技术的应用非常广泛，包括智能客服、虚拟助手、有声读物等领域。通过语音合成技术，这些应用能够以自然的方式与用户进行交互，提供更加智能化的服务。
语音识别
将语音信号转换为文本信息，实现人机交互。
情感分析
通过分析语音信号中的情感特征，实现情感识别和分类。
语音通信
利用语音信号进行远程通信，是最常见的应用之一。
语音合成
将文本信息转换为语音信号，用于自动播报、虚拟人物等领域。
说话人识别
利用语音信号中的个性特征，识别出说话人的身份。

2.语音信号处理的基本知识

发浊音时声带振动的基本频率。一般用表F0 示。
声调(tone)：
各个音节元音段的基音频率变化。反映了语音的韵律，汉语中有辨意作用。
男声四种声调的典型曲线
❖汉语八大语系（八大方言）
. 北方方言（70%以上）； . 吴方言（上海、苏州。。）; . 湘方言; . 赣方言; . 客家方言; . 闽北方言(福州话)； . 闽南方言（厦门话、潮州话）； . 粤方言。
(2)说出阶段
由大脑中枢决策后，以脉冲形式向发音器官发出指令，使舌、唇、颚、声带、肺等部分的肌肉协调工作，发出声音。
(3)传送阶段
说出的话语是一连串声波，以空气为媒介传送到听者耳朵里。当然这个过程会遇到某些干扰，使声音产生损耗和失真。主要是一个传送信息的物理过程。
(4)接收阶段
从外耳收集到的声波信息，经中耳的放大到达内耳，再经神经元产生脉冲，将信息以脉冲形式传送给大脑，这个阶段主要与听觉系统的活动有关。
. 人为改变语速； . 改变嗓音。
一.语音和语言
对语音的研究有两方面：
☆ 语言学. 自然语言处理。语言：从话语中概括总结出来的规律性的
符号系统。
☆ 语音学. 研究语音的产生、感知等过程以及各个音的特征和分类等。
☆ 说话过程(5个阶段):
(1)想说阶段
经大脑决策产生说话的动机；接着语言神经中枢选择恰当的单词、短语以及按语法规则的组合，以表达他想说的内容和情感。
. 乐器的泛音频率已超出20~20kHz的可听范围； . 语音泛音：可达7~8kHz 。
☆音节(Syllable)：说话时一次发出的,具有响亮中心的,并被明显感觉到的语音片断。
☆音素(Phoneme)：构成音节的元素。音素是语音发音的最小单位。

《语音信号处理》讲稿第1章

别。
05 语音信号处理的挑战与展望
语音信号处理的挑战
噪声干扰
语音信号在采集、传输和处理过程中容易受到各种噪声的干扰，如环境噪声、设备噪声等，导致语音质量下降。
多变性
语音信号具有极大的多变性，不同人的发音、语速、语调等差异较大，给语音信号处理带来很大的挑战。
实时性要求
许多语音信号处理应用需要实时处理，如语音识别、语音合成等，对算法的复杂度和处理速度要求较高。
语音信号的基本特征
01 02
时域特征
语音信号在时域上表现为振幅随时间变化的波形。时域特征包括短时能量、短时过零率、短时自相关函数等，用于描述语音信号的幅度、频率和周期性等特性。
频域特征
语音信号在频域上表现为不同频率成分的分布。频域特征包括频谱、功率谱、倒谱等，用于描述语音信号的频率结构、共振峰和声学特性等。
倒谱分析
对语音信号的频谱进行对数运算后，再进行傅里叶反变换，得到倒谱系数，用于语音合成、说话人识别等。
倒谱分析方法
线性预测倒谱系数（LPCC）
01
基于线性预测模型的倒谱系数，用于描述语音信号的声道特性。
梅尔频率倒谱系数（MFCC）
02
基于人耳听觉特性的倒谱系数，具有较好的抗噪性和鲁棒性，
广泛应用于语音识别、说话人识别等领域。
基音周期和基音频率
反映语音信号的周期性特征，是语音信号处理中的重要参数。
语音信号的识别技术
模板匹配法
将待识别语音与预先存储的模板进行比较，选取最相似的模板作
为识别结果。
随机模型法
利用统计模型来描述语音信号的特征，通过模型参数的训练和识
别来实现语音信号的识别。
人工智能方法
包括神经网络、支持向量机、深度学习等方法，通过训练和学习来建立语音信号与语义之间的映射关系，实现语音信号的智能识

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代，最初的研究主要集中在语音合成和语音识别上。

在早期，由于计算机技术和数字信号处理技术的限制，语音信号处理的研究进展缓慢。

随着技术的不断发展，尤其是快速傅里叶变换（FFT）的出现，使得语音信号的频域分析成为可能，从而推动了语音信号处理的发展。

到了20世纪80年代，随着全球通信技术的发展，语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来，随着人工智能技术的快速发展，语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分：（1）语音信号的采集和预处理：包括语音信号的采样、量化、预加重等操作，目的是提高语音信号的质量，便于后续处理。

（2）特征参数提取：从预处理后的语音信号中提取出能够反映语音特性的参数，如基频、共振峰、倒谱等。

（3）模型训练和识别：利用提取出的特征参数，通过机器学习算法训练出相应的模型，并进行语音识别、说话人识别等任务。

（4）后处理：对识别结果进行进一步的处理，如语法分析、语义理解等，以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时，会受到声道形状的影响，从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程，包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型，包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作，目的是提高语音信号的质量，便于后续处理。

第二章语音信号处理基础

完整模型：可用三个模型的级联表示
V(z)=A E(z) H(z)
在浊音情况下， E(z) 是一个周期冲激序列，且A=Av， H(z)= G(z) V(z) R(z)
在清音情况下， E(z) 是一个随机噪声，且A=Au，H(z)= V(z) R(z)
语音信号产生的数字模型
在这个模型中，除了G（z）和R（z）保持不变以外，基音频率、Av 、 Au 、清/浊开关的位置以及声道模型中的参数都是随时间变化而变化的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数而言，在 10~30ms的时间间隔内可以认为它们保持不变，因此语音的短时分析帧长一般取为10~30ms。
语音信号产生的数字模型
语音信号产生的数字模型
语音信号产生的数字模型激励模型声道模型辐射模型
语音信号产生的数字模型
激励模型一般分为浊音激励和清音激励来讨论。浊音:浊音时，激励信号由一个周期脉冲发生器产
生，产生的序列是一个频率等于基音频率的冲激序列。为了使浊音的激励信号具有声门脉冲的实际波形，还需要使冲激序列通过一个声门脉冲模型滤波器G(z) 。对声门波形的频谱分析表明，其幅度谱按12dB/倍频程的速度衰减。
这就是语音激励模型和识别清音和浊音的理论基础。
语音信号的特性
语音波形
语音：人的发声器官发出的一种声波，语音一定具有音色、音高、音强和音长四要素；音色，就是声音的个性、特色。它是一个音区别于另一个音的基本特征；音高指声音的高低，取决于频率；音强（音量，又称响度）决定声音的强弱，由声波的振动决定；音长指发音时间的长短。
元音：声带振动发音时，气流从喉腔、咽腔进入口腔从唇腔出去时，声腔完全开发，气流顺利通过。

第二章语音信号的基础知识

第二章语音信号处理的基础知识
语音信号的基本概念语音：人们讲话时发出的话语叫语音。是一种人
们进行信息交流的声音，是组成语言的声音/带有语言信息的声音。
语音(Speech)=声音(Acoustic)+语言 (Language)
语音是由一连串的音素组成语言的声音。
第二章语音信号处理的基础知识
对语音的研究包括两个方面
➢声道
人在说话时，空气由肺部压入，由嘴唇呼出，声门由此开启和闭合，构成声带振动，然后通过声道（喉腔、咽腔和口腔）响应（引起共振特性）变成语音，气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。
✓(元音一定是浊音。辅音包括浊音和清音。 ✓英语中：由元音和辅音（这些都是音素）构成音节，由几个音节构成一个词。 ✓汉语中：汉语中由元音和辅音构成声母和韵母，结合声调构成一个音节，一个音节就是一个字。
一语音信号的产生
4）汉语音节的一般结构
声母、韵母和声调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调（音调）。声调是1个音节在念法上的高低升降的变化，汉语中有4个声调，即阴平（－）、阳平（ ′）、上声（）、和去声（‵）。
一语音信号的产生
声调的变化就是浊音基音周期的变化，为了将
调值描写地具体一些，一般采用“五度标记法”，
用一条竖线表示声音的高低，从下而上用1、2、3、
4、5依次表示低、半低、中、半高、高。
阴平
5高
阳平上声
去声
4 半高 3中 2 半低 1低
调类阴平阳平上声去声

第二章语音信号处理基础知识

第二章语音信号处理基础知识1、语音信号处理？语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。

2、语音信号处理的目的？1）如何有效地，精确地表示、存储、传递语音信号及其特征信息；2）如何用机器来模仿人类，通过处理某种运算以达到某种用途的要求，例如人工合成出语音，辨识出说话人、识别出说话内容等。

因此，在研究各种语音信号处理技术之前，需要了解语音信号的基本特性，同时，要根据语音的产生过程建立实用及便于分析的语音信号模型。

本章主要包括三方面内容：语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。

第一部分内容语音的产生过程，我们要弄清两个问题：1）什么是语音？2）语音的产生过程？3、什么是语音？语音是带有语言的声音。

人们讲话时发出的话语叫语音，它是一种声音，由人的发音器官发出且具有一定的语法和意义。

语音是声音和语言的组合体，所以对于语音的研究包括：1)语音中各个音的排列由一些规则控制，对这些规则及其含义的研究成为语言学；2）对语音中各个音的物理特征和分类的研究称为语音学。

4、语音的产生语音的产生依赖于人类的发声器官。

人的发音器官包括：肺、气管、喉、咽、鼻、口等。

◆喉以上的部分称为声道，其形状随发出声音的不同而变化；◆喉的部分称为声门。

◆喉部的声带是对发音影响很大的器官。

声带振动产生声音。

◆声带开启和闭合使气流形成一系列脉冲。

每开启和闭合一次的时间即振动周期称为基音周期，其倒数为基音频率，简称基频。

基频决定了声音频率的高低，频率快则音调高，频率慢则音调低。

基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。

人的说话过程可以分为五个阶段：（1）想说阶段（2）说出阶段（3）传送阶段（4）理解阶段（5）接收阶段。

人的说话的过程：1）想说阶段：人的说话首先是客观事实在大脑中的反映，经大脑的决策产生了说话的动机；接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合，以表达想说的内容和情感。

语音信号处理2

z L (Ω) = jΩLr Rr Rr + jΩLr
式中， Lr = 3πc 传播速度。
8a
Rr =
128 , 9π 2
a 是口唇张开时的开口半径，c 是声波
辐射模型是一阶类高通滤波器。
27
2.5.4 语音信号的数学模型
综上所述，完整的语音信号的数字模型可以用三个子模型：激励模型、声道模型和辐射模型的串联来表示。
2
2.2 语音和语言
一、语音的定义
语音是人类发音器官发出的、具有一定意义的、能起信息交流作用的声音;由一连串的音所组成，是组成语言的声音。语音（Speech) 声音 (Acoustic) 语言 (Language) 语言学：对各个音的排列规则及其含义的研究语音学：研究言语过程的一门科学。它考虑的是语音产生、语音感知等过程以及对语音中各个音的物理特征和分类问题。分支：发音语音学、声学语音学、听觉语音学
10
2.3 汉语语言特点
音节字声母：21 韵母：39 声调：音节在念法上的高低升降的变化。音素少（约60），音节少（约400），考虑声调，有调音节（约1330）。
11
2.4 语音生成系统和语音感知系统
2.4.1 语音生成系统
人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口，形成一条形状复杂的管道声门：喉的部分声道：从声门到嘴唇的呼吸通道，不断改变发出不同的声音。声带：声带是一对唇形的韧带。基音周期：声带开启和闭合一次基音频率：倒数 60-450Hz
元音：
舌头在口腔中的位置和口型共振峰：声道可以看成是一根具有非均匀截面的声管，当元音激励进入声道时会引起共振，共振的频率称共振峰频率。包括位置和频带宽度。区别不同元音的重要参数。 F1:与舌位高低有关，舌位高， F1 低 F2:与舌位前后有关，舌位靠前， F2 高 F3：受舌尖活动的影响

语音信号处理课件第02章基础知识

n 1,2,
我们们计算一下前三个振峰：
F1 F2 c
1
c

c 340 500Hz 2 4 L 4 17 10 3c c 5c 1500Hz , F3 2500Hz 4L 3 4 L
2
谐振频率发生在500Hz的奇数倍
Speech Signal Processing
Speech Signal Processing
第02章基础知识—11
2、语音信号产生过程
口腔对声源频谱的调制——共振峰
Speech Signal Processing
第02章基础知识—12
共振峰是声道的重要声学特性。声道对于一个激励信号的响应，可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性，它决定信号频谱的总轮廓，或称谱包络。语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性，即音色。元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。在声学语音学中通常考虑F1和F2，但在语音识别技术中至少要考虑三个共振峰，而在语音合成技术中考虑五个共振峰是最为现实的。声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数，称为声道截面积函数，它决定共振峰的特性。
注：喉部以上的部分统称为声道；气管和肺在声门以下
Speech Signal Processing
第02章基础知识—5
1、人类的语言器官
1. 人类的语言器官
图2-2 最重要的发音器官之一：声带
(a)闭合状态 (b)张开状态甲状软骨杓状软骨环状软骨声门声带

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

声调
声调（5个）
孤立音节中有四个声调，调型称之为阴平、阳平、上声、去声，简称1、2、3、4声连续语音中由音节弱化、致使原有调型丢失，形成轻声上声连读变调：上声变阳平主要由韵母音段的音高所负载
第二章语音信号的声学基础及产生模型
语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型
语音感知
听觉器官(声学特征)
音质、音强、音高、音长
感知效应
感知效应
听阈主观响度主观音高言语的选择性感知
感知效应
听阈
频率范围20~20kHz 声强0~120dB(0dB eq. 20uPa)
主观响度主观音高言语的选择性感知
主观响度
响度级（Loudness Level）, Phon数值上等于1kHz纯音的声强级响度（Loudness）, 1Sone等于1kHz纯音t听阈之上40dB的响度 P=33.33lgS+40 3~5kHz频段最为灵敏
频域特征－samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
40
20
20
0
0 0 F re q u e n c y ( H z ) 11 025
-2 0 0 F r e q u e n cy ( H z ) 110 25
40
40 20
20 0
0 0 F re q u e n c y ( H z ) 11 025 0 F r e q u e n cy ( H z ) 110 25
- 0 .670 8
0 T im e (s )
0 .3 0 1 3 1 3
0 .766 3
0
- 0 .624 5 0 T im e (s ) 0 .0 5 3 0 1 8 6
时域波形－samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
0.865 8
0
- 0.656 4
辅音
辅音的分类按发音部位分类唇音：b，p，m，f 舌尖前音：d，t，n，l，z，c，s 舌尖后音：zh，ch，sh，r 舌面前音：j，q，x，舌根音：g，k，h，ng（鼻韵尾）按发音方法分类塞音：b，d，g（不送气） p，t，k（送气）塞擦音：z，zh，j（不送气） c，ch，q（送气）擦音：f，s，sh，x，h（清擦） r（浊擦）边音：l 鼻音：m ， n，ng（鼻韵尾）半元音：如，i，u，ü 起头的零声母音节的起始部
韵母
韵母（39个）－大部分为元音，或元音加鼻韵尾单元音（10个）舌面元音：a, i, u, ü, o, e, ê 舌尖元音：-i, -ii 卷舌元音：er 二合元音（9个）前响： ai, ao, ou, ei, üe 后响： ia, ua, ie, uo 三合元音（4个）iao, iou, uai, uei 鼻韵尾（7个）an, en, in, ang, eng, ing, ong 复合鼻韵尾（9个） ian, iang, iong, uan, uen, uang, ueng, üan, üen
语音信号的特性分析
时域波形（Time-Domain Waveform）频域特征（Frequency-Domain Feature）语谱图（Spectrogram）
时域波形－samples
0 .865 8 0
- 0 .670 8 0 T im e (s ) 1.54 82 1
0 .831 7
0
10 4
T im e (s )
0 0 1.54 821 T im e (s )
10 4
窄带-45Hz 窄带
0
0 T im e (s杠冲直条乱纹
最为经典的语音分析显示手段实现手段
Bell Lab. in 40’s, 模拟滤波器组 Kay Inc. in 80’s，基于DSP的数字滤波器组 Speech analysis tools
频域特征
直观的特征
包络细节
频域特征－发音部位
周期性共振峰位置能量集中区能量
语谱图
需求：综合显示
发音方式-时域发音部位-频域
语谱图：语音频谱随时间变化的图形
横轴：时间纵轴：频率灰度：能量大小
语谱图-samples
0.865 8 0
- 0.670 8 0 1.54 821
宽带-300Hz 宽带-300Hz
一阶差分 +6dB/Oct. 增益
source
filter F1 F2
F3 F4
radiation
speech
F1 F2
F3
F4
语音产生模型
振幅Av 冲激序列发生器声门波模型声道模型随机噪声发生器振幅AN 信号辐射模型
源-滤波-辐射模型
第二章语音信号的声学基础及产生模型
语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型
注：分频斜率（也称滤波器的衰减斜率）用来反映分频点以下频响曲线的下降斜率，用分贝/倍频程（dB/oct）来表示。它有一阶（6 dB/oct）、二阶（12 dB/oct）、三阶（18 dB/oct）和四阶（24 dB/oct）之分，阶数越高，分频点后的频率曲线斜率就越大。较常用的是二阶分频斜率。高阶分频器可增加斜率，但相移位大；低阶分频器能产生较平缓的斜率和很好的瞬态响应，但幅频特性较差。
声道模型
声管模型共振峰模型
声管模型
管子串联管子对应于四端网络反射系数与线性预测的参数相对应（Km对应于线性预测的反射系数）。
2 3 1 4
声门
k1 = A2 − A1 A2 + A1
唇
km =
Am +1 − Am Am +1 + Am
∈ ( − 1,1)
非线性处理过程自下而上（数据驱动）+从上而下（知识驱动）
第二章语音信号的声学基础及产生模型
语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型
语音产生数学模型
产生模型激励声道辐射
语音产生模型
振幅Av 冲激序列发生器声门波模型声道模型随机噪声发生器振幅AN 信号辐射模型
第二章语音信号的声学基础及产生模型
语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型
语音学
界定三个分支基础知识
语音学
界定
语音学是研究人类说话声音的科学
三个分支基础知识
语音学
界定三个分支（发音-传递-感知）
发音语音学也称生理语音学，研究发音器官在发音阶段的生理特性，确定发音部位和发音方式声学语音学研究语音在传递阶段的声学特性，用声学和现代信号分析理论来解释各种语音现象感知语音学研究语音感知阶段的生理和心理特性，也就是研究耳朵是怎样听音的，大脑是怎样解释这些声音的，语言信息在大脑中的存储部位和形式
音节结构
音节＝声母＋韵母＋声调 tang1 = t + ang1 非轻声音节1268个（新华字典）
声母
声母（21个）－全部为辅音塞音：b，d，g（不送气） p，t，k（送气）塞擦音：z，zh，j（不送气） c，ch，q（送气）擦音：f，s，sh，x，h（清擦） r（浊擦）边音：l 鼻音：m ， n，ng（鼻韵尾）半元音：如，i，u，ü 起头的零声母音节的起始部
基础知识
语音学
界定三个分支基础知识
基本声学特征层级结构辅音元音音节结构
基本声学特征
音质响度音高音长音段特征，音质超音段特征，音高、响度、音长
层级结构
由下而上（bottom-to-top）
音素(Phoneme)：最小的发音单位音节(Syllable)：最小的节奏单位语音词(Prosodic Word)：最小的韵律组合单位韵律短语(Prosodic Phrase)：非完整语调的短语语调短语(Intonational Phrase)：具备完整语调的可独立的短语
Tp
Tn
Rosenberg声门波模型
0.5 A[(1 − cos(π ⋅ t / Tp )] (0 ≤ t < T p ) g (t ) = A cos[π (t − Tp ) / 2Tn ] (T p ≤ t < Tp + Tn ) 0 (T p + Tn ≤ t < T0 )
T0 Rosenberg声门波
例：
九九年（一号（一九九九年（BP1）十二月（BP1）三十一号（BP2））十二月（））一九九九年十二月三十一号 yi1 jiu3 jiu2 jiu3 nian2 shi2 er4 yue4 san1 shi2 yi1 hao4
辅音
辅音的特点口腔内有阻塞或阻碍气流较强，特别是清辅音器官在遇阻部分是紧张的多数辅音为不带音的清辅音，少数辅音为声带颤动的浊辅音
源-滤波-辐射模型
激励模型
清音
随机白噪声
均值为0，方差为1的随机序列
T0 斜三角波 Tp Tn
浊音
右斜类三角波
斜三角波模型
A ⋅ t / Tp (0 ≤ t < T p ) g (t ) = A ⋅ (Tp + Tn − t ) / Tn (T p ≤ t < Tp + Tn ) 0 (T p + Tn ≤ t < T0 )
0.312 32
0.156 4
0
- 0.175 9
0 T im e (s )
0 .0 4 4 0 2 7 5
时域波形
直观的特征

语音信号处理_2_基础知识

合集下载

语音信号处理PPT_第二章语音信号处理基础知识

语音信号的基础知识课件

2.语音信号处理的基本知识

《语音信号处理》讲稿第1章

《语音信号处理》课程笔记

第二章语音信号处理基础

第二章语音信号的基础知识

第二章语音信号处理基础知识

语音信号处理2

语音信号处理课件第02章基础知识

文档推荐

最新文档

语音信号处理_2_基础知识

合集下载

语音信号处理PPT_第二章 语音信号处理基础知识

语音信号的基础知识课件

2.语音信号处理的基本知识

《语音信号处理》讲稿第1章

《语音信号处理》课程笔记

第二章语音信号处理基础

第二章语音信号的基础知识

第二章 语音信号处理基础知识

语音信号处理2

语音信号处理课件 第02章基础知识

文档推荐

最新文档

语音信号处理PPT_第二章语音信号处理基础知识

第二章语音信号处理基础知识

语音信号处理课件第02章基础知识