数字语音处理(精华版)

格式：docx
大小：41.61 KB
文档页数：3

下载文档原格式

/ 3

数字信号处理作业之语音识别与处理精选全文

可编辑修改精选全文完整版数字信号处理之语音识别与处理学号姓名赵典一语音信号众所周知，语音在人类社会中起了非常重要的作用。

在现代信息社会中，小至人们的日常生活，大到国家大事、世界新闻、社会舆论和各种重要会议，都离不开语言和文字。

近年来，普通电话、移动电话和互联网已经普及到家庭。

在这些先进的工具中，语音信号处理中的语音编码和语音合成就有很大贡献。

再进一步，可以预料到的口呼打字机(又称听写机，它能把语音转换为文字)、语音翻译机(例如输入为汉语，输出为英语，或者相反)，已经不是梦想而是提到日程上的研究工作了。

20 世纪60 年代中期形成的一系列数字信号处理方法和算法, 如数字滤波器、快速傅里叶变换(FFT)是语音数字信号处理的理论和技术基础。

而70 年代初期产生的线性预测编码(LPC)算法, 为语音信号的数字处理提供了一个强有力的工具。

语音信号的编码和压缩是语音信号处理的主要内容。

语音信号处理在通信、语音识别与合成、自然语言理解、多媒体数据库以及互联网等多个领域有广泛的应用, 同时它对于理解音频类等一般的声音媒体的特点也有很大的帮助。

对于移动通信来说, 最多的信息是语音信号, 语音编码的技术在数字移动通信中具有相当关键的作用, 高质量低速率的语音编码技术是数字移动网的永远的追求。

所谓语音编码是信源编码, 它是将模拟语音信号变成数字信号以便在信道中传输。

除了通信带宽的要求外, 计算机存储容量的限制也要求对语音信号进行压缩, 以满足海量数据情况下进行实时或准实时计算机处理的目的。

二、语音信号处理的发展史：声学是物理学的一个分支学科，而语言声学又是声学的一个分支学科。

它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等) ,听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等) ,语音的清晰度和可懂度等。

当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础。

数字信号处理(语音处理应用)1

语音信号的数字处理方法
• 声音信号的两个基本参数是幅度和频率。
– 幅度是指声波的振幅，通常用动态范围表示，一般用分贝（dB）为单位来计量。 – 频率是指声波每秒钟变化的次数，用Hz表示。 – 人们把频率小于20Hz声波信号称为亚音信号（也称次音信号） – 频率范围为20Hz～20kHz的声波信号称为音频信号 – 高于20kHz的信号称为超音频信号（也称超声波）
Wavread例
[y, fs]=wavread('welcome.wav');
sound(y, fs); % 播放音频
time=(1:length(y))/fs; % 时间轴的向量
plot(time, y); % 画出时间轴上的波形
显示音频文件的信息
• fileName='welcome.wav'; • [y, fs, nbits]=wavread(fileName); • fprintf('音频文件"%s" 的信息：\n', fileName);
• En的应用：
– 1）区分清音段和浊音段 – 2）区分声母和韵母 – 3）区分无声和有声的分界(信噪比较高的信号) – 4）区分连字的边界 – 5）用于语音识别
短时能量分析
• En的缺点：
– 对高电平过于敏感，给加窗宽度的选择带来了困难。扩大了振幅不相等的任何两个相邻取样值(此处的取样值是指某语帧的短时平均能量值) 之间的幅度差别，必须用较宽的窗函数才能平滑能量幅度的起伏。
wavplay(flipud(y), fs, 'sync');% 播放前后颠倒的音频波形
–
通常在使用 wavplay 播放音讯时，MATLAB 会停止进行其它动作，直到音讯播放完毕后，才会再进行其它指令的运算，此种运作方式称为「同步式」（ Synchronous ）。若需要一边播放、一边进行其它运算，就必须使用「异步式」（Asynchronous）的播放方式。

语音信号处理(很好很全)

摘要语音是人类获取信息的重要来源和利用信息的重要手段。

语音信号处理是一门发展十分迅速、应用非常广泛的前沿交叉学科，同时又是一门跨学科的综合性应用研究领域和新兴技术。

现代语音信号系统包括语音信号采集单元和语音信号处理单元，本论文确定了相应的处理芯片：TMS320C5402DSP和TLCAD50C芯片。

但语音信号处理有两个需要解决的问题，语音信号的时变性，和直接进行傅里叶变换其运算量相当大。

其解决措施是加窗函数和运用快速傅里叶变换（即FFT）。

本论文关于这部分的软件设计是在Code Composer Studio（简称CCS）环境下进行的。

本论文的结构是先介绍语音信号处理单元和语音信号采集单元，然后简单介绍语音信号处理系统的硬件电路，最后在CCS环境下进行语音信号的频谱分析。

关键词：语音信号，时变性，窗函数，FFT，DSP，CCSABSTRACTThe speech is the importance source and way of obtain information and make use of the information .The speech signal processing is a development very quick, application very extensive of front follow to cross an academics, in the meantime again is a door across an academics of comprehensive sex application study realm and newly arisen technique.The speech signal system include speech signal to collect unit and the processing unit of the speech signal, this thesis assurance correspond of processing chip:DSP and the TLCAD50 C chip of the TMS320 C5402.But speech signal processing have two problem that need to be solve, because of it hour change sex can't carry on leaf's transformation in the Fu, with direct carry on leaf's transformation in the Fu it operation quantity equal big.Its solving measure is to add window function and usage fast leaf's transformation in the Fu.(namely FFT)The software design carry on under the Studio(brief name CCS) environment of the Code Composer, the CCS is a TI company for the TMS320 series DSP software development release of integration development environment.The structure of this thesis is unit and speech signal of the signal processing of the introduction speech to collect unit first, then simple introduction speech signal processing system of hardware electric circuit, end carry on the frequency chart of speech signal analysis under the CCS environment.Keywords:The speech signal, hour change sex, window function, FFT, DSP, CCS目录1．绪论 ........................................................................................ 错误！未定义书签。

数字语音总复习思考题

《数字语音处理》复习思考题1. 数字语音处理的概念？数字语音处理的学科基础是什么？数字语音处理研究涉及哪些相关学科？2. 数字语音处理应用包括哪些技术？数字语音处理的应用主要包括哪些方面？3. 常用语音编辑软件有哪些？怎样制作你自己演唱的MP3歌曲？4. 基于各种音素发音不同的谐振特点可建立起的共振峰模型有哪三种？各种模型的特点？5. 语音的构成包括哪些？语音发音的最小单位是什么？6. 人说话的过程可分为哪五个阶段？7. 人的言语过程与哪些因素有关？8. 声道由哪几个部分组成？9. 掌握发声机理框图，简要解释语音的形成过程。

10. 什么是听觉掩蔽效应？简述人类听觉功能的掩蔽效应。

11. 人耳听觉的掩蔽效应分为哪几种？掩蔽效应的存在对我们研究语音信号处理系统有什么启示？12. 什么是共振峰频率？13. 舌位的前后高低与元音共振特性有哪些联系？14. 什么是音调周期（或基音周期）？什么是基音频率（或基频）？15. 语音信号的数字表示方法有哪两种？16. 理解语音信号产生的数字模型及模型组成。

17. 语音信号的数字模型包含哪些子模型？激励模型与辐射模型分别属于什么性质滤波器？18. 语音产生的数字模型中的声道子模型有两种建模方法，它们是哪些？19. 基于各种音素发音不同的谐振特点可建立起的共振峰模型有哪三种？各种模型的特点？20. 根据分析参数（分析域）的不同，语音信号分析可分为哪些方法？21. 语音信号是时变信号，处理语音信号最基本的技术是什么？22. 什么是语音信号的短时加窗处理？23. 对语音信号进行处理前为什么要进行分帧?分帧的常用方法是什么？一个语音帧的长度一般取多少？请简要解释。

24. 基本短时参数——短时能量、短时平均幅度、短时过零率、短时自相关、互相关、短时平均幅度差函数等，作用？25. 实验中怎样判断浊音和清音？26. 短时平均过零率指的是什么？声带振动、声带不振动、或没有声音时若有噪声存在时，过零率有何特点？27. 请说明对语音信号进行短时傅里叶分析时，移动窗宽与短时频谱的关系。

数字语音处理

数字语音处理在MATLAB上的降噪应用摘要语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。

只有通过语音信号的数字处理，语音信号的好坏、语音识别率的高低，都取决于语音信号处理的好坏。

因此，语音信号处理是一项非常有意义的研究课程。

语音，即语言的声音，是语言符号系统的载体。

它由人的发音器官发出，负载着一定的语言意义。

语言依靠语音实现它的社会功能。

语言是音义结合的符号系统，语言的声音和语言的意义是紧密联系着的，因此，语言虽是一种声音，但又与一般的声音有着本质的区别．语音是人们交流思想和进行社会活动的最基本手段,因此我们要对语音信号进行处理分析，优化人类通信交流。

语言是人类持有的功能．声音是人类常用的工具，是相互传递信息的最主要的手段。

语音信号是人们构成思想疏通和感情交流的最主要的途径，通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。

现在随着时代的发展，人类已开始进入了信息化时代，用现代手段研究语音信号，使人们能更加有效地产生、传输、存储、获取和应用语音信息，这对于促进社会的发展具有十分重要的意义。

在本次实训中我设计的题目是：语音信号的数字处理。

实训的设计是对语音信号的数字处理，通过对所采集的语音信号进行时域波形和频谱图分析，采用双线性变换法设计滤波器，语音信号通过对滤波器进行滤波，然后回放语音信号，并对其滤波前和滤波后的语音变化进行分析。

现在社会衍生了很多现代的语音通信方式，手机语音、语音聊天软件以及语音小说等，涉及语音的方面几乎遍及了我们的大部分生活，和我们生活息息相关，因此语音信号处理是具有现实意义的研究课程。

一、数字处理关键技术1.1语音编码技术语音信号的数字化，最简单的方法是对其直接进行模/ 数转换；只要采样率足够高，量化每个样本的比特数足够多，则可以保证解码恢复的语音信号有很好的音质，不会丢失有用信息。

对语音进行压缩编码的基本依据有两个：一个是从产生语音的物理机理和语言结构的性质来看，语音信号是强相关、弱平稳信号，有很高的冗余度。

数字语音信号处理

分类号—————————————————————————————————密级—(宋体小五号)UDC本科毕业论文（设计）数字语音信号处理学生姓名梁涛学号020*********指导教师王怀阳院、系、中心信息科学与工程学院电子系专业年级03级电子信息科学与技术论文答辩日期年月日中国海洋大学数字语音信号处理完成日期：指导教师签字：答辩小组成员签字：摘要本课题就是要将计算机语音数字处理技术用于英语口语的学习中，其基本任务是针对华人（以汉语为第一语言）英语发音与外国人（以英语为第一语言的外国人）英语发音的不同之处，通过分析二者音频的复倒谱进而找出其中的差异，总结出华人发音出错几率较大的几个音素，并提出改进方案，以提高国人英语发音的准确水平。

由于现在市面上多数计算机辅助语言学习系统软件多是套用现有的语音识别引擎，例如IBM的ViaVoice。

而这些引擎原来都是针对母语为英语的使用者而设计的，所以如果针对母语为中文的使用者来说，其辨识率便会有所下降，而无法达到发音教学的目的。

因此，针对这一情况，做出对于母语为中文的使用者的发音与标准英文发音之间的区别十分有意义，其可为研发新适合中国人的计算机辅助语言学习系统的引擎提供指导和参考。

关键词：语音处理；发音；英语口语学习；复倒谱Digital Speech Signal ProcessingAbstractIt is to use the computer digital speech processing technology to study of spoken English in this article. The basic task is to analyze and find out the differences between the Chinese person (Chinese as a first language) English pronunciation and foreigners (English as the first foreign language) English pronunciation by transforming them into Complex Cepstrum. So we can sum up the large error probability of phonemes which pronounce by Chinese and give the suggestion for improving the level of pronunciation. Because the majority of the computer-aided language learning system software in the market now is using the existing speech recognition engines, for example, IBM's ViaVoice. These engines are targeted and designed for the original native English-speaking users. So if it is used by the native Chinese users, its literacy rate will decline somewhat, and pronunciation is not possible to achieve the objective of teaching. Accordingly, in this situation, to find the differences between the Chinese English pronunciation and the Standard English pronunciation is meaningful. And it can also to provide guidance and reference for the development of new computer-aided language learning system of the engine for Chinese.Key Words: speech process; pronunciation; spoken English studying; Complex Cepstrum目录1 绪论 (1)1．1 概述 (1)1．2 语音识别技术的历史与现状 (3)1．3 可行性分析 (5)1．4 论文研究的主要内容 (6)2 语音信号的录入 (7)2．1 前言 (7)2．2 音频录放工具 (7)2．2．1 API函数与MCI指令 (8)2．2．2 音频录放程序 (9)2．3 录音测试 (15)2．4 本章小结 (16)3 W A V音频文件的分析 (17)3．1 前言 (17)3．2 语音信号的数字表示及复倒谱分析 (17)3．2．1 语音信号的数字表示 (17)3．2．2 复倒谱 (23)3．3 MATLAB分析音频 (26)3．3．1 MATLAB程序 (26)3．3．2 实验分析方法 (27)3．3．3 实验分析结果和讨论 (30)3．4 本章小结 (35)4 总结 (36)参考文献 (37)致谢 (39)1 绪论1．1 概述数字语音信号处理是一门涉及面很广的交叉科学，虽然从事这一领域研究的人员主要来自计算机和通信等科学，但是它与语音学、语言学、数理统计学以及神经生理学等科学，也有非常密切的亲系。

数字音频处理

FA(x)
1 7/8 6/8 5/8
FA(x)
A=87.6
1 7/8 6/8
A=87.6
5/8
4/8 3/8 2/8
4/8
3/8 2/8 1/8
1/8
0
1/16 1/8 1/4 1/2 1 幅度x
规格化规格化
0
1/16 1/8 1/4 1/64
1/32
1/2
1 幅度x
1/64 1/32
u律压缩函数： ln(1+u|x|) Fu(x) =sgn(x)—————— (|x|<=1) ln(1+u) x为规格化信号幅值(|x|<=1),u为压扩参数。在 CCITT标准中u=255。
FA(x)
1 7/8 6/8 5/8 4/8 3/8 2/8 1/8 0
规格化
A=87.6
区间号 8 7 6 5 4 3 2cv 1~2 0cv 开 64cv 32cv 16cv 8cv 4cv 实验始信号结 128cv) 64cv) 32cv) 16cv) 8cv) 幅值束开 1/2 1/4 1/8 1/16 1/32 规格始化幅结 1) 1/2) 1/4) 1/8) 1/16) 值束区间值距 4cv 2cv 1cv
比特率(码率)与音质的关系：采样频率的适当增加，可减少采样噪声而提高音质。一般采样频率为音频最高频率的2~4倍。量化位数的提高，可减少量化噪声而提高音质。一般量化位数位8~64位。总之比特率的提高，增加了存储空间，但提高了音质。
20
300
3k
20k
6.声音的三要素: 音调、音强及音色。 1)基频与音调：波峰是声波曲线中极大点。每两个相邻极大点决定一个频率的波，音频曲线可能由多个频率的波合成。在一个可区分的音中，幅度最大和波峰间距大约相等的波的频率为基频。基频也称音调。音乐中的音阶也称音调，是一个固定频率 I/V 的声波。

语音信号数字处理与4500-3700-精品医学课件

强相关的知觉量是响度，但它们之间的关系是非线性的。简单的说就是人耳所感受到的声音的响亮程度。
声源体振动幅度大，使空气粒子运动能量大，耳膜振动程度大，耳朵感受的响亮程度强。反之，耳朵感受的响亮程度弱。
振幅：空气压力偏离正常值的最大幅度，称为声波的振幅。响度与振幅有关，但不等于振幅的一个听觉上的量。响度指声音的功率，声音的功率取决于振幅的平方。
一、声波的分析基础--数字处理
语音信号数字处理框图语音信号与发声器官的关系采样率与信噪比滤波器与开窗开窗参数的关系式与物理意义
语音信号数字化处理系统(3700)
预滤波
数字信号
A/D
处理器
模数转换采样
A/D转换
时域、频域分析
短时能量分析短时过零分析短时相关分析短时傅立叶变换语图倒谱谱线性预测反傅立叶变换
语音所包含的信息有声带的振动、腔体的调制。
因此，语音不同于简单的敲击物体产生的声音，语音——弹性介质中的波
声波
声波即语音信号（上）声波是复合波语音的分类——元音、辅音语音的四要素——音强、音高、音长、音色
声波是复合波
声波是能量随时间变化的图形，也叫波形。声波的种类：
的运动，产生的这种声音为噪音。
元音和辅音的声波特点
元音：由于空气压力的变化周期精确的按固
定时间间隔重复变化，因此，元音的波形是呈周期性的。
辅音：空气压力呈无规则变化的声音是噪声，
语音中的辅音就是噪声。
声波图和谱图：
元音和辅音的波与谱图
语音的四要素：音强、音高、音长、音色
音强intensity：声波携带的按分贝计量的总能量。与声
平方成正比，分贝增量则正好表示了这种关系。用分贝（db）表示响度的优点是简单、直观。

数字语音处理(精华版)

ais (n i )
i 1
p
27·最佳矢量量化器：在给定条件下，失真最小的矢量量化器，称为这个条件下的最佳矢量量化器。（2）设计最佳矢量量化器的两个必要条件：1）在给定码书的条件下，寻找
缺点：语音质量差，自然度较低。 3）混合编码：在保留参数编码技术上，引用波形编码准则去优化激励源信号，克服原有波形和参数编码的弱点，汲取所长。 34· 语音信号存在大量冗余：样点值之间相关性。 35·信源：PCM 信道：奇偶性有效性可靠性
另一种是汉明窗，窗函数：

0.54 0.46cos[2n /( N 1)] 0 n N 0, 其他
门限 T2 相交的两个点 C 和 D，于是 CD 段就是双门限方法根据短时能量所判定的语音段。第二级判决：以短时平均过零率为标准，从 C 点往左和 D 点往右搜索，找到短时平均过零率低于某个门限 T3 的两点 E 和 F，这便是语音段的起止点。门限 T3 是由背景噪声的平均过零率所确定的。 20 · 当 n 固定时，它们就是序列
线性预测方程:
R(k） - a iR ( k i ) 0
i 1
p
23·模型增益 G,增益常数 G^2=Ep. 24· 量化分为标量量化和矢量量化。标量量化：把抽样后的信号值逐个进行量化。矢量量化：先把信号序列的每 K 个连续样点分成一组，形成 k 维欧氏空间中的一个矢量，然后对此矢量进行量化。 25· 矢量量化能降低信码率，传输的是角标。码书：最小失真值所对应的量化矢量 Yi,把所有 N 个量化矢量构成集合{Yi},. 码字：码书中的矢量称为码字。 26· 失真测度：是以什么方法来反映用码字 Yi 代替信源矢量 X 时所付出的代价，统计平均值：D=E[d(x,Q(x))]

数字语音编码、处理或识别技术

数字语音编码、处理或识别技术摘要：编码、传输、存储和译码是语音数字传输和数字存储的必要过程，随着语音通信技术的发展，压缩语音信号的传输带宽，降低信道的传输速率，一直是人们追求的目标，语音编码就是使表达语音信号的比特数目最小。

关键字：语音编码处理识别Abstract: encoding, transmission, storage and decoding digital transmission of voice and digital storage of the necessary process,withthevoicecommunication technology, compressed audio signal transmission bandwidth and reduce the transmission rate of the channel, has been one goal, voice expression of the voice signal is encoded so that the minimum number of bits.Keywords: coding process identified一．数字语音编码处理语音编码就是对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并进行数字传输语音编码一般分为三类：波形编码，声源编码和混合编码。

波形编码的目的在于尽可能精确地再现原来的语音波形。

声源编码是将语音信息用特定的声源模型表示。

混合编码把波形编码的高质量和声码器的高效压缩性融为一体。

语音编码为信源编码，是将模拟语音信号转变为数字信号以便在信道中传输。

语音编码的目的是在保持一定得算法复杂程度和通信时延的前提下，占用尽可能少的通信容量，传送尽肯能高质量的语音。

语音编码技术又可分为波形编码、参量编码和混合编码三大类。

波形编码是对模拟语音波形信号经过取样、量化、编码而形成的数字语音技术。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1·语音信号处理的三大分支：语音合成（说），语音编码（压缩），语音识别（听），语音增强。

2·语音是怎样生成的：空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，这就形成了语音。

3·浊音：发音时声带振动的音称为浊音，它能量高，过零率低。

为周期性斜三角脉冲。

清音：声带不振动，能量低过零率高非周期脉冲，可用随机白噪声激励。

4·掩蔽效应：一个声音的听感觉感受受同时存在的另一个声音的影响的现象。

掩蔽效应的应用：它指人耳只对最明显的声音反应敏感，对于不敏感的反应较不敏感，应用此原理人们发明了MP3等压缩的数字音乐格式，只突出记录人耳较为敏感的中频段声音，大大压缩了存储空间。

5·听觉机理：（1）外耳：机械振动，（2）中耳：限幅放大，（3）内耳：耳蜗。

6·语音信号数字模型：1）激励模型、2）声道模型、3）辐射模型。

7·语音生成系统的传递函数：)()z()()(zRVzGzH=8·模型局限性及解决办法：声道的传输函数具有全极点的性质，这对于元音和大多数辅音来说是比较符合实际的，但对于鼻音和阻塞音来说由于出现了零点，这种模型就不够准确了，一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化，另一种是适当提高阶数P，使得全极点模型能更好的逼近具有此种零点的传输函数。

9·预加重含义：加入一阶高通滤波器。

10·预加重处理目的：目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率11·预加重处理技术：一般通过传递函数为：z11H(z)--=α的一阶FIR高通数字滤波器来实现预加重。

12·短时平均能量主要用途：1）可以作为区分浊音和清音的特征参数2）在信噪比较高的情况下短时能量还可以作为区分有声和无声的依据3)可以作为辅助的特征参数用于语音识别中。

13常用的窗有两种：一种是矩形窗，窗函数如下：⎩⎨⎧-≤≤=其他,01,1)(Nnnω可简化为：∑--=--=nNnmnmxmxz)1(|)]1(sgn[)](sgn[|21π另一种是汉明窗，窗函数：⎩⎨⎧≤≤--=其他,0)]1/(2[cos46.054.0NnNnπω14·过零率：单位时间内过零的次数。

浊音：过零率低能量高，清音：过零率高能量高。

15·端点检测目的：从包含语音的一段信号中确定出语音的起点及结束点。

16·自相关函数：时域离散确定信号：∑+∞-∞=+=mkmxMx)()()R(k时域离散随机信号：∑-=++=NNmkmxmxN)()(121)R(k自相关函数性质：1)对称性：R（K）=R（-K）2）在K=0处为最大值，即对于所有K来说)0(|)(|RKR≤3）对于确定信号，R（0）对应于能量对于随机信号R（0）对应于平均功率。

17·浊音和清音的短时自相关函数有以下特点:1)短时自相关函数可以很明显的反映出浊音信号的周期性2）清音的短时自相关函数没有周期性，也不具有明显突出的峰值，其性质类似于噪声。

3）不同的窗对短时自相关函数结果有一定影响。

18·短时自相关函数（求峰值）两个峰值之间的距离为周期。

短时平均幅度差函数（求谷值）两个谷值之间的距离为周期。

19·采用双限门比较的两极判决法：第一级判决:1)先根据语音短时能量的轮廓选取一个较高的门限T1进行一次粗判：语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。

2）根据背景噪声的平均能量确定一个较低的门限T2，并从A点往左、从B点往右搜索，分别找到短时能量包络与门限T2相交的两个点C和D，于是CD段就是双门限方法根据短时能量所判定的语音段。

第二级判决：以短时平均过零率为标准，从C点往左和D点往右搜索，找到短时平均过零率低于某个门限T3的两点E和F，这便是语音段的起止点。

门限T3是由背景噪声的平均过零率所确定的。

20·当n固定时，它们就是序列））（mx(m-nω的傅里叶变换或离散傅里叶变换。

当ω或K固定时，它们就是一个卷积，相当于滤波器的运算。

21·基音周期估值的两种方法:第一种方法：先对语音信号进行低通滤波，在进行自相关计算。

第二种方法，先对语音信号进行中心削波处理，在进行自相关计算。

判别基音周期的方法：1·短时自相关函数法。

2·短时平均幅度差函数。

22·线性预测编码就是利用过去的样值对新样值进行预测，然后将样值的实际值与预测值相减，得到一个误差信号，显然误差信号的动态范围远小于原始语音信号的动态范围，对误差信号的进行量化编码，可大大减少量化所需的比特数，使编码速率降低。

1）)()(^s p1i n s n i i a -=∑=P 阶线性预测器传递函数za ipi i z -=∑=1)P （2）Z 域：)()()Gu 1i n s n s n Fi i a --=∑=（线性预测分析条件：⎩⎨⎧==)()(i n e n Gu a iα 系统表达式： Gu(n)*h(n)=s(n) 3)线性预测误差e(n) e(n)=s(n)-s^(n)⎪⎪⎩⎪⎪⎨⎧-==-=∑∑=-=-pi ii p i i i z a z a z s z E z A z s z s n E 111)()()()()()(线性预测方程:0)(-R(k p1=-∑=i k R i i a ）23·模型增益G,增益常数G^2=Ep. 24·量化分为标量量化和矢量量化。

标量量化：把抽样后的信号值逐个进行量化。

矢量量化：先把信号序列的每K 个连续样点分成一组，形成k 维欧氏空间中的一个矢量，然后对此矢量进行量化。

25·矢量量化能降低信码率，传输的是角标。

码书：最小失真值所对应的量化矢量Yi,把所有N 个量化矢量构成集合{Yi},. 码字：码书中的矢量称为码字。

26·失真测度：是以什么方法来反映用码字Yi 代替信源矢量X 时所付出的代价，统计平均值：D=E[d(x,Q(x))]27·最佳矢量量化器：在给定条件下，失真最小的矢量量化器，称为这个条件下的最佳矢量量化器。

（2）设计最佳矢量量化器的两个必要条件：1）在给定码书的条件下，寻找信源空间的最佳划分，使平均失真最小。

2）在给定划分的条件下，寻找最佳码书，使平均失真最小。

28·LBG 算法：设置矢量量化器的主任务：设计码书Yn,对于给定码字数目N 的情况下，由两个必要条件可推导出一个矢量量化器的设计算法。

1）算法一：已知信源分布特性设计算法， 2）算法二：已知训练序列的设计算法。

29·初始码书的选取方法：1）随机法：从训练序列中随机选取N 个矢量作为初始码字，构成初始码书Yn={Y1,Y2...Yn].2)分裂法：计算所训练序列 Ts 形心，将之作为第一个码字Y1. 30·降低复杂度的矢量量化系统是树形搜索。

31.设计树形结构方法：1）1）从树叶开始设计：根据码字距离最近配对，并找出码字对中心，(Y000.Y001)--Y00...........(Y00.Y01)---Y0..............且树叶数N=8,2）从树根开始设计：利用分裂法得Y0与Y1,逐次求得Y00 (11)32.在存储量上，二叉树多于全搜索，2）树形搜索矢量量化器的特点：以适当提高空间复杂度来降低时间复杂度。

33.语音编码分类：1）波形编码：重建后波形与原始波形保持一致。

特点：语音质量好，适应能力强，算法简单，易于实现，抗噪声性能强，缺点：所需的编码速率高，一般在16~64kbit/s 。

2）参数编码：以语音信号产生数字模型为基础，对数字语音进行分析，提出一组特征参数，这些参数携带有语音信号主要信息编码，它们只需较少的比特数，在解码后可由这些参数，重新合成语音信号。

特点：可实现低速率语音编码，其编码速率可低至2.4bit/s 以下。

缺点：语音质量差，自然度较低。

3）混合编码：在保留参数编码技术上，引用波形编码准则去优化激励源信号，克服原有波形和参数编码的弱点，汲取所长。

34·语音信号存在大量冗余：样点值之间相关性。

35·信源：PCM 有效性信道：奇偶性可靠性36·语音编码设计指标：1）编码速率2）质量：主观MOS 与客观SNR.3)延时 4）复杂度37.语音信号常用方法：分段信噪比。

38.均匀量化PCM 的信噪比：SNR(dB)=6.02--7.2B 。

信噪比与信号方差无关，它仅取决于量化间隔。

39.自适应量化PCM自适应方案分为前馈自适应和反馈自适应。

调整幅度分为量化间隔可变和量化台阶可变。

自适应量化是指量化器特征自适应于输入信号幅度变化。

40.自适应预测编码：如果对残差序列e(n)做量化和编码，在同样信号量化噪声比条件下，所需的量化比特数就可以减少，从而达到压缩编码的目的，给予这一原理方法称为预测编码，当预测系数是适应的随语音信号变化时，又称自适应预测编码41.斜率过载：在译码器中，所恢复的阶梯波的上升或下降有可能跟不上信号的变化，因而产生滞后，这就造成失真。

称为斜率过载2）如何克服斜率过载失真，只要增加量化电平。

42.颗粒噪声：在译码器中所得到的将是峰--峰值等于2的等幅脉冲序列，这便形成一种噪声，称为颗粒噪声。

43.短时傅里叶变换：∑+∞-∞=--=m jwn jwee m n w m x Xn )()()(长时傅里叶变换：∑+∞-∞=-→=m jwnjwm f m x x ee )()()(44自定义预测如何提高信噪比，量化噪比定义：)]([)]([22n E n E SNR q s ==Gp ·SNRq。

数字语音处理(精华版)

合集下载

数字信号处理作业之语音识别与处理精选全文

数字信号处理(语音处理应用)1

语音信号处理(很好很全)

数字语音总复习思考题

数字语音处理

数字语音信号处理

数字音频处理

语音信号数字处理与4500-3700-精品医学课件

数字语音处理(精华版)

数字语音编码、处理或识别技术

文档推荐

最新文档