自适应矢量量化在语音识别中的应用
- 格式:doc
- 大小:190.50 KB
- 文档页数:4
语音识别技术简介我想大家都听过阿里巴巴与四十大盗的故事,阿里巴巴的“芝麻开门”就是一个语音识别的例子,可见语音识别是很早就启蒙了。
今天我就和大家一起来学习一下语音识别技术。
让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。
伴随计算机技术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用中逐渐进入我们日常的生活,并迅速发展成为“改变未来人类生活方式厅的关键技术之一”。
语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方向。
其最终目标是实现人与机器进行自然语言通信。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。
今天主要讲的内容有:语音识别的发展历史、系统分类、基本方法、系统结构、面临问题以及前景展望。
语音识别发展历史1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。
1960年英国的Denes等人研究成功了第一个计算机语音识别系统。
大规模的语音识别[3]研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。
在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。
此外,再次提出了将神经网络技术引入语音识别问题的技术思路。
进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。
但是,在语音识别技术的应用及产品化方面出现了很大的进展。
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
语音编码技术的分类语音编码技术是将语音信号经过压缩、编码处理后转化为数字数据的技术,广泛应用于语音通信、语音识别、语音合成等领域。
根据不同的实现方式和压缩算法,可以将语音编码技术分为以下几个分类。
首先是有损压缩编码技术,这种技术通过牺牲一定的语音质量来达到较高的压缩比。
最典型的有损压缩算法是线性预测编码(LPC)和线性预测编码(LPC)特征序列编码。
LPC通过分析语音信号的谐波结构和共振峰来捕捉语音的重要信息,然后利用这些信息对语音进行重建。
而LPC通过分析语音信号的自相关性和频谱平滑性来获得语音的预测系数,从而实现对语音信号的压缩。
其次是无损压缩编码技术,这种技术通过保留原始语音信号的全部信息来实现压缩。
无损压缩编码技术对于一些对音质有较高要求的应用场景非常重要,比如语音识别和语音合成。
最常见的无损编码算法是自适应差分编码(ADPCM)和矢量量化编码(VQ)。
ADPCM通过预测当前语音样本和前一样本之间的差值,并将该差值保存为编码结果,以实现高压缩比。
第三是混合压缩编码技术,也称为变速压缩编码技术。
这种技术通过对不同部分使用不同的压缩算法来实现。
最常见的变速编码算法是多速率编码(MRC)和多步骤编码(MSC)。
MRC通过对语音信号的不同频段采用不同的压缩算法,对于高频部分使用有损压缩算法进行压缩,对于低频部分使用无损压缩算法进行压缩,从而实现更高的压缩比。
MSC对语音信号进行多次压缩,每次压缩只保留重要的信息,通过多次压缩后,达到较高的压缩比。
总的来说,语音编码技术的分类包括有损压缩编码技术、无损压缩编码技术和混合压缩编码技术。
不同的技术分类适用于不同的应用场景,在实际应用中需要根据具体需求权衡语音质量和压缩比,选择合适的编码技术。
对于语音通信等实时场景,需要保证较高的语音质量,可以选择无损压缩编码技术;而对于语音识别和语音合成等需要高压缩比的应用场景,可以选择有损压缩编码技术。
混合压缩编码技术则提供了在不同部分使用不同压缩算法的灵活性,适用于更细粒度的应用需求。
矢量量化在语音信号处理中的应用简介矢量量化是一种常用的数据压缩技术,旨在通过将连续信号离散化表示来减少数据传输和存储的成本。
在语音信号处理中,矢量量化广泛应用于语音编码、语音识别和语音合成等领域。
本文将深入探讨矢量量化在语音信号处理中的应用。
语音编码语音信号的特点为了更好地理解矢量量化在语音编码中的应用,首先需要了解语音信号的特点。
语音信号是一种时间连续的信号,具有较高的带宽要求和较低的信噪比。
此外,语音信号中的语音内容通常通过谐波周期、共振峰和无意义的噪声等特征进行表示。
矢量量化在语音编码中的角色在语音编码中,矢量量化被用于将连续的语音信号转换为离散表示,以实现对语音信号的压缩。
通过将语音信号分割成不同的时间段或频率帧,并将这些帧用离散的码矢量表示,矢量量化可以显著减少所需的传输和存储资源。
此外,矢量量化还能提供一种方式来描述和比较不同语音片段之间的相似性。
矢量量化的实现方法在语音编码中,有许多矢量量化的实现方法可供选择。
其中,最简单但性能相对较差的方法是基于均匀矢量量化。
该方法将矢量空间均匀划分为一系列子区域,并为每个子区域分配一个代表矢量。
然而,由于语音信号的非均匀分布特性,均匀矢量量化的效果有限。
为了克服均匀矢量量化的不足,研究人员提出了一些更高级的方法,如聚类算法和向量量化树。
聚类算法将语音帧分成几个类别,并为每个类别分配一个代表矢量。
而向量量化树则是一种层次结构,通过递归地将帧分成更小的子集,并为每个叶子节点分配一个代表矢量。
这些方法相对于均匀矢量量化能够更好地适应语音信号的分布特性,从而提高编码效果。
矢量量化的应用实例矢量量化在语音编码中的应用有很多,以下是一些常见的实例:1.无损压缩:通过高效地将连续语音信号转换为离散表示,矢量量化可以实现对语音信号的无损压缩。
这种压缩方法无需对语音信号进行任何信息损失,因此在一些对语音质量要求较高的应用中非常有用。
2.语音传输:矢量量化能够显著减少语音信号传输所需的带宽和存储资源。
语音信号处理方法及应用论述通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。
语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要手段。
它具有最大的信息容量和最高的只能水平。
因此,用现代的手段研究语音处理技术,使人们能更有效的产生、传输、存储、获取和应用语音信息,对于促进社会发展具有十分重要的的意义。
语音信号处理正是一门研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴学科,是目前发展最为迅速的信息科学研究领域的核心技术之一,同时又是综合性的多学科领域和涉及面很广的交叉学科。
语音信号处理的理论和研究包括紧密结合的两个方面:一方面是从语音的产生和感知来对其进行研究,这一研究语音.语言学、认知科学、心理.生理学等学科密不可分。
另一方面是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用与语音信号的处理方法和技术。
20世纪60年代中期形成的一系列数字信号处理方法和算法,如数字滤波器、快速傅里叶变换(FFT)是语音数字信号处理的理论和技术基础。
而70年代初期产生的线性预测编码(LPC)算法,为语音信号的数字处理提供了一个强有力的工具。
广泛的应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法。
80年代初一种新的基于聚类分析的高效数据压缩技术——矢量量化(VQ)应用于语音信号处理中。
而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时它的许多成果也体现在有关语音信号处理的各项技术之中。
进入20世纪90年代以来,语音信号处理在实用化方面取得了许多实质性的研究进展。
其中,语音识别逐渐由实验室走向实用化。
一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点。
第四章矢量量化1、矢量量化?(VQ)是1956年由steinhaus首次提出的,1970年代后期发展起来的数据压缩和编码技术。
它主要应用于:语音编码、语音合成、语音识别和说话人识别。
矢量量化在语音信号处理中占有重要地位。
2、标量量化和矢量量化?✓标量量化:是对标量进行量化,即一维的矢量量化。
将动态范围分成若干个小区间,每小区间有一个代表值。
当输入信号落入某区间时,量化成该代表值。
✓矢量量化:是对矢量进行量化。
将矢量空间分成若干个小区域,每小区域有一个代表矢量。
当输入矢量落入某区域时,量化成该代表矢量。
矢量量化是标量量化的发展。
矢量量化总是优于标量量化,维数越高,性能越优越。
矢量量化有效利用各分量间的互相关性。
1970年代末,Linde,Buzo,Gray和Markel等人首次解决了矢量量化码书生成的方法,并首先将矢量量化用于语音编码获得巨大成功。
如,在语音通信方面,将在原来编码速率为2.4kbit/s的线性预测声码器基础上,将每帧的10个反射系数加以10维的矢量量化,就可使编码速率降低到800bit/s,而声音质量基本未下降。
又如分段声码器,由于采用矢量量化,可以使数码率降低到150bit/s。
3、矢量量化的基本原理?标量量化是对信号的单个样本或参数的幅度进行量化;标量是指被量化的变量,为一维变量。
矢量量化的过程是将语音信号波形的K个样点的每一帧,或有K个参数的每一参数帧构成K维空间的一个矢量,然后对这个矢量进行量化。
标量量化可以说是K=1的矢量量化。
矢量量化的过程和标量量化过程相似。
在标量量化时,在一维的零至无穷大值之间设置若干个量化阶梯,当某输入信号的幅度值落在某相邻的两个量化阶梯之间时,就被量化成两阶梯的中心值。
而在矢量量化时,则将K维无限空间划分为M 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。
矢量量化的定义将信号序列{}i y 的每K 个连续样点分成一组,形成K 维欧氏空间中的一个矢量,矢量量化就是把这个K 维输入矢量X 映射成另一个K 维量化矢量。
语⾳信号处理_考试参考题(修订版)(1)⼀、填空题:(每空1 分,共60分)1、语⾳信号的频率范围为(300-3400kHz),⼀般情况下采样率为(8kHz )。
书上22页2、语⾳的形成是空⽓由(肺部)排⼊(喉部),经过(声带)进⼊声道,最后由()辐射出声波,这就形成了语⾳。
书上11页。
肺中的通过(稳定)的⽓流或声道中的⽓流激励(喉头⾄嘴唇的器官的各种作⽤)⽽产⽣。
当肺中的⽓流通过声门时,声门由于其间⽓体压⼒的变化⽽开闭,使得⽓流时⽽通过,时⽽被阻断,从⽽形成⼀串周期性脉冲送⼊声道,由此产⽣的语⾳是(浊⾳)。
如果声带不振动,声门完全封闭,⽽声道在某处收缩,迫使⽓流⾼速通过这⼀收缩部位⽽发⾳,由此产⽣的语⾳是(清⾳)。
3、语⾳信号从总体上是⾮平稳信号。
但是,在短时段(10~30)ms中语⾳信号⼜可以认为是平稳的,或缓变的。
书上24页4、语⾳的四要素是⾳长,⾳强,⾳⾼和⾳质,它们可从时域波形上反映出来。
其中⾳长特性:⾳长(长),说话速度必然慢;⾳长(短),说话速度必然快。
⾳强的⼤⼩是由于声源的(震动幅度)⼤⼩来决定。
5、声⾳的响度是⼀个和(振幅)有密切联系的物理量,但并不就是⾳强。
6、⼈类发⾳过程有三类不同的激励⽅式,因⽽能产⽣三类不同的声⾳,即(浊⾳)、(清⾳)和(爆破⾳)。
7、当⽓流通过声门时声带的张⼒刚好使声带发⽣较低频率的张弛振荡,形成准周期性的空⽓脉冲,这些空⽓脉冲激励声道便产⽣浊⾳如果声道中某处⾯积很⼩,⽓流⾼速冲过此处时⽽产⽣湍流,当⽓流速度与横截⾯积之⽐⼤于某个门限时(临界速度)便产⽣摩擦⾳,即(清⾳)。
8、如果声道某处完全闭合建⽴起⽓压,然后突然释放⽽产⽣的声⾳就是(爆破⾳)。
9、在⼤多数语⾳处理⽅案中,基本的假定为语⾳信号特性随时间的变化是(平稳随机)的。
这个假定导出各种(线性时不变)处理⽅法,在这⾥语⾳信号被分隔为⼀些短段再加以处理。
10、⼀个频率为F。
的正弦形信号以Fs速率抽样,正弦波的⼀周内就有(Fs/F0)个抽样。
人工智能语音识别技术的原理与应用案例人工智能(Artificial Intelligence,AI)语音识别技术是近年来快速发展的一项重要技术。
它能够通过分析和理解人类的语音信息,将其转化为可理解和操作的数据,进而实现自然语言和机器之间的交互。
本文将详细介绍人工智能语音识别技术的原理,并结合一些实际应用案例进行解析。
一、人工智能语音识别技术的原理人工智能语音识别技术的原理主要包括信号处理、特征提取、语音识别模型、语义理解和应用。
1. 信号处理:将输入的语音信号进行预处理,包括采样和量化。
采样是指以一定的频率获取声波形成数字信号,而量化则是将连续的模拟信号转化为离散的数字信号。
此外,还需要对语音信号进行降噪和去除回响等处理,以提高信号质量。
2. 特征提取:在信号处理之后,需要将语音信号进行特征提取。
常用的特征包括梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)等。
这些特征能够提取出语音信号中的频率、音高、能量等信息,并对不同语音进行区分。
3. 语音识别模型:在特征提取之后,需要建立语音识别模型。
传统的语音识别模型包括隐马尔可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)。
随着深度学习的发展,神经网络被广泛应用于语音识别中,在语音识别模型中经常使用的包括循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN)等。
4. 语义理解:语义理解是将语音信号转化为可理解和操作的语义信息,包括词义的识别和语义的分析。
这一过程通常涉及到自然语言处理(Natural Language Processing,NLP)的技术,例如词性标注、命名实体识别、依存句法分析等。
5. 应用:将语音识别的结果应用于具体的场景中,例如语音助手、语音输入、智能客服等。
AMR编码格式1. 简介AMR(Adaptive Multi-Rate)是一种用于语音编码和解码的格式。
它是一种有损压缩算法,旨在将语音信号转化为尽可能小的数据量,同时保持较高的音频质量。
AMR编码格式广泛应用于手机通信、语音识别、语音合成等领域。
2. AMR编码原理AMR编码原理基于对人耳听觉特性的研究,通过对语音信号进行预处理、分帧、声道判别、参数提取和压缩等步骤来实现。
2.1 预处理预处理阶段主要包括降噪、回声消除等操作。
这些操作旨在减少背景噪声和混响对语音质量的影响,并提升后续处理的准确性。
2.2 分帧分帧将连续的语音信号分成若干个短时段的帧,通常每帧持续时间为20毫秒。
这样做可以使得后续处理更加精确,并方便对每个时间段内的特征进行提取。
2.3 声道判别声道判别是为了确定使用合适的模型来描述语音信号。
不同的声道条件下,语音信号的特征参数具有差异,因此需要根据实际情况进行判别。
2.4 参数提取参数提取是AMR编码的关键步骤之一。
它通过对每帧语音信号进行分析,提取出一系列特征参数,如基频、线性预测编码系数等。
2.5 压缩压缩阶段将参数进行进一步处理和压缩,以减少数据量。
AMR采用了多种压缩算法,如矢量量化、编码器预测等。
这些算法可以在保持较高音质的同时,有效地降低数据存储和传输所需的带宽。
3. AMR编码格式AMR编码格式是一种二进制格式,用于存储经过压缩的语音数据。
它由多个帧组成,并包含了每个帧的相关参数信息。
3.1 帧结构AMR编码格式中的每个帧由多个子帧组成。
每个子帧包含了一个固定长度的字节序列,表示该子帧的语音数据。
3.2 参数信息除了语音数据外,AMR编码格式还包含了每个子帧所使用的声道模型、采样率、帧类型等参数信息。
这些参数信息可以帮助解码器正确地进行解码操作。
3.3 帧类型AMR编码格式定义了多种帧类型,用于表示不同的语音信号特性。
常见的帧类型包括语音帧、静音帧、SID(Silence Insertion Descriptor)帧等。
《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。
在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。
随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。
到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。
近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。
1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。
(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。
(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。
1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。
声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。
听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。
1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。
语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。
这些模型为语音信号处理提供了理论基础和工具。
第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
1语言辨识的基本概念自动语言辨识(又称语种识别),是计算机分析处理一个语音片段以判别其所属语种的技术。
随着当前全球合作的增长,各种余元之间的通信要求增加,这就对自动语言识别提出新的挑战,在机械能够懂得语言含义之前,必须辨别使用了哪种语言。
自动语言辨识的任务在于快速准确的辨识出所使用的语言,目前它已经成为通信和信息领域一个新的学科增长点。
自动语言辨识技术的学术特点在于它横跨技术的融合。
对它的研究,不仅需要掌握信息理论和技术,而且需要具有多种信息处理的手段和方法。
众所周知,语音中包含着多种信息,从语音中提取不同的信息进行处理也就形成了不同语言处理方法。
从内容上分,语音中包含着所属语言种类的信息、说话内容的语义信息和说话人个体特征,因此从识别的角度来说,我们可以利用从语音中提取的这些信息进行识别,语音信息的识别可以分为语音识别、语言辨识和说话人识别。
语音识别中要提取出包含在语音信号中的字词意思和言语内容,说话人识别则是从语音信号中获取说话人的身份,语言辨识是从语音信号中提取出包含的语言的种类(或方言的种类)。
与语音识别和说话人识别不同的是,语言辨识利用的是语音信号中的语言学信息,而不考虑语音信号中的字词意思,不考虑说话人的个性。
语种识别在信息检索和军事领域都有很重要的应用,包括自动转换服务多语言信息补偿等。
在信息服务方面, 很多信息查询中可提供多语言服务, 但一开始必须用多种语言提示用户选择用户语言。
语种辨识系统必须预先区分用户的语言种类, 以提供不同语言种类的服务。
这类典型服务的例子包括旅游信息、应急服务、以及购物和银行、股票交易。
例如 AT&T 向处理 911 紧急呼救的社会机构和警察局推出语言热线服务。
图 1 说明了两个讲不同语言的人是如何通过一个多语言话音系统进行交流。
自动语言辨识技术还能够用于多语言机器翻译系统的前端处理, 当对大量录音资料进行翻译分配时, 需要预先判定每一段语音的语言。
浅谈说话人识别技术及应用分析引言:随着科学技术的快速发展,生物特征识别技术得到了越来越多的研究和应用,说话人识别是语音识别的一种。
它主要分为说话人辨认和说话人确认两个方面:前者是判断待识别语音是多个参考说话人中哪一个人所说,用于辨认说话者的身份,是一个多元判决问题;后者是说话人先声明身份(如输入用户号) ,然后由系统判定待识别语音是否与其参考声音相符,用于对特定人进行身份验证,是一个二元判决问题。
说话人识别技术的发展始于60 年代,随着信息社会化发展,说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算机的重要组成部分,其应用领域不断扩大:在司法领域中,可以帮助对嫌疑人的查证;在保安领域中,可以用于机密场所的进入控制、合法使用通信线路、机要设备的身份核查及电子银行转帐业务的安全检查等;在医学领域,如使识别系统仅响应患者的命令,则可实现对假肢的控制;在玩具、家用电器等领域也有广泛的应用前景。
针对以上领域中的许多商用系统已经投入使用。
关键字:生物特征识别、系统判定、控制、应用前景一、说话人识别技术基础随着全球信息化的快速发展,电子商务等信息技术得到了广泛的应用,人们发现,传统的使用密码来认证用户的方法变的越来越脆弱。
在这种背景下,解决用户高安全性和长效稳定性的生物认证技术逐渐得到人们的青睐。
在众多的生物认证技术中,说话人识别技术以其信号采集简单、系统设备成本低等优点得到了快速发展,展现了广阔的应用前景。
说话人识别技术包括说话人辨认技术和说话人确认技术,他们在本质上是一致的,唯一不同的是说话人辨认技术是从多个说话人语音中辨认出某个人的那一段语音信息,而说话人确认技术是确定某段语音信息是不是某人所说。
两者是一对多和一对一的关系。
每个人的发音因为受到声道和发音特点等影响,总是存在一些代表自己特征的元素,说话人识别技术就是通过采集、提取这些表征说话人固有特征的参数来达到识别的目的。
语音识别技术的应用有着非常多的优点,同时目前的研究也存在一些还没有突破的难点,但我相信,不久的将来,说话人识别技术一定会在我国的信息安全方面起到无以替换的重要作用。
自适应矢量量化在语音识别中的应用张恒河北工业大学信息工程学院通信与信息系统学号:201020195009 摘要:介绍了用离散隐马尔可夫模型( DHMM)构造孤立词语音识别系统中的特征向量矢量量化的码书构造过程。
以往的矢量量化通常采用基本算法LBG, 在此基础上, 引入了一种时间复杂性和空间复杂性有所降低的改进算法。
该算法的核心是自适应地生成初始码书以及对初始码书的二次构造过程。
从降低时间复杂度和节省存储空间,提高识别率的角度, 对该算法进行了讨论。
关键词:语音识别;矢量量化;LBG;自适应码书1 引言现代语音识别中最常用的识别方法是Baum 等人提出的隐马尔可夫模型(HMM)。
HMM 是数学上一类重要的双重随机模型, 用概率统计的方法描述时变语音信号,很好地描述了语音信号的整体非平稳性和局部平稳性。
HMM 的各状态对应语音信号的各平稳段, 各状态之间以一定转移概率相联系,是一种较为理想的语音模型。
在孤立词语音识别过程中, 通常采用离散隐马尔可夫模型(DHMM) , 取得了比较好的实用效果[1][2]。
在构造离散隐马尔可夫模型(DHMM) 过程中, 对提取的MFCC特征参数矢量量化的码书构造是其中的一个主要部分, 码书的选择会影响时间和空间的复杂度以及整个系统的识别率。
目前为止, 矢量量化的方法很多, 其中最典型的是1980年, Linde, Buzo 和Gray提出的LBG算法[3]。
他可根据给定的训练序列, 经多次递归运算, 求出满足要求的码书和输入矢量的划分。
LBG 算法的突出优点是压缩比大且解码算法简单, 已被广泛应用于语音识别或图像编码等领域。
2 LBG算法LBG算法是一种有效和直观的矢量量化码书设计算法, 其具体算法描述如下[4]: 训练矢量集为011{,,},MX x x x M-=为训练适量的个数。
(1)给定出师码书:()()()()0000011{,,}NC y y y-= ,令迭代次数k=0.平均失真()1D-→∞,给定相对误差门限(01)εε<<。
(2)用码书()nC中的各码字作为质心,根据最佳划分原则把训练矢量集X划分为N个细胞腔()()()()0000011{,,,}NS S S S-= ,()niS满足:()(){|(,)}n ni iS v d v y=()01min(,),{}njj Nd v y v X≤≤-=∈(1)其中01i N≤≤-。
(3)计算平均失真()1()011min(,)Mn ni jj NiD d x yM-≤≤-==∑(2)判断相对误差是否满足(1)()()|/|n n n D D D ε--≤ (3)若满足,则停止算法,码书()n C 就是所的码书,否则就转步骤(4)。
(4)根据最佳码书条件,计算各细胞腔的质心,即:()(1)()1||n i n in v s i yV s +∈=∑ (4) 由这n 个新质心(1)n i y +,i=0,1,…,N-1 形成新码书,置n=n+1,转步骤(2)。
LBG 算法有3个主要缺点:(1) 码书的自适应性不强,不能根据训练矢量集数据的随机分布自适应地取得初始码书;(2) 在每次迭代的最佳划分阶段,从码书中搜索训练矢量的最近码字需要大量的存储空间和繁琐的计算;(3) 初始码书的选择影响码书训练的收敛速度和最终码书的性能。
传统的初始码书生成方法或者采用随机生成或者采用分裂法[5]。
3 自适应二阶码书设计算法在这部分中,阐述了一种自适应二阶码书(AutomatorSecond Book,ASB) 生成算法, 他提高了码书的自适应性能,且设计的时间和占用的存储空间与 LBG 算法相比均有所降低。
3.1 自适应码书生成 传统的矢量量化方法LBG 的一个缺点是自适应性不强,ASB 算法自适应的生成一阶码书,提高了码书的自适应性。
利用每一语音样本MFCC 特征参数iX 的2L 范数2|||Ti i i X X X =,求出每一语音样本MFCC 特征参数的范数,即i X 的欧几里德内积。
所有MFCC 参数中最小的欧氏距离min d ,最大的欧氏距离max d 。
N 个码字的平均欧氏距离:avg (max min )/1d d d N =-- (5)在N 个等分的同心圆环区域,可以理解为N 个同心圆内 (如图1所示),自适应的划分任一图像子块落在哪一个区域内[6]。
2()((||||min )/)1d i i B X fix X d avgd =-+(6)通过式(6)自适应地把距离相近的MFC 参数块确定在一个区域范围内,用每一区域内所有子块的平均值作为码字,得到高性能的有代表性的码字。
3.2 二阶码书的生成 通过式(5)和式( 6)自适应地生成具有 N 个码字的一阶码书。
为了获得更好的压缩比, 节省更多的存储空间考虑对一阶码书进行二次压缩。
其中二阶码书的码字个数为M(M <N)。
经过实验分析, 也取得了理想的效果。
以一阶码书作为初始向量集, 进行如下操作:选定初始向量集中一向量X,每一向量iY 与其的余弦夹角, 其中i Y N 为i Y 的单位化:()cos()*180/iTi Y A Y a XN π= (7) 所有向量中最小的余弦夹角min a, 最大的余弦夹角max a 。
M 个码字的平均夹角:avg (max min )/1a d d M =-- (8) 在M 个等分的角度空间内,自适应的划分任一向量落在哪一个区域内如图2所示。
()((()min )/)1a i i B X fix A Y a avga =-+(9)3.3 算法步骤 (1) 设训练矢量集为11{,,}M X x x x = ,通过欧几里德内积求出每一MFCC 特征参数i x 的二范数并对其标 准化。
(2)将二范数的最大值与最小值的N 等份,求出每一等份的等均值,N 为码字的个数。
(3) 利用上步所求等均值计算出落在第 I ( I = 1, 2,…, N)个码字邻域内的MFCC 特征参数值以及MFCC 特征参数的个数, 将其 MFCC 特征参数值的和/ MFCC 特征参数的个数得到一均值,作为新的码字,并记录各码字与各MFCC 特征参数之间的对应关系。
如果落在某一码字的子块个数为0,则删掉该码字,并把拥有子块个数最多的码字分裂成两个码字。
从而生成一阶码书()()()()1111011{,,}N Cy y y -= 。
()()()()1111011{,,}N C y y y -= 作为为初始向量集,以其中某一向量为x 轴, 求出其他向量与他的夹角,将最大夹角与最小夹角的差M 等份,求出每一等份的等均值,M 为二阶码书码字的个数。
(5) 利用上步所求等均值计算出落在第j(j=1,2,…,M)个码字邻域内的向量值以及向量的个数,将其向量值的和/向量的个数得到一均值,作为新的码字,并记录各码字与各向量之间的对应关系。
如果落在某一码字的子块个数为0,则删掉该码字, 并把拥有向量个数最多的码字分裂成两个码字。
从而生成二阶码书(2)(2)(2)(2)011{,,,}M C y y y -= 。
4 仿真实验为了验证自适应二阶码书设计算法的有效性,实验采用1350个语音样本为例,训练矢量设为一个MFCC 特征参数的向量。
设一阶码书中码字的个数设为N ,二阶码书 中码字的个数设为N/ 2。
4.1 语音库 采用表示方向的10个词, 共16个人参与录音,前5个人每人每词录5遍,后 11个人每人每词录10遍。
录音者分别来自黑龙江、河南、山东、湖北、河北、安徽、江苏、 新疆、陕西、福建。
语音采样率为8K ,每帧 256个采样点,帧,移50%。
4.2 实验数据 实验数据如表1所示。
5 结束语通过实验数据可以看出此算法由于提高了自适应性,去掉了比较的过程,因此降低了时间复杂度,减少了存储空间。
此算法降低了计算的复杂性, 在码字较大时尤为明显。
设码书大小为N ,矢量维数为k, num 为样本总数,则LBG 算法中,原始码书(0)C的计算时间为2log N ,一子块的量化时间复杂度为{+LBC t kN =次乘法(1)k N -2次加法 +(1)}/N -次比较输入子块,而ASB 算法的时间复杂度为{(1)+LBC t k N =+次乘法(1)}/k N +次加法输入子块,因其自适应性,减少了原始码书(0)C的计算和(N-1)次比较过程,时间复杂性上有所降低。
LBG 和 ASB 算,法的空间复杂度为()O k N ⨯,但随着N 的降低, ASB 算法的存储空间减少。
LBG 算法中码书的自适应性不强, 在ASB 算法中根据输入矢量自适应的确定其所在的最近的 搜索码字的范围的位置。
在生成了一阶码书后, 在保证精度的前提下, 以自适应的一阶码书的为训练矢量,设计了二阶码书,达到了二次自适应的效果,且效果理想。
综上所述,将自适应矢量量化算法用于DHMM 语音识别中,减少了设计时间,提高了识别率,将有一定的扩展空间。
)参考文献:[1]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.[2]Linde Y, Buzo A, Gray R M. An Algorithm fot Vector Quantizer Design[J].IEEE Transactions onCommunicartions,1980,28(1):80-85. [3]David Salomon.数据压缩原理与应用[M].2版.吴乐南,译.北京:电子工业出版社,2003.[4]陆哲明.矢量量化编码算法及应用研究[D].哈尔滨:哈尔滨工业大学,2001. [5]Gray M.Vector Quantization.IEEE ASSP Magazine,1984,1(2):4-29.[6]Gersho A, Gray R M .Vector Quantization and Signal Conrpression[M]. Kluwer Academic Publishers,1992.。