语音识别的非线性方法
- 格式:pdf
- 大小:315.63 KB
- 文档页数:7
基于深度学习的语音识别技术研究随着人工智能技术的发展,语音识别技术也日渐成熟。
从最初的基于模板匹配的语音识别到后来的基于统计学习的语音识别,再到今天的基于深度学习的语音识别,语音识别技术已经不再是未来科技,而是已经进入了我们的日常生活。
一、基于深度学习的语音识别技术深度学习技术是人工智能领域的热门技术之一,因其在图像识别、语音识别、自然语言处理等领域的卓越表现而备受关注。
深度学习算法通过模拟人脑的神经元网络实现对输入数据的多层抽象表示和处理。
而在语音识别任务中,深度学习算法可以通过对音频信号的建模和自适应模型训练来有效降低语音识别的误识别率。
目前基于深度学习的语音识别技术主要包括深度神经网络(Deep Neural Networks, DNNs)、卷积神经网络(Convolutional Neural Networks, CNNs)、长短时记忆网络(Long Short-Term Memory, LSTM)等多种模型。
其中,DNNs是基于前馈神经网络实现的语音识别模型,通过多个隐层抽象输入特征,将输入的音频信号映射到语音单元上,通过输出层的激活函数可以得到对音频信号的识别结果。
CNNs则是通过卷积层和池化层实现特征的提取和降维,然后再使用全连接层实现的识别。
而LSTM则是基于循环神经网络实现的模型,对于长序列信号的记忆、建模和识别效果尤为出色。
二、深度学习技术的优点相对于传统语音识别算法,深度学习技术具有以下优点:1. 非线性特征提取: 传统语音信号的特征提取通常采用Mel频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs)等算法,而深度学习技术可以通过多层的非线性变换实现更为复杂的特征提取。
2. 优秀的分类性能: 深度学习算法可以通过大规模数据训练和模型自适应调整,从而获得优秀的分类性能,尤其对于噪声干扰、口音变化等情况的适应能力更强。
3. 高效的训练方法: 深度学习算法可以使用反向传播算法实现模型训练,而且可以结合GPU等并行计算技术加速训练完成。
如何解决机器学习中的非线性问题机器学习中的非线性问题是指无法用线性模型准确拟合的数据模式。
在机器学习中,线性模型通常只能处理线性关系较强的数据。
然而,在现实世界中,许多问题都具有非线性特征,例如复杂的图像识别、语音识别、自然语言处理等。
为了解决这些非线性问题,以下是几种常见的方法:1. 使用多项式特征:将输入特征的高次方作为新的特征,以此来增强模型对非线性关系的拟合能力。
例如,对于二维数据(x,y),可以添加新的特征 x^2,y^2,x*y等。
通过引入这些高次特征,线性模型可以更好地拟合非线性的关系。
2. 核方法:通过将数据映射到高维特征空间,使用线性模型在该空间中学习。
核方法可以很好地处理非线性关系,并且能够处理高维特征空间中的问题。
其中最常见的核方法是支持向量机(SVM)。
SVM通过引入核函数,将样本映射到高维特征空间中,然后在该空间中使用线性模型进行分类或回归。
3. 集成学习方法:集成学习通过结合多个基本模型的预测结果来提高整体模型的性能。
在解决非线性问题时,可以使用集成学习方法,例如随机森林和梯度提升树。
这些方法能够处理非线性关系,并能够自动发现特征之间的交互作用。
4. 深度学习方法:深度学习通过多层神经网络模拟人脑的工作原理,能够有效地解决非线性问题。
深度学习模型可以自动学习非线性特征和模式,并且在大规模数据集上表现出色。
例如,卷积神经网络(CNN)在图像识别领域取得了巨大成功,长短期记忆网络(LSTM)在自然语言处理领域有很好的应用。
5. 数据增强:对于非线性问题,数据的质量和多样性至关重要。
数据增强是一种通过对训练数据进行变换和扰动来增加数据多样性的技术。
例如,在图像分类任务中,可以对图像进行旋转、缩放、翻转等操作,以增加训练数据的多样性,从而提高模型在非线性问题上的泛化能力。
6. 特征工程:在机器学习中,特征工程是非常重要的步骤。
通过对原始数据进行特征提取和转换,可以将非线性问题转化为线性可分或更容易处理的问题。
声学信号处理中的非线性技术研究在我们生活的世界中,声音无处不在。
从鸟儿的鸣叫到汽车的轰鸣,从音乐的旋律到人们的交谈,声学信号承载着丰富的信息。
为了更好地理解、分析和处理这些声音信号,声学信号处理技术应运而生。
在这一领域中,非线性技术正逐渐成为研究的热点,为解决一系列复杂的声学问题提供了新的思路和方法。
声学信号本质上是一种波动现象,它可以用数学表达式来描述。
在传统的声学信号处理中,通常基于线性系统的假设,即输入和输出之间存在简单的比例关系。
然而,在实际情况中,声学系统往往表现出非线性的特性。
例如,扬声器在高音量时可能会出现失真,麦克风在接收强信号时可能产生非线性响应,还有诸如声学环境中的反射、散射等现象也可能导致非线性效应。
非线性声学信号处理技术的出现,正是为了应对这些实际中的非线性问题。
其中一个重要的方面是混沌理论的应用。
混沌是一种看似随机但实际上具有内在规律的非线性现象。
在声学信号中,混沌现象可能隐藏着丰富的信息。
通过对声学信号中的混沌特征进行分析,我们可以更好地理解声音产生和传播的机制。
另一个关键的非线性技术是分形理论。
分形是指具有自相似性的几何结构,在声学信号的频谱分析中,分形特征能够揭示信号的复杂程度和不规则性。
比如,在研究自然声音如风声、雨声时,分形分析可以帮助我们发现其中隐藏的模式和规律。
在声学信号处理中,非线性滤波技术也具有重要的地位。
与传统的线性滤波不同,非线性滤波能够更好地适应信号的非线性特征,从而更有效地去除噪声和提取有用信息。
例如,中值滤波、形态学滤波等非线性滤波方法在处理声学图像和音频信号时表现出了良好的性能。
此外,神经网络在非线性声学信号处理中也发挥了重要作用。
神经网络具有强大的非线性拟合能力,可以自动学习声学信号的特征和模式。
通过训练神经网络,我们能够实现对声学信号的分类、识别和预测。
在实际应用中,非线性声学信号处理技术在多个领域展现出了巨大的潜力。
在语音识别领域,非线性技术可以提高对复杂语音环境的适应性,提升识别准确率。
基于深度学习的语音识别技术研究近年来,深度学习技术在人工智能领域取得了巨大突破,其中之一就是语音识别技术。
深度学习模型在语音识别中的应用,使得机器能够更加准确地理解和转录语音内容。
本文将对基于深度学习的语音识别技术进行研究和探讨。
一、深度学习在语音识别中的应用深度学习是一种模仿人脑神经网络的技术,通过构建多层次的神经网络进行训练和学习。
在语音识别中,深度学习模型通过大规模数据的训练,能够自动地提取和学习语音信号的特征。
1.1 语音信号的特征提取语音信号是一种连续的、非线性的信号,传统的语音识别算法主要使用梅尔频率倒谱系数(MFCC)作为语音信号的特征。
而深度学习模型则采用了更加先进的特征提取方法,比如倒谱系数梅尔频率倒谱系数(MFCC)、滤波器组频率倒谱系数(GFCC)等。
1.2 深度神经网络的训练深度学习模型中最重要的一部分就是深度神经网络。
深度神经网络中的每一层都包含很多个神经元,通过调整神经元之间的连接权重,使得网络能够根据输入信号自动调整输出结果。
二、基于深度学习的语音识别技术挑战虽然深度学习在语音识别中取得了很大的成功,但仍然面临一些挑战。
2.1 数据量和质量深度学习模型对大规模的训练数据的依赖性很强,因此需要收集大量的语音数据,并对数据进行有效的预处理和清洗。
数据的质量对模型的训练和识别结果产生重要影响。
2.2 噪声和多变性现实生活中的语音信号往往伴随着各种噪声,比如背景噪声、房间回声等。
同时,由于不同说话人的发音方式存在差异,同一个单词也会有不同的发音变体。
这些噪声和多变性对语音识别的准确性提出了挑战。
三、基于深度学习的语音识别技术的未来发展基于深度学习的语音识别技术具有广阔的应用前景。
3.1 自然语言处理深度学习模型在语音识别的基础上,可以进一步实现自然语言处理,将语音转换为文本。
这对于语音助手、语音翻译等应用领域具有重要意义。
3.2 个性化服务基于深度学习的语音识别技术可以根据个人的语音特征进行个性化的服务,比如智能客服、智能家居等。
语音识别技术中的特征提取随着人工智能的快速发展,语音识别技术在日常生活中的应用越来越广泛。
而语音识别的核心技术之一就是特征提取,它是将语音信号转化为计算机可以处理的数字特征的过程。
本文将重点讨论语音识别技术中的特征提取方法和其在实际应用中的作用。
一、语音信号的特点语音信号是一种时域信号,具有周期性、频率变化和非线性等特点。
在进行特征提取之前,我们需要先了解语音信号的基本特征。
1. 声音的频率特性:声音由多个频率的振动组成,我们可以通过频谱图来表示声音的频率特性。
频谱图可以将声音在不同频率上的振幅进行可视化,帮助我们分析声音的频率分布。
2. 语音的时域特性:声音的时域特性是指声音在时间上的变化规律。
声音通常由多个声音信号叠加而成,每个声音信号都有自己的幅度和相位。
通过分析声音信号的时域特性,我们可以了解声音的时长、音量和音调等信息。
二、特征提取方法在语音识别中,我们需要将语音信号转化为计算机可以处理的数字特征,以便进行后续的模式识别和分类。
常用的语音特征提取方法有以下几种:1. 基于时域的特征提取方法:时域特征提取方法主要是通过对语音信号进行时域分析,从中提取出与语音识别相关的特征。
常用的时域特征包括:短时能量、过零率、自相关函数等。
这些特征可以反映语音信号的时长、音量和声音的周期性等特性。
2. 基于频域的特征提取方法:频域特征提取方法主要是通过对语音信号进行频域分析,从中提取出与语音识别相关的特征。
常用的频域特征包括:功率谱密度、倒谱系数、线性预测系数等。
这些特征可以反映语音信号的频率分布和共振峰等特性。
3. 基于声学模型的特征提取方法:声学模型是一种建立语音信号与语音特征之间映射关系的数学模型。
通过对语音信号进行声学建模,我们可以得到与语音识别相关的特征。
常用的声学模型包括:高斯混合模型(GMM)、隐马尔可夫模型(HMM)等。
这些模型可以帮助我们理解语音信号的生成过程,并提取出与语音识别相关的特征。
语音识别技术的研究摘要:随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,其技术的应用正在日益改变着人类的生产和生活方式。
本文介绍了语音识别的基本原理、方法,综述了语音识别系统的分类及语音识别系统模型,并分析了语音识别所面临的问题。
关键字:语音识别,应用,语音识别原理,语音识别系统语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
语音识别技术正逐步成为计算机信息处理技术中的关键技术.语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
其应用领域非常广泛,常见的应用系统有:语音输入系统,语音控制系统,智能对话查询系统等。
1 语音识别基础1.1语音识别技术原理语音识别系统本质上是一种模式识别系统。
包括特征提取、模式匹配、参考模式库等三个基本单元.它的基本结构如图所示:未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理.再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。
而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。
然后根据此模板的定义,通过查表就可以给出计算机的识别结果。
显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
预处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。
最常用的预处理有端点检测和语音增强。
端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。
语音识别的特征提取方法语音识别是指通过机器学习和信号处理技术将语音信号转换为文本或命令的过程。
在语音识别中,特征提取是至关重要的一步,它涉及到如何从原始语音信号中提取出表征语音的有用信息。
下面将介绍几种常用的语音识别特征提取方法。
1. 短时能量和过零率 (Short-Time Energy and Zero-Crossing Rate, STE/ZCR)短时能量表示语音每个小时间段内的能量大小,而过零率表示语音信号波形在每个小时间段内穿过零的次数。
短时能量和过零率可以提供一些声音的基本特征,如音强和频率信息。
2. 梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients, MFCC)MFCC是一种广泛应用于语音识别的特征提取方法。
它采用一系列滤波器组对语音信号进行滤波,然后对每个滤波器输出结果进行离散余弦变换(DCT)得到系数。
MFCC特征具有良好的频率刻画能力,对音高和语音内容变化不敏感,且能有效地降低特征维度。
3. 线性预测编码系数 (Linear Predictive Coding, LPC)LPC是一种将语音信号建模为线性滤波器的方法,通过提取滤波器的参数来表示语音的特征。
LPC特征可以用于语音识别和说话人识别等任务,它能较好地刻画语音信号的时域特性。
4. 倒谱系数 (Cepstral Coefficients)倒谱系数是一种将功率谱转换到倒谱域的方法,它可以用来提取语音信号的频谱特征。
倒谱系数主要包括梅尔倒谱系数和线性倒谱系数,可以在一定程度上表征语音信号的谐波结构。
5. 高阶统计特征 (Higher-Order Statistics, HOS)高阶统计特征包括自相关函数、偏自相关函数和互相关函数等,它们可以描述语音信号的非线性特性,较好地刻画了语音信号的时域结构。
6. 短时傅里叶变换 (Short-Time Fourier Transform, STFT)STFT是一种将语音信号从时域转换到频域的方法。
语音识别的自回归和非自回归
语音识别是指通过计算机对语音信号进行分析和识别,以将语
音转换为文字或命令。
在语音识别中,自回归和非自回归是两种常
见的建模方法。
首先,让我们来谈谈自回归模型。
自回归模型是一种利用先前
时间步的输出来预测当前时间步的输出的模型。
在语音识别中,自
回归模型通常用于建模语音信号的特征,例如音频中的频谱包络或
梅尔频率倒谱系数(MFCC)。
通过将语音信号分解为一系列时间步
的特征向量,并利用这些特征向量之间的关系,自回归模型可以帮
助识别出语音中的语音单元(如音素)或词语。
另一方面,非自回归模型则是一种不依赖于先前时间步输出的
模型。
在语音识别中,非自回归模型通常用于端到端的语音识别系统,这种系统直接将语音信号映射到文本,而不需要中间的音素或
词语级别的建模。
非自回归模型可以是基于深度学习的端到端模型,如CTC(Connectionist Temporal Classification)或
Transformer模型。
这些模型能够直接从语音信号中学习到语音和
文本之间的映射关系,而无需显式地建模语音特征之间的关系。
从应用角度来看,自回归模型在传统的基于HMM(Hidden Markov Model)的语音识别系统中得到了广泛应用,而非自回归模型则代表了最新的端到端语音识别技术的发展方向。
综上所述,自回归和非自回归在语音识别中代表了两种不同的建模方法,它们各自有着不同的优势和应用场景。
在实际应用中,选择合适的模型取决于具体的语音识别任务和需求。
52国家自然科学基金资助项目.收文日期:1997年6月12日(June 12,1997)ΞV ol.3N o.1M arch 1998电路与系统学报JOURNAL OF CIRCUIT S AND S Y S TEMS 第3卷第1期1998年3月Ξ语音识别的非线性方法董远胡光锐(上海交通大学电子工程系,上海,200030)【摘要】语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。
近年来人们开始逐渐重视非线性理论在语音识别技术中的应用。
本文概括地介绍了非线性理论在语音识别技术中的所取得的成果和发展方向,除了涉及较为流行的隐马尔柯夫过程和人工神经网络在语音识别中的应用外,文中着重论述了近年来发展迅猛的混沌、分形理论在语音识别中的应用,本文最后还提到了不可忽视的分形理论在语音编码中的应用。
【关键词】语音识别,隐马尔柯夫过程,人工神经网络,混沌,分形,迭代函数系统,语音编码Non 2linear Methods for S p eech Reco g nitionD on g Y uan Hu G uan g rui(De p t.of E lectronic En g ineerin g ,Shan g hai Jiaoton g Universit y ,Shan g hai ,200030)Abstract :S p eech si g nal is traditionall y treated as a linear p rocess.H ow ever ,it is indicated b y extensive research that the s p eech si g nals are actuall y com p licated non 2linear p rocesses.T o im p rove the reco g nition rate ,recent research ef 2fort has started to m i g rate to anal y ze s p eech si g nal usin g non 2linear theor y .T his article summ arizes the new develo p m ent in this area.Besides HM M and ANN ,which have been w idel y used b y m an y authors ,this p a p er introduces in p articular a series of fast g row in g non 2linear such as chaotic and fractal theories and their a pp lications in s p eech reco g nition and codin g .K e y w ords :s p eech reco g nition ,HM M ,ANN ,chaos ,fractal ,IFS ,s p eech codin g引言语音识别技术自本世纪五十年代起步发展至今已四十多年,取得了很大的进步,语音识别的研究愈来愈受到人们的重视。
语音信号处理分别基于确定性线性系统理论和不确定性非线性系统理论。
80年代的子词单元、多级识别、多模板和聚类技术、连续语音匹配技术等语音识别方法都是基于线性系统理论。
经研究表明,语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。
近年来发展起来并逐渐完善的非线性科学为语音识别技术的发展带来了新的生机。
1语音识别与隐马尔柯夫过程(HM M )在传统的线性理论难以使得语音识别技术进一步提高时,随着对隐马尔柯夫模型(HM M )的重新认识和广泛应用,掀起了语音识别研究的一个热潮[1]。
语音信号是短时平衡的随机信号,在足够小时音段上语音信号的特性近似稳定,就整个语音序列而言,它可以看成是依次从相对稳定的某一状态过渡到另一状态。
尽管如此,语音信号序列用一个按预定顺序排列的状态转移过程来描述是不够充分的,因为不同发音人、不同的发音环境、不同的发音时间发53董远等:语音识别的非线性方法相同音时,其各状态的持续时间、状态的转移过程各不相同。
HM M是一种随机过程,它用概率统计的方法来描述语音信号的变化过程[2][3]。
从语音信号产生模型看,语音信号是由激励源激励声道而产生的。
人的声道特性可划分为有限个特性平稳的部分或状态,相应地语音信号可以看成由这些平稳状态产生的短时信号的时域级连,而每个状态对语音信号的作用取决于该处的声道物理参数或语音概率分布。
如果将声道特性的变化用HM M的状态转移概率来描述,某一声道特性产生短时语音信号观察值的概率分布用HM M状态的生成概率表征,则HM M模型就能有效地用于描述时变语音信号[4]。
由于HM M能够描述语音信号的强时变特性及其对语音信号有很强的时间规整能力,并能集中表述各种语音特征,因而非常适合于采用子词单元的大词汇量的连续语音识别系统[5][6]。
但HM M模型也有其不足:没有有效地利用相邻语音之间的相关性:对模型作了很多不符合语音实际情况的规定,使HM M不能真实地对语音信号的持续时间进行建模;概率密度函数为高斯分布的假设与实际情况不符,解决的方法是用ANN来逼近实际的概率分布。
2人工神经网络在语音识别中的应用到了八十年代末期,人工神经网络技术的研究兴起,人工神经网络由于具有较强的自组织学习能力和区分模式边界的能力,特别适合于语音识别中的分类问题[7]。
传统的语音识别方法有矢量量化、模板匹配等,它们是用逻辑推理和数学运算对语音进行规整、分类与识别。
但人的听觉建立在感觉细胞相互作用的基础上,只有根据人的生理特征,模仿神经细胞的功能,才能克服传统方法的不足,于是就出现了人工神经网络方法[8]。
特别是人工神经网络与其它一些传统的语音识别方法相结合派生出来的混合型神经网络语音识别系统有广阔的发展前景。
人工神经网络本质上是一种更为接近人的认识过程的计算模型,它模仿生物神经系统中大量简单处理单元—神经元的并行处理。
它具有并行分布处理、容错性、自组织和自学习能力等一系列优越性,将人工神经网络用于语音识别主要利用了它的分类、聚类能力和非线性变换能力。
通常人工神经网络是针对静态模式而设计的,语音信号是一个时变信号,而且它的时变特性也是语音理解的一个重要特征,所以将人工神经网络用于语音识别时需要对其作一些必要的修正,使它具备反映输入语音信号时变特性的能力[9][10][11]。
另外,人工神经网络还要有足够的容量用于记忆各类语音模式和提供足够的容错能力,能自学习以适应不同的发音人[12]。
3HM M/ANN混合型语音识别针对HM M模型用于语音识别的不足,人们结合人工神经网络模型解决了这一问题。
人工神经网络具有对输入信号进行非线性变换的能力,只要网络有足够的规模,它的输出可以实时逼近任何一种函数[13]。
因此可以用人工神经网络来计算HM M的模型参数[14]。
人工神经网络与HM M一起构成混合型语音识别系统是一种极有前途的语音识别方法。
HM M/ANN混合型语音识别系统具有以下优点:HM M的模型参数由ANN求得,不必象标准HM M模型那样对信号作很多不切实际的假定;ANN求出的模型参数是与实际输入信号有关的,它包括了语音信号的时变特征;用ANN计算语音的模型参数,可以选用合适的最佳准则,使它所求得的模型参数与本类语音建立最佳匹配关系,同时与非本类语音距离最大;可以进行自学习,用于非特定人语音识别。
4语音识别与混沌54近年来,非线性理论得到了进一步的发展,产生了诸如混沌、分形等理论分支。
混沌、分形理论近来越来越受到重视,同样混沌、分形理论在语音识别中也得到应用。
空气动力学表明语音信号的产生即非一个确定性过程,地非纯随机过程,而一个复杂的非线性过程[15]。
语音是由混沌的自然音素组成的,其中存在着混沌机制。
语音信号会在声道边界层产生涡流,并最终形成湍流,而湍流本身已经证明就是一种混沌。
并且辅音信号的混沌程度大于元音信号的混沌程度,因为发辅音信号的送气强度及其声道壁的摩擦程度顽抗比元音信号要强。
这一结果使人们将混沌理论引入语音信号分析[16][17]。
将混沌引入语音处理目前主要有两种方向。
一种方向是引入混沌神经网络的方法[18][19],这是因为人们通过对生物脑细胞的观察发现某些生物脑细胞工作于混沌状态,正是以这一观察结果为依据才提出了混沌神经网络这一模型用于语音识别。
混沌神经网络是由混沌神经元以一定的拓扑结构相互连接而成的。
将混沌神经元引入常规神经网络可以改进网络性能,使它更好地模仿人的感觉特性。
另一种方向是将分形理论引入语音处理。
分形是描述混沌信号的一种手段[20],这是因为人们在试图了解确定混沌状态下的涡流特性时,发现混沌动力学系统可以被建模成分形吸引子。
在某种程度上,涡流的一些几何特征是分形,包括涡流点的形成、一些类型涡流的边界、涡流种粒子的路径路线。
现已证明语音气流的一些机制可以被视为混沌,所以语音信号中的各种程度的涡流结构特征可以通过分形建模作为数学和计算工具来对语音进行定量分析。
5分形在语音识别中的应用近来将形理论用于改善语音识别技术越来越受到重视,主要的原因是语音是一种混沌的自然现象,而分形可以有效地为自然现象中的混沌建模,那么分形应该是一个为语音建模的理想方法。
分形的度量是分形维数,分形从测度的角度将维数从整数扩大到分数,突破了一般拓扑集维数为整数界限。
分形中维数一般为分数。
分形维数是经典欧几里德几何维数的拓广[21]。
在各种分形特征中,语音信号的分形维数是一种主要的选择参数,因为它能定量表示语音波形的混乱程度。
语音波形可以被视为二维开曲线,它的轮廓具有分形特性,在一定的限制条件下,不同的音素的波形具有不同的不规则性,分形维数即是代表不同音素波形不规则性的测度。
人们发现短时语音的分形维数在语音分割和声音分类中是非常有用的特征参数。
分形维数可以作为语音分割的一种手段[22]。
在这种算法中,我们将沿着语音波形(s p eechw ave[K],k =0,1,2,3…)用一个规则大小的窗(大小为w indowsize )进行分割,对每个窗内的语音波形求分形维数。
窗的大小选择要适当,太小将不能完全地考虑到语音信号的分形特征,太大将由于语音波形中的界限混合难以进行语音分割。
窗的步进大小也要适当,如果窗的步进很小将导致过多的计算,如果窗的步进太大将导致失去临界信息。