语音信号非线性分析
- 格式:docx
- 大小:78.26 KB
- 文档页数:12
语音识别转文字原理语音识别是一种将语音信号转换为文本或指令的技术。
语音识别技术被广泛应用于电子商务、金融、医疗、车联网等领域,为人们提供更加方便、快捷、高效的交互方式。
其基本原理是利用计算机对人类语音信号进行分析,识别出不同的音素或单词,并将其转换为机器可理解的文本或指令。
首先,语音信号需要通过麦克风或其他录音设备进行采集。
然后,采样到的语音信号被数字化为数字信号,变成一系列数字。
将这些数字称为语音的“波形数据”,这些数据将经过特征提取和模式匹配。
在语音识别中,一个包含人的声音的音频段被定义为“音频帧”。
语音信号通常是非平稳的、非线性的,所以在语音识别中必须进行特征提取。
常见的特征包括频率、谱、功率谱密度等。
这些特征将用于识别语音信号中的不同音素或单词。
然后,使用一种称为隐马尔可夫模型(HMM)的统计模型,对音频帧进行识别。
HMM是一种基于概率推断的统计模型,将语音信号中的音素视为连续序列。
HMM可以根据先前的音素和当前音素的发音方式来预测下一个音素是什么。
对于每一个音素,HMM包含三个状态:开始状态、中间状态和结束状态。
在整个识别过程中,HMM从开始状态开始,然后在中间状态之间进行转移,直到最终达到结束状态。
统计数据如普通短语,常用单词,常见句子等都可以构建基于 HMM 的模型。
模型的构建需要使用大量的训练语音数据来建立经验模型。
在训练阶段,将使用标记语料库对语音信号进行注释,每个音素都有相应的标记。
然后将这个标记的音素序列组合成单词或短语序列。
这些序列用于训练HMM模型。
一旦模型建立好了,语音识别系统就可以将未知的语音信号与模型进行比较,并识别出语音信号中所包含的单词或指令。
尽管该识别系统已经可以识别很多种语言,但其结果通常会出现误差,主要取决于识别系统的质量和输入的声音质量。
总之,语音识别是一项高科技、高复杂度的技术,其原理与人耳相似。
语音识别系统由多个部分组成,包括信号采集、特征提取、语音分析、模式匹配等。
声学信号处理的最优算法研究一、前言声学信号处理是现代科技领域中的一个重要分支,近年来备受关注。
它主要研究如何从复杂的声学信号中提取有用的信息,并设计出各种优秀的算法来实现这一目标。
本文将就声学信号处理的最优算法及其研究进行探讨。
二、背景知识声学信号处理可以被定义为处理声波或声学信号的过程。
这里的声学信号是指声音、语音、音乐、环境声、机械振动等物理现象。
在声学信号处理领域中,最常用的算法是数字信号处理(DSP)算法和人工智能(AI)算法。
其中,DSP算法主要依靠数学模型和算法优化来实现数据处理。
而AI算法则更注重机器学习和人工智能技术的应用,依然是数据处理的一种方法。
三、最优算法的定义最优算法是指在给定的限制条件下,能够达到最优化处理效果的算法。
它既可以从计算复杂度的角度定义,也可以从信噪比、精确度、抗干扰等参数的角度定义。
在声学信号处理中,最优算法不仅需要解决计算问题,还需要解决信号处理的物理问题,即如何从声学信号中提取出有用的信息。
四、最优算法的应用1. 语音识别语音识别是指将声学信号转化为文字或命令的过程。
最优算法应当从信噪比、精确度等参数出发,考虑如何有效地抑制噪声、提高精度,实现语音识别功能的优化。
2. 音频修复音频修复是指修复已经损坏或扭曲的声音信号。
最优算法应当从信号处理的角度出发,考虑如何补全丢失数据、抑制噪声、保证音频质量的优化。
3. 人类听觉系统模拟人类听觉系统模拟是指模拟人类听觉系统的功能,使得计算机或其他智能设备能够对声音进行理解和推理。
最优算法应当从人类听觉系统的工作原理出发,考虑如何实现声音特征的抽取、分类及理解的优化。
五、最优算法的研究方向1. 声音特征提取算法声音的识别和处理离不开声音信号的分析、提取与分类。
因此,声音特征提取算法是最优算法的重要研究方向。
特征提取的算法包括基于时间序列的算法和基于频谱的算法。
2. 声音处理的非线性与非高斯算法研究传统的声学信号处理算法更多地是线性和高斯化的,而实际情况下的声音信号通常是非线性和非高斯化的。
《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。
在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。
随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。
到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。
近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。
1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。
(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。
(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。
1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。
声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。
听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。
1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。
语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。
这些模型为语音信号处理提供了理论基础和工具。
第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
如何使用小波变换进行非线性信号分析引言:信号分析是一门重要的学科,它涉及到许多不同类型的信号,包括线性和非线性信号。
在非线性信号分析中,小波变换是一种非常有用的工具。
本文将介绍如何使用小波变换进行非线性信号分析,并探讨其在实际应用中的重要性。
一、小波变换的基本原理小波变换是一种时频分析方法,它将信号分解成不同频率和时间的小波基函数。
与傅里叶变换相比,小波变换能够提供更多的时域信息,因此在非线性信号分析中更为适用。
小波变换的基本原理是将信号与一组小波基函数进行卷积运算,得到不同频率和时间上的小波系数。
二、小波变换的优势1. 时频局部性:小波变换能够提供信号在不同时间和频率上的局部特征,使得对非线性信号的分析更加准确。
2. 多分辨率分析:小波变换可以通过选择不同的小波基函数,对信号进行多尺度分析,从而更好地捕捉信号的细节和整体特征。
3. 非线性处理能力:小波变换能够对非线性信号进行处理,通过分析小波系数的非线性特征,可以揭示信号中的隐藏信息。
三、小波变换在非线性信号分析中的应用1. 信号去噪:非线性信号通常包含大量的噪声,而小波变换可以通过分析小波系数的能量分布,对信号进行去噪处理。
通过选择适当的小波基函数和阈值处理方法,可以有效地去除噪声,提取出信号的有效信息。
2. 信号特征提取:非线性信号中常常包含丰富的特征信息,如瞬态信号、奇异点等。
小波变换能够通过分析小波系数的局部特征,提取出信号中的这些特征,并用于信号识别和分类。
3. 信号压缩:非线性信号通常具有较高的冗余性,而小波变换可以通过选择适当的小波基函数和阈值处理方法,对信号进行稀疏表示,从而实现信号的压缩和存储。
四、小波变换的实际案例1. 生物医学信号分析:小波变换在心电图、脑电图等生物医学信号分析中得到广泛应用。
通过对信号进行小波变换,可以提取出心跳和脑电波的频率特征,从而用于疾病诊断和监测。
2. 振动信号分析:小波变换在机械振动信号分析中也有重要应用。
语音质量分析报告【语音质量分析报告】一、引言语音质量是指语音信号的清晰度和完整度,是评估语音通信系统的关键指标之一。
本报告将对语音质量进行全面的分析,包括对语音信号的信噪比、失真、延迟、韵律等方面进行评估。
通过对语音质量的分析,可以为优化语音通信系统提供有效的参考依据。
二、评估指标1. 信噪比:信噪比是评估语音质量的重要指标之一,表征了语音信号与背景噪声的比值。
信噪比越高,语音信号的清晰度越高。
通过对语音信号的录制和分析,我们测得该语音样本的信噪比为20dB,属于良好水平。
2. 失真:失真是指语音信号在传输和处理过程中发生的变形和变化,导致语音质量下降。
失真一般分为量化失真、非线性失真和编解码失真等几种类型。
通过对语音信号的频谱分析和比较,我们发现该语音样本的失真较小,信号的频谱和时域特征基本保持完整。
3. 延迟:延迟是指语音信号从发出到接收之间的时间差,也称为信号传输的延时。
延迟时间越短,通信的实时性越高。
通过对通话录音的分析,我们测得该语音样本的延迟为200ms,符合实时通信的要求。
4. 韵律:韵律是指语音信号中的节奏、音调和重音等音频特征,直接影响到语音的自然度和可懂度。
通过对语音样本的语调和节奏的分析,我们发现该语音样本的韵律比较准确,语音的自然度较高。
三、存在问题在对语音质量进行分析的过程中,我们也发现了一些问题:1. 前期处理不足:语音录制过程中,可能存在一些干扰信号和噪声,对语音质量产生一定的影响。
在后期处理过程中,应加强对噪声的滤除和降噪处理,提高语音信号的清晰度。
2. 网络传输问题:语音通信过程中,网络传输可能存在一定的延迟和丢包率,导致语音质量下降。
应针对网络传输问题进行优化,提高语音通信的稳定性和实时性。
3. 设备问题:语音质量还受到录音设备和播放设备的影响。
在选择和配置设备时,应考虑到设备的音质和性能,在保证语音质量的前提下选择合适的设备。
四、改进措施为了提高语音质量,我们提出以下改进措施:1. 优化录音环境:在录制语音信号时,应选择一个良好的录音环境,降低干扰信号和噪声的干扰。
基于非线性参数的腭裂患者高鼻音自动识别
尹恒;何凌;张劲;李杨
【期刊名称】《计算机工程与设计》
【年(卷),期】2013(34)10
【摘要】为了实现对腭裂患者高鼻音的自动识别,提出了基于语音信号非线性能量算子及K-最近邻分类器的高鼻音自动识别算法.实验对腭裂语音数据库中非高鼻音及高鼻音信号提取基于香农能量和非线性能量算子的语音特征参数,结合模式识别分类器,实现了对高鼻音语音的自动检测.实验结果表明,应用非线性能量算予,能实时跟踪语音信号瞬时能量变化,实现了对高鼻音较高的判别正确率,其分类器正确识别率在90%以上,且优于传统的香农能量算法,具有较高的临床应用价值.
【总页数】4页(P3701-3704)
【作者】尹恒;何凌;张劲;李杨
【作者单位】四川大学华西口腔医院,四川成都610041;四川大学电气信息学院,四川成都610065;四川大学电气信息学院,四川成都610065;四川大学华西口腔医院,四川成都610041
【正文语种】中文
【中图分类】TP391
【相关文献】
1.腭裂语音高鼻音等级自动识别算法研究 [J], 何凌;袁亚南;尹恒;张桠童;张劲;刘奇;李杨
2.采用低频区相对能量值评价腭裂患者的高鼻音程度 [J], 张闻琅;石冰;尹恒;郑谦;李杨
3.基于小波变换和倒谱分析的腭裂高鼻音等级自动识别 [J], 赵利博;刘奇;付方玲;何凌
4.结合听觉模型的腭裂语音高鼻音等级自动识别 [J], 付方玲;何飞;付佳;尹恒;黄华;何凌
5.基于声道特性的腭裂语音高鼻音等级自动识别 [J], 唐铭;何岩萍;尹恒;刘奇;何凌因版权原因,仅展示原文概要,查看原文内容请购买。
语音信号处理期末试题总结语音信号处理是计算机科学与工程领域中的一个重要分支,涉及到语音的获取、分析、处理和识别等方面。
本文将对语音信号处理期末试题进行总结,包括语音信号的特点、语音信号的数字化、语音信号的分析与处理等内容。
一、语音信号的特点语音信号是一种时变信号,具有以下特点:1. 高度相关性:语音信号中的相邻样本之间存在强相关性,即前后样本之间存在一定的联系。
2. 动态性:语音信号具有时变性,即语音信号的频率、幅度和相位等参数随时间不断变化。
3. 非线性:语音信号的产生和传输过程中存在非线性失真的因素,如话筒的非线性特性、音频设备中的非线性操作等。
二、语音信号的数字化为了方便处理和存储,需要将模拟语音信号转换为数字信号,即进行数字化处理。
数字化的过程主要包括采样、量化和编码三个步骤。
1. 采样:采样是指以一定的时间间隔对模拟语音信号进行采样,得到离散的样本值。
采样频率决定了语音信号的频带宽度,常用的采样频率为8kHz或16kHz。
2. 量化:量化是指将采样得到的连续样本值近似为离散的量化级别,常用的量化级别为8位或16位。
3. 编码:编码是指将量化后的样本值转换为二进制形式,方便存储和传输。
三、语音信号的分析与处理1. 短时能量与过零率:短时能量反映了语音信号在短时间内的能量变化情况,过零率反映了语音信号波形的变化频率。
通过计算短时能量和过零率可以进行语音的端点检测和语音活动检测。
2. 傅里叶变换:傅里叶变换是一种时频分析方法,可以将时域信号转换为频域表示,得到信号的频谱信息。
在语音信号处理中,傅里叶变换常用于语音的频谱分析和滤波处理。
3. 语音合成:语音合成是指根据给定的文本信息生成对应的语音信号。
常用的语音合成方法包括基于规则的合成和基于统计模型的合成。
4. 语音识别:语音识别是将语音信号转换为对应的文本信息的过程,常见的语音识别方法包括基于模板匹配的方法、基于统计的方法和深度学习方法等。
浅析语音信号频谱分析方法摘要:语音信号的频域分析就是分析语音信号的频域持征。
从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。
下面着重介绍前两种分析方法。
关键词:频谱分析、带通滤波器组法、傅里叶变换法傅里叶分析法因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。
利用短时博里叶变换求语音的短时谱对第n 帧语音信号Xn(m)进行傅里叶变换(离散时域傅里叶变换,DTFT),可得到短时傅里叶变换,其定义如下:10()()N j w j w n n n m X e x m e --==∑(3-7)由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。
这里,窗w(n-m)是一个“滑动的”窗口,它随n 的变化而沿着序列X(n)滑动。
由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。
当然窗口函数不同,博里叶变换的结果也将不同。
设语音信号序列和窗口序列的标准傅早叶变换均存在。
当n 取固定值时,w(n-m)的傅里叶变换为:()()jw n jw n jw m w n m e e W e ∞---=-∞-=⋅∑(3-8)根据卷积定理,有:()()()jw jw jwn jw n X e X e e W e --⎡⎤=⋅⋅⎣⎦ (3-9) 因为上式右边两个卷积项均为关于角频率w 的以2π为周期的连续函数,所以也可将其写成以下的卷积积分形式:()-1()()()2jw j jn j w n X e W e e X e d θθθθ∏+∏⎡⎤⎡⎤=⋅⎣⎦⎣⎦∏⎰ (3-10) 即,假设x(m)的DTFT 是()jw X e ,且()w m 的DTFT 是()jw W e ,那么()jw n X e 是()jw X e 和()jw W e 的的周期卷积。
一、前言随着我国科技的飞速发展,语音识别、语音合成等人工智能技术逐渐走进我们的生活。
为了更好地了解这些技术,提高自己的专业技能,我参加了语音实践课。
在这段时间里,我不仅学习了语音处理的基本理论,还通过实践操作,深入了解了语音识别、语音合成等技术的应用。
以下是我对语音实践课的个人心得体会。
二、课程内容1. 语音处理基本理论语音实践课首先让我们了解了语音处理的基本理论,包括语音信号的产生、传输、接收和转换等过程。
通过学习,我认识到语音信号具有非线性、非平稳性等特点,这使得语音处理具有一定的难度。
同时,我也了解到语音处理技术在语音识别、语音合成、语音增强等方面的应用。
2. 语音识别语音识别是语音处理领域的一个重要分支。
在课程中,我们学习了语音识别的基本原理,包括声学模型、语言模型、解码器等。
通过实践操作,我们了解了语音识别系统的构建过程,以及如何提高识别准确率。
3. 语音合成语音合成是将文本信息转换为语音信号的过程。
在课程中,我们学习了语音合成的基本原理,包括声学模型、韵律模型、文本分析等。
通过实践操作,我们了解了语音合成系统的构建过程,以及如何提高语音质量。
4. 语音增强语音增强是提高语音信号质量的过程。
在课程中,我们学习了语音增强的基本原理,包括噪声抑制、回声消除、混响消除等。
通过实践操作,我们了解了语音增强技术的应用,以及如何提高语音质量。
三、实践操作1. 语音识别实践在语音识别实践环节,我们使用开源语音识别工具进行语音识别实验。
通过实验,我学会了如何构建语音识别系统,以及如何调整参数以提高识别准确率。
同时,我还了解了语音识别在实际应用中的挑战,如方言、口音等。
2. 语音合成实践在语音合成实践环节,我们使用开源语音合成工具进行语音合成实验。
通过实验,我学会了如何构建语音合成系统,以及如何调整参数以提高语音质量。
此外,我还了解了语音合成在智能语音助手、车载导航等领域的应用。
3. 语音增强实践在语音增强实践环节,我们使用开源语音增强工具进行语音增强实验。
刘易斯过渡曲线刘易斯过渡曲线(Lewis Transition Curve)是一种描述语音信号的数学模型,由英国语音学家乔治·刘易斯在1960年代提出。
该模型用于描述语音信号的声学特征和非线性动力学行为,被广泛应用于语音分析和合成领域。
一、刘易斯过渡曲线的背景和意义语音信号是一个非线性的动态系统,其产生和传输过程中涉及到多种复杂的物理过程和现象。
为了更好地理解和分析语音信号,科学家们不断探索和研究语音信号的内在规律和特征。
其中,刘易斯过渡曲线作为一种重要的数学模型,为语音信号的分析和合成提供了有力的理论支持。
刘易斯过渡曲线主要基于以下两个假设:语音信号的生成是一个由声门、声道和嘴形等多个因素共同作用的结果。
这些因素之间相互作用,形成了一个复杂的非线性系统。
语音信号的生成过程中,各因素之间的相互作用具有时变性和非平稳性。
这种时变性和非平稳性导致了语音信号的声学特征和动力学行为的非线性变化。
基于以上假设,刘易斯过渡曲线通过将语音信号分解为多个不同频率、振幅和相位的正弦波,来描述语音信号的声学特征和非线性动力学行为。
该模型将语音信号的产生过程看作是一个由不同频率的正弦波组成的合成过程,这些正弦波的频率、振幅和相位随时间变化,形成了具有复杂非线性行为的动态系统。
二、刘易斯过渡曲线的特点和应用刘易斯过渡曲线具有以下几个特点:曲线具有连续性和平滑性。
由于语音信号是一个连续的信号,刘易斯过渡曲线在描述语音信号时保证了曲线的连续性和平滑性,从而能够更好地还原语音信号的真实特征。
因此,提高模型的准确性和可靠性是当前亟待解决的问题之一。
为了应对以上挑战并推动刘易斯过渡曲线的发展和应用,未来的研究和发展趋势可能包括以下几个方面:智能算法和优化技术:通过引入智能算法和优化技术,如机器学习和深度学习等,实现对刘易斯过渡曲线的自动化和智能化调整和优化,从而提高模型的计算效率和准确性。
多模态数据融合:结合多种不同类型的传感器或数据源,实现多模态数据融合和处理,从而获取更全面、准确和可靠的语音信号特征和动力学行为信息。
语音,作为一种典型的非平稳随机信号,是人类交流信息最自然、最有效、最方便的手段,在人类文明和社会进步中起着重要的作用。
随着电子通信业的出现和计算机技术的发展,人们开始可以从数字信号处理的角度来了解语音。
语音信号的研究可以从时域和频域两个方面来进行。
其中时域的分析处理有两种方法:一种是进行语音信号分析,这属于线性处理的范畴,主要是通过信号的加减、时移、倍乘、卷积、求相关函数等来实现;另一种是生成和变换成各种调制信号,这属于非线性的范畴,主要是对信号平均累加器的动态范围进行压缩扩张,用门限方法对噪声的抑制。
对频域分析处理,即对信号的频率特性在频谱中加以分析研究,这拓展了信号分析的范围,是对不确定信号分析的主要方法。
随着计算机技术和信息技术的发展,语音交互已经成为人机交互的必要手段,而语音信号的采集和处理是人机交互的前提和基础。
声卡是计算机对语音信号进行加工的重要部件,它具有对信号滤波、放大、采样保持、A/D和D/A转换等功能。
尽管在Windows附件的娱乐中带有一个录音机,通过它可以驱动声卡采集语音信号并保存为语音文档。
但是要对采集的信号进一步分析处理就必须另外编程或通过其它软件,而且Windows附件中的录音机功能极其有限且不能扩展。
Matlab是美国Math Works公司推出的一种面向工程和科学计算的交互式计算软件,它以矩阵运算为基础,把计算、可视化、程序设计融合到了一个简单易用的交互式工作环境中。
在Matlab环境中,可以通过多种编程方法驱动声卡,实现对语音信号的采集和回放。
同时由于Matlab是一个数据分析和处理功能十分强大的工程实用软件,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。
作为高科技应用领域的研究热点,语音信号处理技术从理论的研究到实际应用已经走过了几十个春秋并且取得了长足的进步。
语音信号非线性分析【摘要】混沌是指在确定的非线性系统中出现的一种非常复杂的随机现象,近二十年来,混沌理论及其应用的研究引起了国际学术界的广泛关注,成为一个研究热点。
本文介绍了基于混沌理论的语音信号非线性分析。
概括语音信号非线性和混沌的依据;描述了语音信号混沌特性参量,包括Lyapunov指数和分形维;讨论运用Takens嵌入定理于语音信号相空间重构时的研究议题,包括嵌入维数、时间延迟、噪声及滤波影响、预测时间及数据长度要求等。
【关键词】语音信号非线性混沌lyapunov指数1 混沌学的发展混沌是上世纪最重要的科学发现之一,被誉为继相对论和量子力学后的第三次物理学革命,它打破了确定性与随机性之间不可逾越的分界线,将经典力学研究推进到一个崭新的时代。
1963年,美国气象学家E.Lorenz在《大气科学》杂志上发表了“决定性的非周期流”的文章,指出在确定的气象预测数学模型中存在混沌现象,描述了混沌对“初始条件的敏感性”这一基本性态,即著名的“蝴蝶效应”,发现了混沌现象的第一个奇怪吸引子——Lorenz 吸引子[1],Lorenz也因此成为“混沌学之父”。
1975年,正在美国马里兰大学攻读博士学位的华人李天岩和他的导师J.Yorke联名发表了一篇震动整个学术界的论文《周期3蕴涵混沌》[2],率先引入了“混沌”( Chaos)一词,为这个新兴研究领域确立了一个中心概念,为各学科研究混沌现象树立起了一面统一的旗帜。
1977年,第一次国际会议在意大利召开,标志着混沌科学的诞生。
长期以来由于混沌的奇异特性,特别是对初始条件极其微小变化的高度敏感性及不稳定性,所谓“差之毫厘,失之千里”,使得人们认为混沌是不可靠的,难以控制的,因而在工程应用领域总是被回避和抵制。
1990年,Ott.Grebogi和Yorke提出的OGY方法使混沌运动达到有效控制并在试验上得到验证,从而国内外对非线性系统混沌控制的研究迅速发展起来,成为非线性科学领域研究的热点[3]。
现在人们已经发现,混沌是易于操纵的,可以开发利用的,甚至是无价的,混沌可以应用于应用在很多方面,例如:电路输出的同步化;控制化学反应中的振荡;稳定有病的心脏的不规则的搏跳;为保密通讯提供信号的解码手段等等。
而且在心脏HRV(心脏变异性)的研究中,在语言加工信息的研究中,在对人脑功能以及处理信息的机理分析中,在股票动态分析预测中,在流行病数学模型分析中,在混沌神经网络的信息图像处理中,在天文学,地球物理学,天气预报,地震预报,智能科学,经济理论,人口理论,医药化学等方面也都开始得到广泛应用。
2 混沌的特点混沌是服从确定性规律但具有随机性的运动。
所谓服从确定性运动,是指系统的运动可以用确定的动力学方程的形式或离散方程形式表示,即使有时这类方程还没有被找到所表述,而不是像噪声那样不服从任何动力学方程。
所谓运动具有随机性,是指不能像经典力学中的机械运动那样由某时刻状态可以预言以后任何时刻的运动状态,混沌运动倒是像其他随机运动或噪声那样其运动状态是不可预言的,换言之,混沌运动在相空间中没有确定的轨道。
混沌运动的一些特点:1.混沌运动是决定性和随机性的对立统一,即它具有随机性但又不是真正的或完全的随机运动。
虽然混沌运动在整个时间进程中具有随机性,即在较长时间上不能对其运动做出预言。
2.对初始状态的敏感依赖与随机性密切相关的是混沌运动对初始状态的敏感依赖。
系统作通常规则运动时,无法避免的涨落或噪声干扰所引起的初始条件的微小变化一般只引起运动状态的微小差别。
即初始状态很接近的轨道总是很接近的,甚至可能是趋向于一致的,这样才能使人们对系统的运动做出预言,也才有所谓的机械运动决定论,混沌运动则不然,由于系统无法避免的涨落,初始条件的微小差别往往会使相邻轨道按指数形式分开。
洛伦兹戏称混沌运动这种对初始条件的敏感依赖性为蝴蝶效应。
蝴蝶效应是区别混沌运动同其他确定性运动的最重要的标志。
3.只有非线性系统才可能作混沌运动对于线性微分方程初始条件给定了,它就没有确定的解。
也就是说。
线性系统不可能作带有随机性的混沌运动。
所以说,混沌运动只可能在非线性系统中。
3语音信号的混沌性语音信号处理是近年来研究一直很活跃的学科领域,已经在数字语音通信、话音识别、话音存贮和保密通信等许多方面取得了重要成果。
传统的语音信号处理基于线性系统理论,基本的假定是语音信号特性随时间的变化是缓慢的。
这个假定导出各种“短时”处理方法,语音信号被分割为一些短段再加以处理,每一段视为确定的平稳信号,经过处理以后产生一个新的依赖于时间的序列而用于描述的语音信号。
随着研究的深入,人们发现语音信号是一个复杂的非线性过程。
用声学和空气动力学理论分析, 语音有声门的非线性振动过程,受舌、声道形状的变化,语音信号(特别是摩擦音、爆破音等)会在声道边界层产生涡流,并最终形成湍流,发其它音时,声门喷出的气流仍有湍流存在,而湍流本身就是一种混沌[4]。
语音信号具有的渐变不稳定性可通过成熟的自适应方法处理,而其非线性性质却一直在传统语音处理的发展趋势中未得到应有的重视。
近十几年来,非线性理论中的混沌和分形信号处理为人们提供了分析自然现象的全新方法。
严格的声学及空气动力学理论已证明,语音信号的产生中存在混沌的机制。
从信号处理的角度检查信号是否为混沌的,首先必须从信号的物理背景出发探讨;其次,必须实验验证[5]:①信号是有界的;②信号的分形维有限,且通常不是整数,这是不规则信号区别于噪声的根本点之一;③信号的最大Lyapunov指数是正的,这决定了信号对初始条件的敏感依赖;④信号是局部可预测的,特别地,信号的动力学系统可以用确定性模型重建。
针对语音信号的非线性特性和混沌特性,从物理背景和实验两方面出发,已有许多研究。
大量关于语音信号分形维和Lyapunov指数的统计实验(下文讨论)表明,语音信号符合最大Lyapunov指数为正的和分形维有限的要求;而语音信号显然是局部可预测的。
因此,语音信号中存在有混沌因素。
这是将混沌及分形理论引入语音信号处理的基础。
4基于混沌理论的语音信号非线性分析通过分析系统相空间[6],可了解系统的动力学特性。
但通常对实际系统,仅能知道表现为时间序列形式的系统观察值。
因此,从时间序列重构系统相空间具有重要意义。
Takens[7]提出了解决问题的方法,称为Takens嵌入定理。
该定理指出,任意m维的紧的超平面, 可被微分同胚地嵌入变换为等价的对应维数的欧氏空间。
其中,微分同胚指嵌入换及其逆变换是可导的;等价的对应维数指嵌入维数M ,21M m ≥+就可以了。
Takens 嵌入定理可应用延时坐标法重构相空间。
在应用该定理重构语音信号相空间时,必须对以下几个问题给予足够的重视。
1.Lyapunov 指数[6]是混沌过程的一个重要参数,它给出过程对初始条件敏感依赖的度量。
判断信号是否为混沌的,一个重要的依据在于检查其最大Lyapunov 指数是否为正。
事实上,Lyapunov 指数给出的是动态系统沿其相空间主轴发散或收敛的平均速度。
同时,它可以指示,对系统的可靠预测能进行多久。
在重构相空间的基础上,可以分析时空演化特性Lyapunov 指数,Lyapunov 指数在混沌系统研究中的意义是:λ> 0,相空间运行轨迹迅速分离,长时间动态行为对初始条件敏感,即处于混沌状态;λ= 0 表示沿着轨迹低于指数速度的运动,相当于没有混沌;λ< 0 表示相空间的轨迹是收缩的,对初始条件不敏感,相当于没有混沌。
因此,即使Lyapunov 指数的大小不知道,Lyapunov 指数符号的类型也能提供动力学系统的定性情况。
语音信号估计最大Lyapunov 指数1λ可采用Wolf 方法:首先对语音信号用延时相图法进行相空间重构,给定初始点{}000(),(),,[(1)]s t s t s t d ττ+⋅⋅⋅⋅⋅⋅+-(d 为相空间维数),得到该点的最近邻域点,记其长度为()'1L t 。
随着时间演化到t 1,初始长度也演化到()'1L t 。
在搜索时,所要求的点应满足以下两条准则:(1) 该点与基准点的分开距离应比较小。
(2) 演化向量与被替换向量之间的角度分离也比较小。
如果符合上述条件的点不能找到, 暂保留当前所使用的向量, 整个过程不断重复。
于是有()'1101()1log Mk k M k L t t t L t λ=-=-∑式中M 是使用替换向量的总数。
文献[9]给出了10个因素的最大Lyapunov 指数1λ的分布。
采用15 名发音人的6000 次发音, 采样率为16kHz ,12阶线性预测后重构三维相空间。
表1 部分汉语语音的最大Lyapunov 指数分布Lyapunov 指数1λ的含义是相空间演化轨迹变化的快慢程度,可近似理解为语音发音器官状态的变化。
从数据中可以发现,辅音的1λ比元音大,辅音中擦音和塞擦音1λ最大,其次是塞音,再次是浊音,这与语音的发声机理是吻合的。
2.分形维是刻划动力学系统奇异吸引子复杂度的重要参数。
分形维有各种定义,如容量维、信息维、Hausdorff 维、相关维、Lyapunov 维、Minkowski-Bouliqand 维等。
其中,容量维最为常用,其计算方法为计盒算法。
计盒维数的定义:设有集合A ,用一个网状栅格将其覆盖,网格边长为S ,N (s )为网格中含有集合A 任何一部分的网格数,则计盒维数为0log ()limlog(1/)s N s D s →= 计盒维数算法: 本文采用最小二乘法拟合log N (s )~ log(1/s ) 直线, 求出此直线的斜率即为计盒分维数D 。
具体实现过程为:(1)将原始语音信号归一化到单位正方形区域, 得到归一化信号()x t ;(2)将正方形区域划分为边长为s 的网格,计算log N (s ),log(1/s ) ;(3) 改变s 的大小,计算相应的log N (s ),log (1/s ) ;(4) 令log (1/),log (),1,2,,,i i i i x g s y N s i M ===⋅⋅⋅⋅⋅⋅利用(,)i i x y 最小二乘拟合直线y =kx +b ,k 即为计盒维数D 。
D 的计算公式由均方误差211(())()M Mi i i i i i E y x y kx b y ===-=+-∑∑ 令0E k∂=∂及0E b ∂=∂,得 1112211()()M MM i i i i i i i M M i i i i y x M y x D x M x =====⎛⎫- ⎪⎝⎭=⎛⎫⎛⎫- ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑∑∑∑ 3.Takens 嵌入定理指出,在重构相空间时,如果嵌入维数大于吸引子维数的2倍,延迟坐标向量可构成原可微流形在欧氏空间中的微分同胚。