语音噪声环境下说话人识别特征提取
- 格式:pdf
- 大小:184.53 KB
- 文档页数:3
语音识别系统中的语音特征提取与分析语音识别是一种将人类语音转化为可理解的文本或命令的技术。
它在现代人机交互、智能助理和语音控制等领域起到了至关重要的作用。
而语音识别系统中的语音特征提取与分析是实现准确识别的基础。
本文将介绍语音特征提取与分析的方法和技术,并探讨其在语音识别系统中的应用。
首先,了解什么是语音特征提取与分析是十分重要的。
语音是一种波形信号,它包含了大量的信息,如声音的频率、强度和持续时间等。
而语音特征提取与分析的目标是从这些信息中提取出对语音识别任务有意义的特征,并将其用于模型训练和分类。
在语音特征提取过程中,最常用的方法是MFCC(Mel Frequency Cepstral Coefficients)特征提取法。
MFCC将语音信号分解成一系列频谱包络的倒谱系数,以及包络系数的动态特征,如一阶差分和二阶差分。
通过这种方式,MFCC在一定程度上模拟了人类听觉系统对声音的感知方式,提高了语音识别的准确度。
在语音特征分析过程中,常见的方法有语音信号的能量计算、过零率分析、音高分析和共振峰跟踪等。
语音信号的能量计算可以用于判断语音信号的强度和音量,而过零率分析可以用于判断语音信号的连续性和浊音音素的位置。
音高分析可以提取语音信号的基频信息,用于音高判断和声调识别。
而共振峰跟踪方法则可以提取语音信号中的共振峰频率和带宽信息,用于语音的声道特征分析。
除了MFCC和上述方法外,还有一些其他的语音特征提取和分析方法也被广泛应用于语音识别系统中。
例如,短时能量、短时过零率、倒谱包络和线性预测编码等方法也被用于语音特征提取。
而自动化语音识别系统中的声学模型通常使用动态时间规整(DTW)和隐马尔可夫模型(HMM)等算法进行特征匹配和分类。
在实际应用中,语音特征提取与分析在语音识别系统的各个环节中发挥着关键的作用。
首先,它可以用于预处理阶段,提高原始语音信号的质量和可识别性。
例如,噪声抑制和语音增强技术能够降低环境噪声对语音识别的影响。
语音信号识别中的特征提取技术研究语音信号识别是计算机科学领域中的一个重要研究方向。
在人类交流过程中,语音作为一种重要的信息载体,已经成为了现代社会中不可或缺的一部分,因此,对于计算机来说,如何将语音信号转换为计算机可读的数字信号,是目前研究的热点之一。
而语音信号的特征提取技术,作为语音信号识别领域中的重要一环,起着举足轻重的作用。
在语音信号识别中,所谓的特征提取就是将复杂的语音信号转换成机器学习算法可以处理的特征向量,从而实现对语音信号的识别。
特征提取的过程,主要包括信号预处理、特征提取和特征归一化三个步骤。
首先,信号预处理是将原始的语音信号进行降噪、滤波、增益等操作,以使语音信号更加清晰、准确。
同时,信号预处理还可以通过提高信噪比和降低信号干扰,来优化特征提取的结果。
接下来的特征提取过程则是将预处理后的语音信号量化为一组数学特征,以便计算机进行数字信号处理和分析。
在特征提取的过程中,常用的算法包括梅尔频率倒谱系数(MFCC)法、线性预测编码(LPC)法、傅里叶变换法等等。
其中,MFCC法是目前应用最为广泛的一种算法,它模拟人类听觉系统的处理方式,利用声音的波形和人类感觉器官对声音的调制响应,将语音信号抽象成一系列人工构建的数字特征,并具有计算效率高、特征表达能力强、不易受噪音干扰等特点。
相比之下,LPC法则是将语音信号分解为一系列谐波和噪声,更为复杂,但其也在某些场景下实现了更加优秀的语音信号识别效果。
最后,特征归一化的目的是在将特征向量输入机器学习模型之前,对其进行规范处理,消除数据的量纲和分布等差异,以获得更好的识别结果。
特征归一化方法包括线性区间缩放、标准化、均值归一化、范数归一化等。
其中,标准化是最为常用的一种归一化方法,它将数据的均值置为0、方差置为1,使数据分布在标准正态分布中,提升了特征向量在机器学习模型中的可用性和稳定性。
通过对这三个步骤的详细了解和实践经验的积累,研究者们已经取得了越来越好的语音信号识别效果。
语音识别中声学模态特征提取方法一、语音识别技术概述语音识别技术是一种将人类语言转化为计算机可理解的文本格式的技术。
随着技术的发展,语音识别技术在各个领域得到了广泛的应用,如智能助手、自动客服、语音导航等。
语音识别技术的核心在于声学模态特征的提取,这是实现高准确率识别的关键。
本文将探讨声学模态特征提取的方法,分析其重要性、挑战以及实现途径。
1.1 语音识别技术的核心特性语音识别技术的核心特性主要包括以下几个方面:高准确率、实时性、适应性。
高准确率是指语音识别系统能够准确地将语音信号转化为文本信息;实时性是指系统能够在极短的时间内完成识别过程;适应性则是指系统能够适应不同口音、语速、背景噪声等复杂环境。
1.2 语音识别技术的应用场景语音识别技术的应用场景非常广泛,包括但不限于以下几个方面:- 智能助手:通过语音识别技术,用户可以通过语音与智能设备进行交互,实现语音控制。
- 自动客服:在客服中心,语音识别技术可以帮助自动处理客户的咨询和投诉,提高服务效率。
- 语音导航:在驾驶过程中,语音识别技术可以提供语音导航服务,帮助驾驶员获取路线信息。
二、声学模态特征提取的基本原理声学模态特征提取是语音识别技术中的关键环节。
它涉及到将语音信号转化为一系列特征向量,这些特征向量能够反映语音信号的基本属性,从而为后续的语音识别提供基础。
声学模态特征提取的基本原理包括以下几个方面:2.1 语音信号的预处理在进行声学模态特征提取之前,需要对原始的语音信号进行预处理。
预处理的目的是去除噪声、消除静音段、进行归一化等,以提高后续特征提取的准确性。
预处理的方法包括:- 降噪:使用滤波器去除背景噪声,提高语音信号的清晰度。
- 去静音:识别并去除语音信号中的静音段,减少无效数据。
- 归一化:将语音信号的幅度调整到统一的范围,便于后续处理。
2.2 声学特征的提取方法声学特征的提取是将预处理后的语音信号转化为一系列特征向量。
常见的声学特征提取方法包括:- 梅尔频率倒谱系数(MFCC):通过梅尔频率滤波器组对语音信号进行处理,提取其频率特征。
语音识别中的声学特征提取方法研究一、引言语音识别作为一项重要的人工智能技术,正在不断地推动人机交互的发展。
语音识别的关键在于准确地提取语音信号的特征,以便于计算机进行识别。
声学特征提取是语音识别的关键环节之一,本文将深入探讨语音识别中的声学特征提取方法的研究进展。
二、声学特征提取的背景声学特征提取是将声音信号的各种参数提取出来,以便于计算机进行语音识别。
声学特征提取的关键是从原始语音信号中提取出与语音内容相关的特征,并剔除与语音内容无关的噪音和干扰。
三、MFCC特征提取方法MFCC(Mel-Frequency Cepstral Coefficients)是一种常用的声学特征提取方法。
它以人耳听觉模型为基础,将频谱特征转换到梅尔频率尺度上,并使用倒谱变换将频谱转换到倒谱系数上。
MFCC方法能够较好地反映人耳对语音信号的感知特性,因此在语音识别中得到广泛的应用。
四、PLP特征提取方法PLP(Perceptual Linear Prediction)是基于感知线性预测的声学特征提取方法。
PLP方法通过感知线性预测分析,将语音信号的频谱特征从线性的尺度上转换到感知尺度上,并通过预加重和滤波来提高特征的鲁棒性。
相比于MFCC方法,PLP方法能够更好地抵抗噪声和变化。
五、其他声学特征提取方法的研究进展除了MFCC和PLP方法,还有许多其他的声学特征提取方法被应用于语音识别中。
例如,基于小波变换的声学特征提取方法能够提取出语音信号的时频特性,并具有一定的抗噪性能。
另外,基于深度学习的声学特征提取方法能够自动地学习到语音信号的高层抽象特征。
六、声学特征提取方法的比较与评估针对不同的应用场景和需求,不同的声学特征提取方法有其各自的优劣势。
在评估声学特征提取方法时,常用的评价指标包括识别率、抗噪性能和计算复杂度等。
如何在不同应用场景中选择适当的声学特征提取方法,是一个需要深入研究的问题。
七、声学特征提取方法的应用和展望声学特征提取方法不仅在语音识别领域有着广泛的应用,还在语音合成、语音增强等领域中发挥着重要作用。
语音识别技术中声学特征提取方法综述语音识别技术近年来取得了重大的突破和进展,成为人工智能领域的一个重要研究方向。
在语音识别技术中,声学特征提取是其中一个关键步骤,它对于提高语音识别的准确性和稳定性起到了至关重要的作用。
本文将对语音识别技术中声学特征提取方法进行综述,包括常用的声学特征提取方法以及它们的优缺点。
首先,传统的声学特征提取方法之一是基于梅尔频率倒谱系数(MFCC)。
MFCC是一种经典的声学特征提取方法,首先将语音信号划分为短时帧,然后对每一帧的语音信号进行预加重、傅里叶变换、Mel滤波器组计算、对数运算和离散余弦变换等一系列处理步骤,最后得到每一帧的MFCC特征向量。
MFCC具有良好的语音识别性能,能够有效地捕捉语音的频谱特征,并且具有较好的鲁棒性。
然而,MFCC方法也存在一些问题。
首先,它忽略了语音信号中的时序信息,只考虑了每一帧的频谱特征,导致了一定程度上的信息丢失。
其次,MFCC方法对噪声比较敏感,当噪声较大时,MFCC方法的性能会下降。
因此,为了克服这些问题,研究人员提出了一系列改进的声学特征提取方法。
一种改进的声学特征提取方法是时域特征提取。
时域特征提取方法直接利用语音信号的时域波形进行分析,在声学特征提取的过程中考虑了时序信息。
常用的时域特征提取方法包括短时能量、短时过零率和短时自相关函数等。
这些时域特征能够有效地捕捉语音信号的瞬时特性和周期性,从而提高语音识别的准确性和稳定性。
另一种改进的声学特征提取方法是基于深度学习的特征提取方法。
深度学习是近年来兴起的一种机器学习方法,具有强大的模型拟合能力和特征学习能力。
基于深度学习的声学特征提取方法通过利用深度神经网络自动学习语音信号中的抽象特征,取代了传统的手工设计的特征提取方法。
常用的基于深度学习的声学特征提取方法包括深度神经网络(DNN)和卷积神经网络(CNN)等。
这些方法在语音识别任务中取得了显著的性能提升,成为当前研究的热点方向。
语音识别技术中的说话人识别与说话人验证方法探讨近年来,语音识别技术在人工智能领域得到了广泛的应用和持续的发展。
其中,说话人识别和说话人验证作为语音识别领域的重要研究方向,成为了为人们提供更加个性化和安全的技术解决方案的关键。
本文将探讨在语音识别技术中的说话人识别与说话人验证方法。
首先,说话人识别是指通过声音信号的特征进行识别,从而确定说话人的身份。
说话人识别方法从多个方面进行研究,包括声纹特征提取,模型训练和匹配等。
在声纹特征提取方面,常用的方法包括MFCC(Mel频率倒谱系数)和i-vectors(identity vectors)等。
MFCC 是提取说话人语音特征的常用方法,它通过将语音信号转换为频谱特征来表示说话人声音的特点。
而i-vectors是一种基于高斯混合模型(GMM)的说话人特征提取方法,它可以克服MFCC的缺点,并具有更好的识别性能。
在模型训练和匹配方面,常用的方法包括GMM-UBM(GMM-Universal Background Model)、PLDA(Probabilistic Linear Discriminant Analysis)和深度学习等。
GMM-UBM通过建立一个声学模型来对说话人进行建模,并使用一个通用的背景模型来表示说话人类别之外的声音。
而PLDA则通过一个多元高斯模型来进行建模,进一步提高了说话人识别的准确性。
深度学习方法则利用深度神经网络对语音信号进行特征提取和分类,具有较好的性能。
其次,说话人验证是指通过语音信号验证说话人的身份真实性。
在说话人验证中,常用的方法包括基于特征矢量和基于深度神经网络的方法。
基于特征矢量的方法使用已经提取好的说话人特征,通过计算特征之间的相似度来进行验证。
其中,i-vectors是一种常用的特征矢量,可以用于反映说话人的声音特点。
基于深度神经网络的方法则利用深度学习的技术对语音信号进行特征提取和匹配,具有较好的准确性和鲁棒性。
语音识别技术中的特征提取随着人工智能的快速发展,语音识别技术在日常生活中的应用越来越广泛。
而语音识别的核心技术之一就是特征提取,它是将语音信号转化为计算机可以处理的数字特征的过程。
本文将重点讨论语音识别技术中的特征提取方法和其在实际应用中的作用。
一、语音信号的特点语音信号是一种时域信号,具有周期性、频率变化和非线性等特点。
在进行特征提取之前,我们需要先了解语音信号的基本特征。
1. 声音的频率特性:声音由多个频率的振动组成,我们可以通过频谱图来表示声音的频率特性。
频谱图可以将声音在不同频率上的振幅进行可视化,帮助我们分析声音的频率分布。
2. 语音的时域特性:声音的时域特性是指声音在时间上的变化规律。
声音通常由多个声音信号叠加而成,每个声音信号都有自己的幅度和相位。
通过分析声音信号的时域特性,我们可以了解声音的时长、音量和音调等信息。
二、特征提取方法在语音识别中,我们需要将语音信号转化为计算机可以处理的数字特征,以便进行后续的模式识别和分类。
常用的语音特征提取方法有以下几种:1. 基于时域的特征提取方法:时域特征提取方法主要是通过对语音信号进行时域分析,从中提取出与语音识别相关的特征。
常用的时域特征包括:短时能量、过零率、自相关函数等。
这些特征可以反映语音信号的时长、音量和声音的周期性等特性。
2. 基于频域的特征提取方法:频域特征提取方法主要是通过对语音信号进行频域分析,从中提取出与语音识别相关的特征。
常用的频域特征包括:功率谱密度、倒谱系数、线性预测系数等。
这些特征可以反映语音信号的频率分布和共振峰等特性。
3. 基于声学模型的特征提取方法:声学模型是一种建立语音信号与语音特征之间映射关系的数学模型。
通过对语音信号进行声学建模,我们可以得到与语音识别相关的特征。
常用的声学模型包括:高斯混合模型(GMM)、隐马尔可夫模型(HMM)等。
这些模型可以帮助我们理解语音信号的生成过程,并提取出与语音识别相关的特征。
噪声环境下说话人识别研究的开题报告题目:噪声环境下说话人识别研究研究背景和意义:在现代社会中,噪声已成为一种普遍的问题。
在诸如交通、工业生产和家庭等各种场合,噪声都会对人们的生活和工作产生直接或间接的影响。
在这种情况下,人们需要进行一系列的研究,以了解噪音如何影响人类和其他生物,并采取措施,最大限度地减少噪音对人类的影响。
同时,随着语音识别技术的快速发展,人们对于语音识别技术在噪声环境下的应用也越来越感兴趣。
噪声环境下,语音信号的清晰度和准确性都会大大降低,因此,如何在噪声环境下进行准确的说话人识别成为了一项十分重要的研究任务。
该研究旨在基于语音信息的特征提取、降噪算法、分类模型等相关技术,探讨在噪声环境中实现说话人识别的可行性和有效性。
研究内容和方法:本研究将以噪声环境下的说话人识别为主要研究内容,结合语音信号处理、机器学习等多种技术手段,对所选取的语音信号进行特征提取、降噪、分类等操作,实现对噪声影响下的说话人语音识别。
具体研究方法包括以下几个方面:1.语音信号特征提取:利用Mel频率倒谱系数(MFCC)等特征提取方法,将语音信号转换为一组数字特征。
2.噪声降噪处理:采用基于谱减法、小波变换等信号处理算法进行噪声降噪处理。
3.分类模型训练:利用机器学习算法(包括但不限于K-近邻、支持向量机等)进行分类模型的训练和调参,并对测试数据进行分类结果预测。
预期成果和贡献:预期成果:本研究将实现对噪声环境下的说话人语音识别,并对降噪算法、分类模型进行优化,提升说话人识别的准确率和实用性。
贡献:本研究的主要贡献在于提高了噪声环境下的语音识别技术水平,为更高水平的语音识别技术的研究提供了重要的基础和支持。
同时,该研究还将为实际应用场景中的噪声环境下的语音识别问题提供有益的解决方案。
了解语音处理中的说话人识别与语音增强技术一、说话人识别技术介绍说话人识别(Speaker Recognition)是语音处理领域中的重要研究方向之一,这项技术旨在通过分析和识别语音信号中的个体差异特征,来确定说话人的身份。
与语音识别(Speech Recognition)不同,说话人识别主要关注的是说话人本身,而不是所言内容。
1. 特征提取在进行说话人识别时,首先需要对语音信号进行特征提取。
常用的特征包括短时能量、过零率等低层次特征以及梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)等高层次特征。
其中,MFCC 是目前最为常用的一种特征表示方法,它能够有效地表达语音信号中与发音相关的信息。
2. 语音编码为了更好地描述和比较不同说话人之间的差异,需要将提取到的语音特征进行编码。
常见的编码方法有高斯混合模型(Gaussian Mixture Model, GMM)、隐马尔可夫模型(Hidden Markov Model, HMM)以及神经网络等。
3. 训练与建模在说话人识别任务中,通常需要使用大量的语音样本进行训练,以建立说话人的特征模型。
通过训练生成的模型能够用于后续对未知说话人进行识别。
4. 说话人识别系统基于学习到的模型,可以构建一个完整的说话人识别系统。
该系统可以根据新输入的测试语音信号,从已有的训练数据中找出与之最匹配的说话人身份信息。
二、语音增强技术概述语音增强(Speech Enhancement)技术旨在提升语音信号品质和可懂度,减弱背景噪声干扰。
它在手机、会议系统、语音助手等各种应用场景中都有着广泛的应用。
1. 常见问题及背景噪声类型传统通信设备上存在一系列问题,如回声、杂音、混响等影响通信质量和听觉体验。
此外,来自环境的各种背景噪声也是影响正常通信和语音处理任务效果的主要因素。
常见背景噪声类型包括白噪声、风噪声、交通噪声等。
2. 降噪方法目前常见的降噪方法包括时域滤波法、频域滤波法和子空间方法等。
基于噪声环境下的说话人识别系统的研究摘要:对带噪声的语音信号采用消噪算法处理,并提取特征参数mel倒谱系数来建立说话人的特征参数的混合高斯模型,构建了一个基于噪声环境的文本无关的说话人识别系统。
本文详细阐述了梅尔倒谱系数这一主流语音特征及高斯混合通用背景模型来建立说话人识别系统。
实验表明,增加混合高斯模型的维数可以增加系统的识别率。
关键词:说话人识别;梅尔倒谱系数;高斯混合-通用背景模型中图分类号tp391.42 文献标识码a 文章编号 1674-6708(2011)53-0182-03a study on the text-independent speaker recognition system under noisy conditionlin xiu,fan mao-zhischool of software engineering, tongji university, shanghai 2018040 引言说话人识别指在提取代表个人身份的特征信息,最终识别出说话人。
作为身份鉴定的一种方法,说话人识别具有使用简单、获取方便、使用者的接受程度高等优点,但也存在许多值得研究的问题,如训练条件与测试条件不匹配。
说话人识别系统在训练条件与测试条件匹配的情况下,识别系统具有很好的性能。
由于人体声道特征,语音信道及通话环境等因素的干扰,使得说话人识别系统的准确性显著降低。
在说话人识别系统中,有两方面重要的影响因素:一方面,所选取的语音特征参数应尽量突出说话人的个性特征,使得不同说话人可以在特征空间上尽量分离。
另一方面,降低环境噪声对说话人识别系统的干扰,是使训练条件与测试条件匹配的最好办法。
通常提高系统抗噪性能的方法有3种:1)前端处理,如自适应噪声抵消技术等[1];2)提取具有鲁棒性的特征参数[2];3)后端处理,如归一化补偿变换[3]。
本系统的基本思路如下:首先,采用消噪算法对带噪声的语音信号进行消噪。
收稿日期:2010-03-11;修回日期:2010-06-10。
基金项目:山东省自然科学基金资助项目(Y2007G44;Y2007G62)。
作者简介:高会贤(1982-),女,山东新泰人,硕士,主要研究方向:多媒体、语音信号处理; 马全福(1974-),男,山东济南人,讲师,主要研究方向:软件工程; 郑晓势(1966-),男,吉林通化人,研究员,博士,主要研究方向:计算机数字图像处理、模式识别、多媒体技术。
文章编号:1001-9081(2010)10-2712-03短语音噪声环境下说话人识别特征提取高会贤1,马全福1,郑晓势2(1.济南工程职业技术学院现代教育技术中心,济南250200; 2.山东省计算中心,济南250014)(ghx129@163.co m )摘 要:为了使说话人识别系统在语音较短和存在噪声的环境下也具有较高的识别率,基于矢量量化识别算法,对提取的特征参数进行研究。
把小波变换与美尔频率倒谱系数(M FCC )的提取相结合,并将改进后的特征与谱质心特征进行了组合,建立了一种美尔频率小波变换系数+谱质心(M FW TC+SC)的新的组合特征参数。
经实验表明,该组合特征可以有效地提高说话人识别系统的性能。
关键词:短语音;说话人识别;噪声环境;组合特征中图分类号:T P391.41 文献标志码:ARecognition feature extracti on based onlittle speech data for speaker under noisy conditi onsGAO H ui x i a n 1,MA Quan f u 1,ZHENG X i a o shi2(1.C e n ter for Educa ti ona lT ec hnology ,Jinan E ng ineeri ng Voc a tional Techn ic a l Colle g e ,Jinan Shand ong 250200,Ch i na;2.Shandong C o mpu t er Sc ie nce C e n te r,J i nan Shandong 250014,Ch i na )Abstract :T o i m prove t he perfo r m ance o f speake r recogn iti on in t he condition of no ise and little speech data ,featurepara m eters were stud i ed based on the V ec t o r Q uan ti za ti on (VQ ).A n i m proved fea t ure na m ed W FW TC w as proposed by co m bi n i ng ex tracti on o fM el F requency C epstru m Coeffi c i ent (M FCC)w ith w ave let transfor m.A fter t hat ,a new feat u re w as estab lished based on W FWT C and Spectra l Cen tro id (SC ).T he experi m enta l res u lts show t hat the feature i s f easible f o r speaker i dentifica ti on .K ey words :little speech da ta ;speaker recogn iti on ;no isy cond i tion ;co m bi ned feature0 引言说话人识别(Speake r R ecogn iti on ,SR )技术是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。
与其他利用人体本身的生物特征(如指纹、眼虹膜、DNA )进行身份鉴别的方法相比,说话人识别使用的语音信号具有获取简单、方便的特点,故其具有广泛的应用前景。
当前的许多说话人识别系统在比较理想的实验环境条件下都能取得不错的性能,但是一旦应用于实际环境,识别率就会急剧下降,这是由于环境噪声的干扰、说话人情绪及健康状况的影响、语音信号传输的信道差异等都会严重影响说话人识别系统的性能。
通常提高系统抗噪声能力的方法主要有三种:1)在语音信号的预处理中进行降噪,属于前端处理,直接针对原始语音波形进行操作,如应用语音增强技术[1]、使用自适应噪声抵消技术等[2];2)寻找鲁棒性的特征参数,通常是直接对含噪语音提取稳健性的特征[3-4],或是对含噪语音产生的特征进行处理[5];3)基于模型参数调整或者称为模型补偿的方法,属于后端处理,比如雅可比调整[6]、归一化补偿变换[7]、基于Cohort 模型的识别方式[8]。
说话人个性信息的表现与语音信号的长度、内容以及质量有很大的关系,通常语音信号越长越能从中提取到说话人的个性特征,但是当说话人的数量庞大、对实时性要求较高、没有充分存储资源可供利用时,采用较短的语音来提高说话人识别系统的性能,会更具有应用价值。
矢量量化(V ectorQ uantitati on ,VQ )是说话人识别系统常用的方法,凭借其计算量小的特点,很适合应用于实时性要求高、存储空间有限的情况。
在语音较短时,VQ 方法比高斯混合模型(G aussi an M i x t ure M ode,l GMM )、隐马尔可夫模型(H i dden M arkov M ode ,l HMM )有更大的鲁棒性[9-10]。
本文采用直接对含噪语音提取稳健性的特征,把小波变换与美尔频率倒谱系数(M el F requency Cepstru m Coeffi c ient ,M FCC )的提取相结合,并将改进后的特征与有效反映语音亮度信息的短时傅里叶幅度谱的质心特征进行了组合,提出了一种新的组合特征参数 美尔频率小波变换系数+谱质心(M e l F requency W ave let T ransfo r m Coe fficient +Spectra l C entro i d ,M F W TC+SC)。
基于矢量量化识别算法,将此组合特征应用于50个说话人的文本无关的辨认系统,并在不同信噪比环境下进行说话识别仿真实验,与传统的组合特征提取方法进行了比较和分析。
实验结果表明本文所提出的M FW TC+SC 的组合特征能有效提高说话人识别系统在噪声环境下的识别性能。
1 M F WTC +SC 组合特征提取算法1.1 小波变换小波变换(W ave let T ransfor m,W T )是近年来用于信号处理的一种新方法,采用多分辨分析,非均匀地划分时频空间,具有在时间 频率域的分辨率可随频率的变化而变化的优点,有很好的定位性质。
小波的这种特性使之成为分析非平稳信号的一种有效手段,而语音信号正是非平稳信号。
目前,第30卷第10期2010年10月计算机应用Journal o f Computer A pp licati onsV o.l 30N o .10O ct .2010有很多人将小波变换用于说话人识别,并且在噪声环境下也取得了比较好的效果[11-13]。
小波分析的时域和频域的局部变换特性,与语音信号的 短时平稳!特点正好吻合,因此可以将其用于语音信号中进行有效特征信息的提取。
离散小波变换的离散平滑逼近递推公式为:x (j)k =∀n h(n -2k )#x (j-1)k (1)离散细节信号递推公式为:d (j )k =∀nh1(n -2k )#x (j-1)k (2)其中:h 0(k )=12∃ t 2 *(t-k )d t (3)h 1(k )=12∃t 2 *(t -k )d t (4)1.2 M F W TC 的提取目前在说话人识别中,比较常用的特征参数主要是线性预测倒谱系数(L inear P red i ction Cepstru m Coeffic i ent ,LPCC )和M FCC [14]。
与基于线性预测的LPCC 参数相比,M FCC 参数的突出优点是不依赖全极点语音产生模型的假定,考虑了人耳的听觉感知特性,抗噪声和抗频谱失真能力较强,从而能提高识别系统的性能。
如图1所示,传统的M FCC 提取过程采用的是离散余弦变换(D iscrete Cosine T ransfor m,DCT ),而小波分析具有时域和频域的局部变换特性,因此将离散小波变换(D i scre teW ave l e t T ransfor m,D W T )替代DCT 用于语音特征的提取,得到M FW TC 。
图1 M FCC 参数的提取M F W TC 参数的具体实现过程如下。
1)将信号进行分帧、预加重和加汉明窗处理,然后进行快速傅里叶变换(F ast Four i er T ransfor m,FFT )并得到其频谱。
2)求出频谱平方,即能量谱,并用M 个M el 带通滤波器进行滤波,每个滤波器具有三角形或正弦形滤波特性;由于每一个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k 个滤波器输出功率谱为x %(k )。
3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;再进行离散小波变换,得到M FWTC 系数。
1.3 谱质心的提取亮度是反映音色的重要属性之一,能较好地反映声音的高频特性,所以亮度是分析音频信号高频部分的重要参数。
比如将手指放于嘴边说话时就减小了其亮度。
亮度与基音频率有关,但在任何时刻均大于基音估计。
实际计算中,亮度通常是用短时傅里叶幅度谱的质心(谱质心)表示[15]。
谱质心即频谱各分量幅度值的加权平均,计算公式为:C i =∀Nn =1Ai[n ]&n∀Nn=1A i[n](5)其中:A i [n]是第i 帧的第n 条谱线的幅度值,C i 为第i 帧的谱质心。
一般来说,人能从声音的音色、频率的高低、能量的大小等各种信息中感知说话人的个性,所以推测,可以利用多种特征的有效组合来得到比较稳定的识别性能。
而且目前已经有一些研究是基于组合特征进行说话人识别的[3,16],并且取得了比较好的效果。
本文提出了美尔频率小波变换系数+谱质心(M F W TC+SC)的组合特征。
2 基于矢量量化的说话人识别模型说话人识别的基本原理就是为每一个说话人建立一个能够描述这一说话人语音特征的模型,不同的说话人语音特征模型结构对应不同的说话人模式匹配方法。