语音信号特征参数的提取
- 格式:doc
- 大小:34.50 KB
- 文档页数:6
语音识别系统中的语音特征提取与分析语音识别是一种将人类语音转化为可理解的文本或命令的技术。
它在现代人机交互、智能助理和语音控制等领域起到了至关重要的作用。
而语音识别系统中的语音特征提取与分析是实现准确识别的基础。
本文将介绍语音特征提取与分析的方法和技术,并探讨其在语音识别系统中的应用。
首先,了解什么是语音特征提取与分析是十分重要的。
语音是一种波形信号,它包含了大量的信息,如声音的频率、强度和持续时间等。
而语音特征提取与分析的目标是从这些信息中提取出对语音识别任务有意义的特征,并将其用于模型训练和分类。
在语音特征提取过程中,最常用的方法是MFCC(Mel Frequency Cepstral Coefficients)特征提取法。
MFCC将语音信号分解成一系列频谱包络的倒谱系数,以及包络系数的动态特征,如一阶差分和二阶差分。
通过这种方式,MFCC在一定程度上模拟了人类听觉系统对声音的感知方式,提高了语音识别的准确度。
在语音特征分析过程中,常见的方法有语音信号的能量计算、过零率分析、音高分析和共振峰跟踪等。
语音信号的能量计算可以用于判断语音信号的强度和音量,而过零率分析可以用于判断语音信号的连续性和浊音音素的位置。
音高分析可以提取语音信号的基频信息,用于音高判断和声调识别。
而共振峰跟踪方法则可以提取语音信号中的共振峰频率和带宽信息,用于语音的声道特征分析。
除了MFCC和上述方法外,还有一些其他的语音特征提取和分析方法也被广泛应用于语音识别系统中。
例如,短时能量、短时过零率、倒谱包络和线性预测编码等方法也被用于语音特征提取。
而自动化语音识别系统中的声学模型通常使用动态时间规整(DTW)和隐马尔可夫模型(HMM)等算法进行特征匹配和分类。
在实际应用中,语音特征提取与分析在语音识别系统的各个环节中发挥着关键的作用。
首先,它可以用于预处理阶段,提高原始语音信号的质量和可识别性。
例如,噪声抑制和语音增强技术能够降低环境噪声对语音识别的影响。
语音识别的特征提取方法语音识别技术是指通过计算机技术将人的语音信息转化为可识别和理解的文本或指令的过程。
而在实现语音识别的过程中,特征提取是其中至关重要的一步。
本文将介绍一些常用的语音识别特征提取方法。
1. 短时能量和过零率特征短时能量指的是在一段时间内短时信号的能量大小,它可以用来描述信号的音量大小。
过零率是信号穿过零点的次数,可以用来描述信号的频率特性。
短时能量和过零率特征可以用来区分不同音频信号的语音信息。
2. 梅尔频率倒谱系数(MFCC)MFCC被广泛应用于语音识别领域。
它首先将声音信号通过傅里叶变换转换为频域信号,然后将频域信号转换为梅尔倒谱系数。
MFCC特征具有良好的频率表示能力和语音识别性能。
3. 线性预测编码系数(LPC)LPC是一种常用的短时语音信号建模方法,通过对语音信号进行分帧处理,利用线性预测分析法得到线性预测滤波器的系数。
LPC特征可以表示语音信号中的共振特性,用于说明语音信号的声道特性。
4. 倒谱谱分析(LPCC)LPCC是在LPC基础上进一步改进的一种特征提取方法。
它通过对信号的小波包分解来提取倒谱系数,具有更好的频率表示能力和高分辨率。
5. 线性离散预测(LDA)LDA是一种经典的特征降维方法,被广泛应用于语音识别任务中。
它通过最大化类内散度和最小化类间散度的方式将高维特征映射到低维空间,以提高分类效果和减少计算复杂度。
6. 隐马尔科夫模型(HMM)HMM是一种概率模型,用于描述序列数据中的潜在状态和状态之间的转移关系。
在语音识别中,HMM被广泛用于建模语音的时域演化过程,同时结合上述特征提取方法,实现对语音信号的自动识别。
总结起来,语音识别的特征提取方法包括短时能量和过零率特征、MFCC、LPC、LPCC、LDA以及HMM等。
这些方法在实际应用中相互结合,共同构建一个准确、高效的语音识别系统。
随着深度学习等技术的发展,也出现了一些基于神经网络的特征提取方法,如深度神经网络和循环神经网络等。
华南理⼯⼤学_语⾳信号实验四:MFCC特征提取华南理⼯⼤学《语⾳信号处理》实验报告实验名称:端点检测姓名:学号:班级:11级电信7班⽇期:2014年3 ⽉1.实验⽬的1、熟练运⽤MATLAB软件进⾏语⾳信号实验;2、熟悉短时分析原理、MFCC的原理;3、学习运⽤MATLAB编程进⾏MFCC的提取;4、学会利⽤短时分析原理提取MFCC特征序列;2. 实验原理MFCC:语⾳识别和说话⼈识别中,常⽤的语⾳特征是基于Mel频率的倒谱系数(即MFCC)。
MFCC参数是将⼈⽿的听觉感知特性和语⾳的产⽣机制相结合。
Mel频率可以⽤如下公式表⽰:在实际应⽤中,MFCC倒谱系数计算过程如下;①将信号进⾏分帧,预加重和加汉明窗处理,然后进⾏短时傅⾥叶变换并得到其频谱。
②求出频谱平⽅,即能量谱,并⽤M个Mel带通滤波器进⾏滤波;由于每⼀个频带中分量的作⽤在⼈⽿中是叠加的。
因此将每个滤波器频带内的能量进⾏叠加,这时第k个滤波器输出功率谱③将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进⾏反离散余弦变换,得到L个MFCC系数,⼀般L取12~16个左右。
MFCC系数为④将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做⼀阶和⼆阶差分,得到相应的动态特征。
3.实验数据及平台本实验所采⽤的数据是语⾳⽂件phrase.WAV和monologue speech_female,平台是MATLAB。
4. 实验过程(步骤)(1)实验步骤①输⼊样本⾳频②给样本⾳频预加重、分帧、加窗③将处理好的样本⾳频做傅⾥叶变换④进⾏Mel频率滤波⑤进⾏Log对数能量⑥对样本求倒谱⑦输出MFCC图像(2)、MFCC提取程序流程图5. 实验结果及讨论运⾏附录程序,得到的结果为:1、采⽤语⾳⽂件phrase.WAV,得到的MFCC特征提取图像为:2、采⽤语⾳⽂件monologue speech_female.wav,得到的MFCC特征提取图像为:通过计算MFCC参数,获得了声纹识别的特征参数。
⼀些常⽤的语⾳特征提取算法前⾔语⾔是⼀种复杂的⾃然习得的⼈类运动能⼒。
成⼈的特点是通过⼤约100块肌⾁的协调运动,每秒发出14种不同的声⾳。
说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,然后识别说话⼈的能⼒。
特征提取是通过将语⾳波形以相对最⼩的数据速率转换为参数表⽰形式进⾏后续处理和分析来实现的。
因此,可接受的分类是从优良和优质的特征中衍⽣出来的。
Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散⼩波变换(DWT)和感知线性预测(PLP)是本章讨论的语⾳特征提取技术。
这些⽅法已经在⼴泛的应⽤中进⾏了测试,使它们具有很⾼的可靠性和可接受性。
研究⼈员对上述讨论的技术做了⼀些修改,使它们更不受噪⾳影响,更健壮,消耗的时间更少。
总之,没有⼀种⽅法优于另⼀种,应⽤范围将决定选择哪种⽅法。
本⽂主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散⼩波变换(DWT),感知线性预测(PLP)1 介绍⼈类通过⾔语来表达他们的感情、观点、观点和观念。
语⾳⽣成过程包括发⾳、语⾳和流利性[1,2]。
这是⼀种复杂的⾃然习得的⼈类运动能⼒,在正常成年⼈中,这项任务是通过脊椎和颅神经连接的⼤约100块肌⾁协调运动,每秒发出⼤约14种不同的声⾳。
⼈类说话的简单性与任务的复杂性形成对⽐,这种复杂性有助于解释为什⼳语⾔对与神经系统[3]相关的疾病⾮常敏感。
在开发能够分析、分类和识别语⾳信号的系统⽅⾯已经进⾏了⼏次成功的尝试。
为这类任务所开发的硬件和软件已应⽤于保健、政府部门和农业等各个领域。
说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,并在[4]之后识别说话⼈的能⼒。
说话⼈的识别执⾏的任务与⼈脑执⾏的任务类似。
这从语⾳开始,语⾳是说话⼈识别系统的输⼊。
⼀般来说,说话⼈的识别过程主要分为三个步骤:声⾳处理、特征提取和分类/识别[5]。
人工智能语音特征提取概述人工智能(Artificial Intelligence, AI)是指利用计算机技术与方法,模拟、延伸和扩展人的智能。
语音特征提取是人工智能领域中的一个重要研究方向,它通过分析语音信号中的特征参数,实现对语音内容的自动识别与理解。
本文将介绍人工智能语音特征提取的基本概念、常用方法及应用领域。
一、语音特征提取的基本概念语音特征提取是一种从语音信号中提取有效信息的方法,用于描述语音的重要特征。
语音信号是由许多声音波形组成的,其中包含了人的声音、背景噪声等信息。
为了实现对语音内容的自动识别与理解,需要从语音信号中提取出与语音内容相关的特征参数。
常用的语音特征包括时域特征和频域特征。
时域特征是指根据语音信号的波形形状、振幅和持续时间等参数来描述语音特征;频域特征是指根据语音信号的频谱分布、频率成分和能量分布等参数来描述语音特征。
二、语音特征提取的常用方法在人工智能领域,有多种方法可以用于提取语音特征。
以下是其中几种常用的方法:1. 短时傅里叶变换(Short-Time Fourier Transform, STFT)短时傅里叶变换是一种将语音信号从时域转换到频域的方法。
它将语音信号分割成多个短时片段,并对每个片段进行傅里叶变换,得到对应的频谱图。
通过分析频谱图的频率成分和能量分布,可以提取出与语音内容相关的频域特征。
2. 线性预测编码(Linear Predictive Coding, LPC)线性预测编码是一种基于自回归模型的语音信号分析方法。
它通过对语音信号进行线性预测,得到预测残差序列,并将预测残差序列进行压缩编码。
通过分析预测残差序列的频谱分布和自相关性,可以提取出与语音内容相关的线性预测参数。
3. 倒谱系数(Cepstral Coefficients)倒谱系数是一种通过对语音信号的频谱进行倒谱变换得到的特征参数。
倒谱系数可以反映语音信号的共振特性和谐波结构,对于语音识别和语音合成等任务具有重要作用。
语音识别是人工智能领域的一个重要应用,它涉及到对语音信号的预处理和特征提取。
预处理和特征提取是语音识别中的关键步骤,它们的质量直接影响着语音识别的准确性和性能。
以下是关于语音识别中的语音信号预处理和特征提取优化的几点建议:一、语音信号预处理1. 信号采集:使用高质量的麦克风或者语音拾取设备进行语音采集,保证信号的纯净性和稳定性。
2. 噪声消除:对于来自环境或其他设备的噪声,需要进行适当的噪声消除处理。
可以使用数字滤波器、噪声掩蔽等技术进行噪声消除。
3. 采样率转换:对于不同采样率的数据,需要进行采样率转换,以保证数据的统一性和可处理性。
4. 增益控制:对语音信号的增益进行适当的控制,以保证信号的动态范围,避免过载或不足。
二、特征提取优化1. 短时傅里叶变换(STFT):STFT是一种常用的语音特征提取方法,可以将时域的语音信号转换为频域的特征向量。
通过调整窗口大小和重叠长度,可以提高特征的准确性和鲁棒性。
2. 梅尔频率倒谱系数(MFCC):MFCC是一种基于人类听觉特性的特征提取方法,它可以反映语音的纹理和情感。
通过优化MFCC的计算方法,可以提高特征的稳定性和准确性。
3. 深度学习特征:近年来,深度学习技术在语音识别领域得到了广泛应用。
通过使用深度学习模型(如卷积神经网络)对语音信号进行特征提取,可以获得更加复杂和有效的特征向量。
这些特征向量可以更好地捕捉语音的内部结构和模式。
4. 特征选择和优化:选择适合特定应用场景的特征组合,可以提高特征的准确性和性能。
同时,对特征进行适当的归一化、平滑等处理,可以提高特征的可解释性和稳定性。
三、优化流程1. 实验验证:通过实验验证不同的预处理和特征提取方法的效果,选择最适合特定应用场景的方法。
2. 参数调整:根据实验结果,对预处理和特征提取过程中的参数进行适当的调整,以提高性能。
3. 评估指标:使用准确率、召回率、F1得分等评估指标来评估语音识别的性能,并根据评估结果进行优化。
语音识别中的特征提取和模型训练技术研究语音识别是指通过计算机技术对人类语音信号进行自动识别,在语音识别技术的研究中,特征提取是非常重要的一个环节,而模型训练则是实现语音识别的核心技术之一。
一、特征提取特征提取是将语音信号转换为机器可识别的特征参数的过程。
语音信号是一种时间序列信号,需要对信号进行分析和处理,主要有两个方面的内容:时域特征和频域特征。
时域特征包括基音周期、能量、过零率、短时平均幅度等;频域特征包括倒谱系数、线性预测系数等。
常见的特征提取方法有短时傅里叶变换(STFT)、梅尔倒谱系数(MFCC)等。
其中,MFCC 特征提取方法是最常用的方法之一,它可以很好地处理语音信号的宽频带特性,有效地减少了不必要的噪声和冗余信息。
二、模型训练模型训练是指通过大量有标注的语音数据来训练一种具有泛化能力的语音模型。
模型训练主要分为三个步骤:数据集准备、模型构建和学习,以及性能测试。
1.数据集准备语音模型的训练需要大量的语音数据,因此需要生成或采集一定数量的语音数据,并进行标注。
语音数据的标注需要有人工标注或者自动标注两种方式,人工标注需要人工录入标注信息,自动标注则可以通过一些特定算法来实现。
2.模型构建与学习在语音模型的构建过程中,需要选择合适的模型结构和训练算法。
常见的模型结构有隐马尔可夫模型(HMM)、循环神经网络(RNN)等。
HMM 是最常用的模型结构之一,它通过将语音信号看作一系列离散状态的观测序列,学习这些状态之间的转移概率和观测概率。
RNN 可以很好地处理时序数据的连续性和相关性,具有更好的建模能力。
在模型学习过程中,需要选择合适的优化算法和损失函数,其中常用的优化算法有随机梯度下降法(SGD)、自适应随机梯度下降法(AdaGrad)、动量算法(Momentum)等,常用的损失函数有交叉熵损失函数、均方误差(MSE)损失函数等。
3.性能测试在模型训练完毕后,需要进行性能测试,以评估模型的准确性和泛化能力。
语音识别中的声音特征提取技术使用教程语音识别技术是指通过计算机对人的语音进行转化和识别的过程。
而声音特征提取技术则是语音识别过程中最为关键的一步,它能将语音信号转化为一系列用于表示和区分语音的特征参数。
本文将介绍语音识别中常用的声音特征提取技术,并给出使用教程。
一、声音特征提取技术的基本概念声音特征提取是指从语音信号中提取出具有代表性的特征参数,用于语音识别系统中的模式匹配和分类。
声音特征提取技术主要包括时域分析、频域分析和倒谱分析。
1. 时域分析:时域分析是对语音信号在时间上的变化进行分析。
常用的时域特征包括短时能量、过零率等。
- 短时能量反映了语音信号在短时间内的能量变化,可以通过计算语音信号在一段时间内的平方和来得到。
- 过零率指的是语音信号穿过零点的频率,用于表示语音信号的边界、浊音与清音的切换等信息。
2. 频域分析:频域分析是对语音信号在频率上的变化进行分析。
常用的频域特征包括短时傅里叶变换(STFT)和Mel频率倒谱系数(MFCC)等。
- STFT可以将语音信号从时域转换到频域,得到语音信号的频谱特征。
常用的频谱特征包括短时功率谱、梅尔频率倒谱系数等。
- MFCC是目前应用最广泛的声音特征提取方法之一,它是一种将声音信号转换为频谱特征的技术。
3. 倒谱分析:倒谱分析是指将语音信号的频谱包络提取出来,并进行进一步的处理。
常用的倒谱特征包括倒谱系数、倒谱包络等。
二、使用教程1. 使用Python实现声音特征提取Python是一种功能强大且易于学习的编程语言,它提供了丰富的音频处理库。
以下是使用Python实现声音特征提取的简单教程:首先,我们需要安装一些Python库,如Librosa、NumPy和Matplotlib。
可以通过以下命令进行安装:```pip install librosa numpy matplotlib```然后,我们可以通过以下代码实现声音特征提取:```pythonimport librosaimport numpy as npimport matplotlib.pyplot as plt# 读取音频文件audio_path = 'path_to_audio_file.wav'signal, sr = librosa.load(audio_path, sr=None)# 提取MFCC特征mfccs = librosa.feature.mfcc(signal, sr=sr, n_mfcc=13)# 可视化MFCC特征plt.figure(figsize=(10, 4))librosa.display.specshow(mfccs, x_axis='time')plt.colorbar()plt.title('MFCC')plt.tight_layout()plt.show()```2. 使用开源工具进行声音特征提取除了自己实现声音特征提取的代码,还可以使用一些开源工具来简化这个过程。
语音特征参数MFCC的提取及识别耳蜗实质上相当于一个滤波器组,耳蜗的滤波作用是在对数频率尺度上进行的,在1000HZ下,人耳的感知能力与频率成线性关系;而在1000HZ以上,人耳的感知能力与频率不构成线性关系,而更偏向于对数关系,这就使得人耳对低频信号比高频信号更敏感。
Mel频率的提出是为了方便人耳对不同频率语音的感知特性的研究。
频率与Mel频率的转换公式为:MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术语音识别系统的性能有一定提高。
MFCC参数的提取1、预加重处理预加重处理其实是一个高通滤波器,该高通滤波顺的传递函数为:其中的取值为0.97,该高通滤波器作用是滤去低频,使语音信号的高频特性更加突现。
2、分帧及加窗处理由于语音信号只在较短的时间内呈现平稳性(一般认为10-30ms),因此将语音信号划分为一个一个的短时段即一帧。
同时为避免丢失语音信号的动态信息,相邻帧之间要有一段重叠区域,重叠区域一段为帧长的1/2或1/3。
然后再将每帧乘上窗函数,以增加每帧左端和右端的连续性。
3、各帧信号的FFT变换对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱。
并对语音信号的频谱取模平方得到语音信号的功率谱。
4、三角滤波器系数的求取定义若干个带通三角滤波器(k),0<=m<=M,M为滤波器个数,其中心频率为f(m),每个带通三角滤波器的频率响应为且满足Mel(f(m))-Mel(f(m-1))=Mel(f(m+1))-Mel(f(m))求得滤波系数为m(i),i=1,…,p,p为滤波器阶数5、三角滤波并进行离散余弦变换DCTC(i)即为所要求提取的特征参数。
特征参数的识别特征参数的识别主要采用BP神经网络算法进行预测,而在预测前需要用一定数量的样本对网络进行训练,使网络具有联想记忆和预测能力。
网络训练步骤如下:(1)网络初始化。
确定网络输入层、隐层、输出层数目,输出层到隐层的连接权值及隐层到输出层的连接权值,同时初始化隐层阈值a和输出层阈值b;(2)隐层的输出计算。
学院:信电学院班级:电信102 姓名:徐景广学号:2010081261课程:专业综合实验实验日期:2014年1 月 3 日成绩:实验二、语音信号时域特征参数提取一、实验目的1.掌握利用matlab程序进行语音信号的录制与回放。
2.理解语音信号的时域特征参数的概念,如短时能量、短时过零率等。
3.掌握matlab的开发环境。
4.掌握对语音信号进行时域特征参数提取的方法。
二、实验原理本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果。
1.窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。
在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。
我们将每个短时的语音称为一个分析帧。
一般帧长取10~30ms。
我们采用一个长度有限的窗函数来截取语音信号形成分析帧。
通常会采用矩形窗和汉明窗。
图1.1给出了这两种窗函数在帧长N=50时的时域波形。
学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:0.20.40.60.811.21.41.61.82矩形窗samplew (n )0.10.20.30.40.50.60.70.80.91hanming 窗samplew (n )图1.1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下{1,00,()n Nw n ≤<=其他hamming 窗的定义:一个N 点的hamming 窗函数定义为如下0.540.46cos(2),010,()n n NN w n π-≤<-⎧⎨⎩其他=这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
语音信号特征参数的提取
摘要语音识别是指让计算机通过识别和理解把语音信号转变为具有人类听觉功能的机器,以便可以直接听懂人讲的话,并且做出相应的反应。
语音识别技术是语音信号处理领域的一项关键技术,近年来正逐步成为信息技术当中人机接口部分的关键技术,语音识别技术和语音合成技术的有机结合,使人们可以弃用键盘,通过语音命令直接进行操作。
语音识别就是利用智能设备自动识别语音信息的技术,有广义和狭义之分。
广义上是指识别出语音中对于我们“感兴趣的内容”。
狭义上的语音识别技术指的是以较高的准确率识别出语音信号所表达的意思。
关键词语音信号;语音识别;特征参数
中图分类号tn912 文献标识码a 文章编号 1674-6708(2011)57-0228-02
1 语音学概述
1.1 汉语的音素、音节和音调
我们发现依据人类声音产生的机制,由于激励方式的不同会形成清音和浊音两种不同的语音。
由这两种语音又可以组合成两种不一样音素:元音及辅音。
构成语音的最小单位是音素。
元音由不相同的口腔形状发声而形成,辅音的形成由发声的部位以及发声的方法决定。
音节是构成汉语的最小单位。
我们所说的音节指的是一个元音
加上一或两个辅音所构成的音素的组合。
汉语当中包括以下4种音节,即:元音、元音+辅音、辅音+元音,辅音+元音+鼻音。
一般汉语可以简单划分为声母+韵母两个部分。
音节前部分的辅音称之为声母,元音和元音后面有时候出现的鼻音称之为韵母。
汉语可认为是一种声调语言,根据声调的不同所表达的意思很可能完全不一样,汉语共有阴平、阳平、上声及去声四种声调。
而声调的变化可以看成浊音周期的变化。
声调曲线从韵母起始点至韵母的终止点。
1.2 语音信号的数学模型
语音的产生是因为声道激励发生共振,因为发声过程中声道是振动的,所以能够用一个时变线性系统来描述。
可以用如图1所示描述语音生成模型。
由图1可知一个完整的语音信号模型由激励模型、声道模型、及辐射模型三个子模型串联而成。
激励模型由浊音激励与清音激励组成。
对清音部分来说,激励信号等同于白噪声,而对于浊音部分来说,因为声带在不断地张开与闭合,所以会有间隙性的脉冲波产生。
共振峰模型是当前广泛使用的一种声道模型。
声道的终端是人类口与唇,速度波通过声道输出,然而语音信号是一种声压波。
2语音信号的前端处理
为了得到我们所需要的信号,须先对模拟语音信号进行数字化,接着进行预处理与加窗。
2.1 语音信号的数字化
为将模拟语音信号转变为数字信号,先对信号进行采样与量化。
在采样与量化之前,须进行语音信号的预滤波,其目的在于:第一,滤除高频噪声;第二,防止50hz的工频干扰。
2.2 语音信号的预处理与加窗
因为语音信号的平均功率受到鼻辐射以及声门激励的很大影响,因此在语音信号频谱的求取时,随着频率的增高相应的响应成分越小,也就是说高频部分频谱比起低频部分来不够精确,为此我们需要对信号进行预加重。
为了平滑频域信号,使得信号处理的后面阶段对有限长响应不那么敏感,通常情况下让数字语音信号通过一个低阶的系统。
目前广泛使用的是固定的一阶数字滤波器,即h(z)=1-az-1
式中a为预加重系数,通常取值0.95左右。
因为语音信号的特性是随时间变化的,而非平稳过程,但由于人的发音器官的肌肉运动速度比较慢,因此可以认为语音信号是个局部的短时平稳的信号。
因此,我们对对语音信号进行分帧加窗的处理。
通常情况下语音信号帧长取为10ms~30ms,每秒帧数约为
33~100,分帧可以是连续的,有可以是交叠分段的,在语音信号的分析当中常用“短时分析”来表述。
我们一般采用窗函数来乘语音信号,常用的窗函数是hamming窗。
hamming窗函数是:
2.3 语音信号的端点检测
端点检测指的是找出语音信号中的各段落的起始点以及终止点的位置。
语音信号的时域处理方法包括:短时平均幅度、短时能量、短时过零率以及短时自相关。
端点检测一般要用到语音信号的短时能量以及短时平均过零率两中参数。
短时能量en的最主要作用是:区分清音与浊音、区分声母与韵母的分界、无声与有声的分界、连字的分界以及能够用于进行语音识别。
“过零率”指的是在单位时间内信号通过零的次数。
短时过零率z(m)是用来描述频谱的简单有效的方法之一,计算公式如下:在短时处理技术中,描述一个随机信号的其中一个重要特征是自相关函数rn,可以用自相关函数区分清音与浊音,计算公式如下:短时频域处理作为语音信号处理的基本方法之一。
短时频域处理适合缓慢变化的语音信号。
第m帧的短时傅立叶变换计算式如下:3语音特征参数提取
在完成语音信号的预加重、分帧、及端点检测之后,下一步关键的是提取特征参数。
我们不可能直接识别原始波形,语音信号需要经过变换,提取出其特征参数后再进行识别,特征参数需要满足:反映语音的本质、参数个分量之间耦合尽量小、参数的提取方便等几方面的要求。
目前语音识别中线性预测倒普参数lpcc、美尔倒普参数mfcc使两种较为常用的参数。
lpcc利用线性预测编码技术求取倒普参数。
mfcc则构造人的听觉模型,以语音信号经过该模型的
输出值作为声学特征,直接利用离散傅里叶变换得到。
3.1 线性预测倒普参数lpcc的提取
线性预测分析是语音特征分析方法之一,能够有效的解决短时语音信号的模型化问题。
lpcc的基本原理:语音信号的每个样值可以通过过去的若干个值的线性组合逼近求得,也能够用实际语音信号的抽样与线性预测的均方差值最小的方式,求出一组预测值。
其中a为加权系数,p为线性预测倒普参数的预测阶数。
lpcc系数表示的是语音信号频谱极值点的变化,用该系数来表征语音信号,能够获得比较平滑的语音频谱图。
3.2 美尔倒普参数mfcc的提取
mfcc参数与lpcc参数不同,它考虑了人耳的听觉特性,先将频谱转变为美尔频标的非线性频谱,接着再转换到倒普域上。
因为mfcc比较地充分考觉特性,所以mfcc参数有很好的识别性能与抗噪能力。
由测试可得,mfcc参数性能在汉语语音识别中要明显优于lpcc参数,由于人类在对1 000hz频率以上的声音的感知能力并不遵循通常的线性关系,它遵循的是对数频率坐标上的线性关系。
mfcc计算步骤如下:
首先,语音信号在经过预处理、分帧加窗后转变为短时信号,经过fft变换将x(n)转化为x(m),并计算出其短时能量谱p(f)。
在将p(f)在频率轴上的频谱转化为在美尔坐标上的p(m)。
接着在美尔频域内将在美尔坐标上加入三角带通滤波器得到滤波器组
hm(k),再计算美尔坐标上的能量谱p(m)通过该滤波器组的输出值。
最后在美尔刻度谱上能够采取修改的离散余弦反变换来求取美尔
倒普参数:
4结论
本文主要介绍了语音学的基础知识、语音信号的数字化及其特征提取,为语音模型的训练做了很好的铺垫。
在计算机普及的今天能够让计算机识别出人的自然语言是人们一直努力的一个方向,对计算机直接用语言信息发号施令,我们的双手才能真正得到解放。
参考文献
[1]胡航.语音信号处理.2版.哈尔滨:哈尔滨工业大学出版社,2002:256.
[2]刘幺和,宋庭新.语音识别与控制应用技术.北京:科学出版社,2008:201.
[3]易克初.语音信号处理.北京:国防工业出版社,2000,14:363.
[4]李波,王成友,杨聪,等.基于语音频谱包络抽取的mfcc算法.长沙:国防科技大学学报,2004.
[5]桂苹,吴镇扬,赵力,等.基于vq的说话人自动识别系统的实现[d].东南大学,2003.。