声音识别模型
- 格式:doc
- 大小:1.59 MB
- 文档页数:35
语音识别模型及其应用研究近年来,随着人工智能技术的发展和普及,语音识别技术受到了广泛的关注和应用,尤其在智能家居、智能客服、语音搜索等领域得到了广泛应用。
本文将从语音识别技术的原理、模型及其应用研究等方面进行探讨,希望能给读者带来一些启发和帮助。
一. 语音识别技术原理语音识别技术是指通过计算机系统实现对人类语音信号的自动识别和转录。
它包括进行信号预处理、特征提取和声学模型匹配等处理过程。
具体来说,它需要通过录音设备采集语音信号,并将其转化成一个数字信号。
然后,通过一系列算法处理数字信号,获得语音信号的特征向量。
最后,通过声学模型对特征向量进行匹配,得到相应的文字输出。
二. 语音识别模型1. 隐马尔可夫模型(HMM)隐马尔可夫模型(HMM)是一种常见的语音识别模型。
它通过对声学特征的建模,将语音信号分解成小的时间区间,称为帧。
每一帧被视为是某个隐藏状态的实现。
这些隐藏状态组成了HMM 的状态序列,可以通过Viterbi算法进行计算。
通过优化HMM的参数和模型结构,可以提高语音识别的准确度和鲁棒性。
2. 深度神经网络(DNN)深度神经网络(DNN)是在语音识别中近年来出现的一种新的模型。
它将输入的声学特征映射到一个高维空间中,然后通过多个隐藏层的非线性变换将其映射到最终输出。
DNN模型可以通过大规模语音数据的训练来提高识别准确率和鲁棒性。
3. 卷积神经网络(CNN)卷积神经网络(CNN)是一种常用的神经网络,在语音识别模型中也得到了广泛应用。
它通过多个卷积层和池化层来学习输入特征的不同尺度和抽象层次表达,从而提高语音识别的准确度和鲁棒性。
三. 语音识别应用研究1. 智能家居智能家居是指通过语音识别技术实现对家庭设备和家庭环境的智能控制和监控。
例如,用户可以通过语音命令控制灯光、空调、电视等设备的开关和模式。
此外,智能家居还可以通过语音识别技术实现家庭安防与环境监控。
例如,用户可以通过语音识别技术实现门禁系统的身份认证和安防监控。
声纹识别中的神经网络模型构建和训练声纹识别是一种基于个体声音特征进行身份验证和识别的生物特征识别技术。
与传统的生物特征识别技术相比,声纹识别具有不可伪造性、可靠性和便捷性等优势,因此在安全领域、金融领域和智能手机等设备的解锁系统中得到了广泛的应用。
而神经网络模型在声纹识别中的构建和训练是实现高准确率和高鲁棒性的关键因素之一。
本文将探讨声纹识别中神经网络模型构建和训练的相关技术与方法。
一、声纹特征提取在构建神经网络模型之前,首先需要对声音进行特征提取,将其转化为可以用于训练和分类的数值表示。
常用的声纹特征提取方法包括MFCC(Mel频率倒谱系数)和PLP(Perceptual Linear Prediction)等。
MFCC是一种基于人类听觉感知原理设计的频谱参数表示方法,它首先将语音信号进行预加重处理,然后通过傅里叶变换将语音信号转化为频谱图,并对频谱图进行滤波处理得到梅尔频谱图,最后再对梅尔频谱图进行离散余弦变换得到MFCC系数。
MFCC系数具有对人耳敏感的特性,能够有效地表达语音的语音特征。
PLP是一种基于线性预测分析的声纹特征提取方法,它通过对语音信号进行线性预测分析得到线性预测系数,然后通过频率域平滑和非线性变换得到PLP系数。
与MFCC相比,PLP具有更好的频率分辨能力和抗噪声能力。
二、声纹识别神经网络模型神经网络模型是实现声纹识别的核心部分。
常用的神经网络模型包括多层感知机(MLP)、卷积神经网络(CNN)和循环神经网络(RNN)等。
MLP是一种最基本的前馈式神经网络模型,它由多个全连接层组成,每个全连接层都有多个节点。
MLP通过前向传播将输入信号逐层传递至输出层,并通过反向传播算法来调整各层之间的权重和偏置值。
然而,在声纹识别中,由于声音信号具有时序信息,并且不同人之间存在时长差异,因此MLP模型无法充分利用这些信息。
CNN是一种特别适用于图像处理和序列数据处理的神经网络模型,它通过卷积层和池化层的组合来提取输入数据的特征,并通过全连接层进行分类。
声音识别AI技术中的声音识别模型与声音分析声音识别AI技术是指利用人工智能技术对声音进行识别和分析的一种技术应用。
声音作为一种重要的信息载体,可以传递出丰富的信息内容。
在现代社会中,声音识别AI技术已经得到广泛应用,例如语音助手、语音识别系统、语音翻译等。
而声音识别模型与声音分析则是声音识别AI技术中的核心环节。
本文将从声音识别模型和声音分析两个方面介绍声音识别AI技术。
一、声音识别模型声音识别模型是声音识别AI技术的基础,其目标是对不同声音进行识别分类。
声音识别模型的设计和应用通常遵循以下几个步骤:1. 数据采集:声音识别模型需要大量的训练数据来建立模型,因此首先需要采集大量的声音样本。
对于不同的应用场景,可以选择采集不同类型的声音样本,例如语音指令、自然语言交互等。
2. 特征提取:声音样本采集后,需要对其进行特征提取,以便于模型能够进行识别。
常用的特征提取方法包括短时傅里叶变换(STFT)和梅尔频谱系数(MFCC)等。
3. 模型训练:将提取到的声音特征与对应的标签进行训练,建立声音识别模型。
常用的模型包括隐马尔可夫模型(HMM)、循环神经网络(RNN)、卷积神经网络(CNN)等。
不同的模型有不同的优缺点,选择适合的模型对于声音识别的准确度至关重要。
4. 模型评估:训练完声音识别模型后,需要对其进行评估,以确保模型的准确性和稳定性。
评估标准可以包括识别准确率、召回率、误判率等。
二、声音分析声音分析是声音识别AI技术中的另一个重要环节,其目的是从声音信号中提取有用的信息。
声音分析可以包括音频信号处理、情感识别、语音转换等多个方面。
1. 音频信号处理:音频信号处理是声音分析的基础,其中包括降噪、滤波、增益控制等技术。
通过音频信号处理,可以提高声音信号的质量,减少噪音干扰,从而提高声音识别的准确度。
2. 情感识别:声音中蕴含着丰富的情感信息,通过对声音的分析可以识别出说话者的情感状态。
情感识别在语音识别、虚拟助手等应用中具有重要价值,可以更好地满足用户的需求。
wenet语音识别模型训练实例范文模板及概述1. 引言1.1 概述本文主要介绍了wenet语音识别模型训练实例的相关内容。
近年来,随着人工智能技术的快速发展,语音识别在各个领域中起到了重要作用。
WEnet是一种基于深度学习的语音识别模型,具有较高的准确性和鲁棒性。
本文旨在通过一个实例来展示如何使用WEnet模型进行语音识别任务的训练。
1.2 文章结构文章共分为五个部分。
首先是引言部分,对文章进行整体概述;然后是WEnet 语音识别模型训练实例的详细介绍,在该部分中将包括模型背景、数据准备与预处理以及训练算法与参数设置;接下来是实验结果与分析,包括性能评估指标、结果展示以及结果分析与讨论;之后是模型改进与优化策略,包括提升数据质量方法、超参数调优策略以及增加模型复杂度方法;最后是结论和展望部分,总结研究成果并探讨未来的研究方向。
1.3 目的本文旨在通过具体实例展示WEnet语音识别模型的训练过程和结果分析,帮助读者更好地理解该模型的特点和应用。
同时,本文还将探讨如何改进和优化模型,提出相应的方法和策略。
通过这篇文章,读者可以学习到在实际任务中使用WEnet模型进行语音识别的技巧,并为进一步研究和开发相关领域的应用奠定基础。
2. WEnet语音识别模型训练实例2.1 模型背景WEnet是一种用于语音识别的端到端模型,其特点是具有较高的性能和较快的训练速度。
该模型结合了卷积神经网络(CNN)和循环神经网络(RNN)的优势,并采用了深度学习技术进行训练。
2.2 数据准备与预处理在进行WEnet语音识别模型训练之前,需要对数据进行准备和预处理。
首先,收集大量的语音数据并进行筛选,确保数据具有代表性。
然后,对数据进行标注,即为每个语音样本添加相应的标签或文本信息。
接下来,对数据进行预处理,包括将语音信号转化为数字形式表示、切分成适当长度的片段等。
2.3 训练算法与参数设置在开始WEnet模型的训练之前,需要选择合适的训练算法和设置相应的参数。
语音识别中的隐马尔可夫模型语音识别是一种将声音信号转换为文本或其他符号的技术。
随着人工智能技术的不断发展,语音识别得到了越来越广泛的应用。
语音识别的原理是将输入的语音信号分解成若干个音素单元,并将它们组合成对应的单词,最终输出一段文本。
隐马尔可夫模型是语音识别中最为常用的模型之一。
它是一种描述一个系统在不同时间点转移的概率模型,可以用来对待识别语音的语音信号进行建模。
隐马尔可夫模型的核心思想是当前状态仅依赖于前一个状态,而后续状态的变化只受当前状态的限制。
隐马尔可夫模型包含三个基本元素:状态、观测值和转移矩阵。
状态表示当前模型处于的状态,观测值表示模型所接收到的输入信号。
转移矩阵则描述了模型从一个状态到另一个状态的转移过程。
通过观测到输入信号,就可以从当前状态确定下一个状态的概率,从而通过这一方式识别语音信号。
隐马尔可夫模型的优势在于其可以通过历史状态确定未来状态的概率,能够有效维护语音识别的连续性。
同时,隐马尔可夫模型的复杂度也较低,容易进行调整和优化。
然而,隐马尔可夫模型也存在着一些局限性。
由于每个状态的输出只在时间上与该状态相关,因此该模型无法考虑到音素之间的上下文信息。
这导致了语音识别中识别率的局限,且难以有效解决部分可变的音素。
为了解决这些问题,一种名为深度学习的模型已经开始被广泛使用。
深度学习模型采用了更加复杂的神经网络,通过学习大量的标注数据,可以更加准确地模拟人类的声音识别过程,从而提高识别率。
综上所述,隐马尔可夫模型是一种在语音识别领域广泛使用的模型,其优势在于其简单易用,可以处理连续性问题。
但是隐马尔可夫模型也存在着一些局限性,缺乏上下文信息导致难以识别部分可变的音素。
因此,深度学习模型正在逐渐成为语音识别的主流技术。
使用AI技术进行声音和图像识别的步骤近年来,人工智能(Artificial Intelligence,简称AI)技术在各个领域都取得了巨大的进展。
其中之一就是利用AI进行声音和图像识别。
无论是语音助手、智能驾驶还是人脸识别,这些应用背后都离不开AI技术的支持。
本文将详细介绍使用AI技术进行声音和图像识别的步骤,并解释其背后的原理。
一、声音识别1. 数据收集:要进行声音识别,首先需要大量的数据样本作为训练集。
这些数据可以包括各种不同类型的声音,如人说话、乐器演奏等。
一般来说,数据越多越丰富,模型性能会更好。
2. 数据预处理:在将数据输入到模型之前,需要对其进行预处理。
这包括去噪处理、标准化和频谱分析等操作。
去噪处理可以通过滤波器等方法实现,以减少杂音对模型性能的影响;而标准化操作可使数据按照一定规则变换为更易于处理的形式;频谱分析则用于提取声波数据中隐含的特征信息。
3. 特征提取:在声音识别中,关键是从声波数据中提取有用的特征。
这可以通过算法实现,如快速傅里叶变换(FFT)、梅尔频率倒谱系数(MFCC)等。
这些方法能够将声音转化为频域或其他表示形式,以便计算机进一步处理和识别。
4. 模型训练:声音识别常用的模型包括隐马尔可夫模型(Hidden Markov Models,HMM)和深度神经网络(Deep Neural Networks,DNN)。
在训练过程中,模型会根据输入的特征向量与其对应的标签进行优化。
通过迭代优化算法,模型逐渐提高准确性,并能更好地分类不同的声音。
5. 模型测试与评估:在模型训练完成后,需要对其进行测试和评估。
这可以通过使用测试集数据来验证模型在新数据上的表现。
常用指标包括准确率、召回率和F1值等。
通过对结果进行分析和调整,可以进一步改善模型性能。
二、图像识别1. 数据收集:与声音识别类似,在进行图像识别之前需要大量的图像数据作为训练样本。
这些图像应包含需要识别的物体或场景,并覆盖不同的角度、光照条件和背景等。
声纹识别模型指标
声纹识别模型是一种通过分析和识别人的声音特征来进行身份验证和识别的技术。
它基于人的声音在频谱、共振和音调等方面的个体差异,通过提取和比对声音特征来确定人的身份。
声纹识别模型的主要指标包括准确率、误识率、虚警率和鲁棒性。
准确率是指模型正确识别的样本所占的比例,是衡量模型性能的重要指标。
误识率是指模型错误识别的样本所占的比例,虚警率是指模型错误地将非目标声纹识别为目标声纹的比例。
而鲁棒性则是指模型在面对不同语音环境、噪音干扰、不同设备和不同发音习惯等情况下的稳定性和可靠性。
为了提高声纹识别模型的准确率,可以采用深度学习技术,如卷积神经网络、长短时记忆网络等,来提取声音特征并进行分类和识别。
此外,数据集的质量和数量也对模型的准确率有着重要影响,因此需要收集大量的高质量声音样本,并进行有效的数据预处理和增强。
为了降低误识率和虚警率,可以引入多因子身份验证技术,如结合声纹识别和人脸识别、指纹识别等,进行多模态的身份验证。
此外,还可以采用动态语音特征和语义特征相结合的方法,来提高模型的鲁棒性和可靠性。
除了以上指标,声纹识别模型的响应时间和计算资源占用也是需要考虑的因素。
为了满足实时性的要求,需要对模型进行优化和加速,
以提高系统的响应速度和效率。
声纹识别模型的准确率、误识率、虚警率和鲁棒性是衡量其性能的重要指标。
通过采用深度学习技术、多因子身份验证和动态特征相结合的方法,可以提高声纹识别模型的准确性、可靠性和实用性。
声音识别中的神经网络模型构建和训练声音识别是一项重要的人工智能技术,它在语音助手、智能音箱、语音识别软件等领域有着广泛的应用。
声音识别的关键在于构建和训练有效的神经网络模型,以实现准确和可靠的声音识别。
本文将深入探讨声音识别中神经网络模型构建和训练的方法和技术。
在声音识别中,神经网络是一种常用的模型。
它模拟了人脑神经元之间相互连接、传递信息的方式,通过学习大量数据来实现特定任务。
构建一个有效的神经网络模型需要考虑到多个因素,包括网络结构、激活函数、损失函数等。
首先,我们需要选择适当的网络结构。
在声音识别中常用的神经网络结构包括卷积神经网络(CNN)、循环神经网络(RNN)以及其变种模型。
卷积神经网络适用于处理具有时间局部性特征(例如语谱图)的声音数据,而循环神经网络则能够捕捉到时间序列上连续性信息(例如语音信号)。
此外,在一些复杂任务中,我们可以选择将这两种结构进行结合,构建混合模型,以提高声音识别的准确性。
其次,选择适当的激活函数对于神经网络的训练和性能至关重要。
常用的激活函数包括Sigmoid、ReLU、Tanh等。
这些函数能够将输入信号映射到不同的输出范围,使得神经网络能够对输入数据进行非线性建模。
在声音识别中,ReLU是一种常用的激活函数,它具有较好的训练速度和稳定性。
另外,在声音识别中选择适当的损失函数也是至关重要的。
损失函数用于衡量模型输出与实际标签之间的差异,并作为反馈信号来更新网络参数。
常用的损失函数包括交叉熵、均方误差等。
在声音识别任务中,交叉熵通常被用作损失函数,它能够有效地度量分类问题中模型输出与实际标签之间的差异。
在构建好神经网络模型之后,我们需要进行训练以提高其准确性和可靠性。
训练神经网络需要大量标注好标签(即已知分类)的数据集作为输入,并通过反向传播算法来更新网络参数以减小损失函数。
在声音识别中,一个常见的训练策略是使用小批量随机梯度下降(mini-batch stochastic gradient descent)算法,它能够在较短的时间内快速收敛。
声纹识别模型指标声纹识别是一种基于声音特征的身份认证技术,通过分析个体的语音声纹来验证其身份的真实性。
声纹识别模型通过提取语音信号中的声纹特征,并将其与事先建立的声纹数据库进行比对,从而判断该语音信号的主人是谁。
声纹识别模型的指标是评估其性能和准确度的重要标准,以下将从准确率、召回率、误识率和拒识率等方面进行描述。
准确率是衡量声纹识别模型性能的重要指标之一。
准确率指识别系统正确识别出的正例与总正例数之比。
在声纹识别模型中,准确率表示模型正确识别出真实主人的能力,准确率越高,模型的识别性能越好。
召回率是指在所有真实主人中,模型正确识别出的真实主人的比例。
召回率衡量了声纹识别模型识别出所有真实主人的能力,召回率越高,模型的全面性和敏感性越好。
误识率是指在所有负例中,模型错误识别出的正例的比例。
误识率衡量了声纹识别模型的假阳性能力,即将非真实主人错误地识别为真实主人的概率。
误识率越低,模型的准确性和可靠性越高。
拒识率是指在所有假例中,模型正确地拒绝识别为真实主人的比例。
拒识率衡量了声纹识别模型的真阴性能力,即将非真实主人正确地拒绝识别的概率。
拒识率越高,模型的安全性和可信度越高。
除了以上指标外,声纹识别模型还可以考虑其他指标,如误拒率、错误识别率等。
误拒率是指在所有真实主人中,模型错误地拒绝识别为真实主人的比例。
错误识别率是指在所有假例中,模型错误地识别为真实主人的比例。
这些指标可以综合评估声纹识别模型的性能和可靠性。
声纹识别模型的指标是评估其性能和准确度的重要标准。
通过准确率、召回率、误识率和拒识率等指标的评估,可以全面衡量声纹识别模型的识别能力、可靠性和安全性。
声纹识别模型在提高准确率的同时,还需要尽量降低误识率和拒识率,以实现更好的识别效果。
声音识别模型的建立与评价摘要本文选取合适声音特征参数设计一个声音识别模型,并给出了具体的建立方案,然后还要对建立的模型进行优化提高识别准确度。
对于问题一,首先对声音信号进行了试听,然后利用Matlab绘制了声音波形如图一、图二所示,通过两类声音进行比较和分析。
得出两类声音如下区别:非正开门声的幅值明显比正常高,说明非正常开门声响声大,而且非正常声音持续的时间远比正常的要长。
对于问题二,首先对声音信号的短时平均能量和短时过零率这两个时域特征进行分析如图三和图四所示。
然后对Mel倒谱系数(MFCC)这一频域特征进行了分析如图八所示,并且通过Mel倒谱系数(MFCC)建立了一个13维的特征向量如附件一所示。
对于问题三,利用上一问中提取的Mel倒谱系数这一重要特征,经过训练后,建立了基于MFCC和GMM声音识别模型如图九所示,然后随机选取一段声音信号进行测试,测试结果如图十一所示,从图中可以看出此模型能够区分正常与非正常声音。
对于问题四,我们利用主成分分析法建立了特征向量优化模型如式33所示,得出声音的两个主要特征是短时平均能量和MFCC,然后在上面的声音识别模型中加入了短时平均能量这一时域特征向量,最后对优化后的声音识别模型进行检验,发现优化后的模型识别准确率有了进一步的提高。
对于问题五,首先按照题目的要求,利用Matlab中的随机函数rand产生一个噪声加入到声音信号中,得到了加噪后的声音时域和频域的波形图如图十三和图十四所示。
然后设计了基于双线性变换法的Butterworth滤波器模型,通过此滤波器模型对加噪后的声音进行滤波,得到的时域和频域波形图如图十五和图十六所示。
比较滤波前后可以看出噪声基本能被过滤掉,设计的Butterworth滤波器有明显的的滤波效果。
本文综合考虑了各个方面,建立了符合条件的声音识别模型,采用Matlab 编程的方法,求得的结果完全满足题目的要求,并有一定的实际应用价值。
关键词: Mel倒谱系数GMM主成分分析法Butterworth滤波器一、 问题重述随着科技的发展,人类步入了家居智能化的新时代。
智能冰箱、智能清洁机器人、智能电视等已逐步走进平常百姓家,智能家居已成为了必然趋势,但智能化的防盗门仍然处于研发阶段,要实现家居智能化这个问题亟待解决。
随着人们对家居安全意识的不断增强,对防盗、防抢和防砸的门禁系统的智能性提出更高的要求,所以研发一种安全可靠经济的智能门禁系统是时代。
基于此,对正常和非正常开门(指盗窃开门等声音)的声音进行识别是智能防盗门的关键问题和技术,其具有广泛的应用前景和实用价值。
为了进行声音识别模型的建立,我们采集到了正常和非正常开门的声音,各40次开门声音数据。
该数据可利用Matlab 的load 函数载入到计算机内存,内存中变量有Fs 和y 等变量,其中Fs 为采样频率,y 为采样数据。
根据这些数据我们对下面的几个问题进行分析。
问题一:利用Matlab 中的sound 函数,播放声音信号进行试听,利用plot 函数绘制出具体的声音波形图,比较并总结正常与非正常声音的区别。
问题二:利用合适的时域或(和)频域特征表达单个声音信号,建立特征向量,写出提取特征向量的具体方法和程序代码。
问题三:建立声音识别模型(二分类模型),利用模型区分正常和非正常声音,评价模型的好坏。
问题四:利用特征选择或变换,对特征向量进行优化,并利用参数优化技术优化模型的参数,使识别模型的准确率提高。
问题五:若原始声音信号中有环境噪声(如白噪声),设y 中叠加了一定幅值的白噪声(利用()()()()y y size rand y y m ax 3.015.01**+-+=叠加噪声),提出合适的方法对声音进行前期处理。
二、 问题假设1、假设所取样本均是全真模拟,样本可靠。
2、忽略其他与开门无关的声音。
3、忽略较小的系统误差和客观误差。
4、忽略声音识别模型的其他因素对模型的影响。
三、符号说明MFCC ------------------倒谱系数Fs ---------------------采样频率LPC --------------------线性预测系数LPCC -------------------LPC 倒谱系数GMM -------------------高斯混合模型EM ---------------------期望最大化step E -------------------EM 算法第E 步step M -------------------EM 算法第M 步四、问题引入与分析4.1问题背景的理解随着全球化,网络化,数字化,信息化时代的到来,计算机已经成为人们生活中不可缺少的一部分。
因此,近年来,一些研究人员已提出用音频分析进行监视的应用。
相对于视频监控系统,基于声音识别技术的音频监控具有很多优点。
4.2 声音的特征提取以及识别声音信号的特征主要有幅度(或功率)、过零率、邻界带特征矢量、线性预测系数特征矢量(LPC)、LPC倒谱特征矢量(LPCC)、Mel倒谱参数(MFCC)等等,描述声音信号的特征如此之多,我们应该选择合理的特征参数对声音进行分析便于我们建立一个合理的声音识别模型。
4.3 模拟声音的前期处理附件中的声音信号已经经过了去噪处理,我们要实现模拟声音的前期处理就必须先要给声音加一段噪声,用Matlab给声音加一段噪声根据题目要求选择最简单的rand函数产生高斯分布序列。
而去噪的方法有很多经过查阅资料选用基于双线性变换法的Butterworth滤波器对声音进行去噪处理,这种方法简单可靠。
五、模型建立及求解5.1 问题一本问题需要我们利用Matlab中的sound函数,播放出附件中所给的声音信号,并利用plot函数绘制出具体的声音波形图,通过对声音的试听和波形图的分析比较并总结正常声音与非正常声音的区别。
5.11 声音信号的试听与分析运行Matlab,把附件中的声音文件加载到Matlab中。
编写程序调用sound 函数播放附件中80段声音信号。
从试听中可以明显的听到非正常声音比正常生音更响,而且非正常声音持续的时间更长。
5.12 声音波形图的绘制与分析运行Matlab,编写绘制波形图的程序如附录1所示。
绘制出波形图如图一和图二所示。
图一 几段正常开门声音波形图图二 几段非正常开门声音波形图通过对图一和图二的比较分析可以看出,非正常声音的幅度明显比正常声音高几倍,而且非正常声音持续的时间远比正常的要长。
5.13 小结通过对声音信号的试听与声音波形图的绘制,进而对正常开门声与非正常开门声音进行比较和分析。
不难得出正常与非正常开门声有明显的的不同:非正常开门声更加的嘈杂,开门弄出的动静更大持续的时间更长。
5.2 问题二本问题需要我们用频域特征表达单个声音信号,建立并提取相关的特征向量。
5.21 特征的选取声音信号的特征向量一般分为两类:第一类为时域特征向量,通常将帧声音信号的各个时域采样值直接构成一个向量。
第二类为变换域特征向量,即对一帧声音信号进行某种变换后产生的特征向量。
前者的优点在于计算简单,缺点是不能压缩维数且不适于表征幅度谱特性。
与此对应,各种变换域特征向量的计算比较复杂,但能从不同的角度反映幅度谱的特征。
声音信号的特征主要有:幅度(或功率)、过零率、邻界带特征矢量、线性预测系数特征矢量(LPC )、LPC 倒谱特征矢量(LPCC )、Mel 倒谱参数(MFCC )前三个共振峰 3,2,1F F F 。
5.22 时域特征的选取对信号分析最直接最自然的方法是以时间为自变量进行分析。
假设连续音频信号x 经过预处理后得到K 个采样点()()K n n x ≤≤1,在特征提取时,认为每个采样点包含了该时刻音频信号的所有信息,因此可以从采样点()n x 中提取特征,而不需要做进一步的处理。
在对音频信号的时域特征进行分析时,将()n x 序列放入二维坐标平面,横坐标表示时间,纵坐标表示()n x 的值。
在此坐标平面上考察音频信号的短时平均能量、短时过零率等时域特征。
1.短时平均能量音频信号的能量随着时间的变化比较明显。
短时平均能量是指一个音频帧内采样点信号聚集的平均能量,它可以较好的反映音频信号幅度随时间的变化,如图三 所示。
假设音频信号采样后被分割为M 个音频帧,每帧包含N 个采样点,帧间间隔为二分之一帧长。
短时平均能量的定义为: ()()[]21∑-=m n w n x NE m (1) 式中m E 表示第m 个音频帧信号的平均能量,n x 表示第m 个音频帧中第n 个采样点的值,()n w 为窗函数。
短时平均能量主要应用如下:1.在语音信号中,由于浊音的能量比清音的能量大得多,可以利用短时平均能量来区分清音和浊音;2.可以设定一个阈值,根据短时平均能量来区分静音段与分非音段、以及对连字分界等;3.音频信号的短时能量可以作为特征向量的一维参数应用在音频检索系统中。
图三 短时平均能量分析 2.短时过零率短时过零率是指每帧内信号通过零值的次数,如图四所示。
对于连续信号,它可以考察时域波形通过时间轴的情况,对于离散信号,它实质上就是信号采样点符号变化的次数。
由于采样频率是固定的,因此过零率在一定程度上可以反映频率的信息。
短时过零率的计算公式为:()[]()[]()m n w n x n x Z mm ---=∑1sgn sgn 21 (2) 式中m Z 表示第m 个音频帧的短时过零率,n x 表示第m 个音频帧中第n 个采样点的值,()n w 为窗函数,[]sgn 是符号函数定义如下:()[]()()⎩⎨⎧<-≥=1,11,1sgn n x n x n x 将短时过零率和短时能量结合起来可以用于语音的端点检测[3]。
若语音信号存在较大的背景噪声,使用短时过零率能起到较好的检测效果;若语音信号存在较小的背景噪声,短时能量的检测效果更佳。
因此,语音识别系统在前端使用这两个特征参数来判断语音是否开始。
图四 短时过零率分析 5.23 频域特征的选取一般而言, 由于倒频谱有着能将频谱上的高低频分开的优点,因此被广泛地应用在语音识别的研究上,例如在过去常用的线性预测编码导出的倒频谱参数(LPCC )和梅尔频率倒谱参数 (MFCC )等都是常用的语音特征。
但是MFCC 这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究果,所以,这种参数与基于声道模型的LPCC 相比具有较好的鲁棒性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能[1]。
所以本篇文章MFCC 这一声音特征进行研究。
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients ,简称MFCC )是在Mel 标度频率域提取出来的倒谱参数,Mel 标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示[2]:()⎪⎭⎫ ⎝⎛+⨯=7001lg 2595f f Mel (3) 式中f 为频率,单位为Hz ,如图五展示了Mel 频率与线性频率的关系:图五 Mel 频率与线性频率的关系Mel 倒谱系数的求解方法是将时域信号做频域变换后,对其对数能量谱用依照Mel 刻度分布的三角滤波器组做卷积,再对滤波器组的输出向量做离散余弦变换,这样得到的前N 维向量称为MFCC 。