基于BP神经网络语音识别方法研究
- 格式:docx
- 大小:86.40 KB
- 文档页数:11
深度神经网络在语音识别中的应用研究深度神经网络(Deep Neural Network, DNN)是一种基于多层神经元结构的人工神经网络。
近年来,深度神经网络在语音识别领域的应用研究引起了广泛关注。
本文将从深度神经网络在语音识别中的应用场景、优势和挑战以及最新研究进展三个方面进行探讨。
首先,深度神经网络在语音识别中的应用场景是多样的。
传统的语音识别系统使用的是高斯混合模型(Gaussian Mixture Model, GMM)和隐马尔可夫模型(Hidden Markov Model, HMM)。
但是,这些方法会面临维度灾难和标注数据稀缺的问题。
深度神经网络可以通过端到端的学习方式,直接从原始语音信号中提取特征并输出最终的识别结果。
因此,深度神经网络在无噪声、噪声和多种语音背景下的语音识别应用中具有广泛的应用前景。
其次,深度神经网络在语音识别中的应用具有一些显著的优势。
首先,深度神经网络能够自动学习到有效的特征表示,不需要手动设计特征。
其次,深度神经网络可以通过增加网络的层数来提高模型的表达能力,从而提高识别准确率。
此外,深度神经网络还能够通过循环神经网络(Recurrent Neural Network, RNN)的引入来解决时序数据的建模问题,提高语音识别的性能。
最近的研究表明,通过使用更深、更强大的深度神经网络结构,可以进一步提高语音识别的性能。
例如,通过引入卷积神经网络(Convolutional Neural Network, CNN)和长短时记忆网络(LongShort-Term Memory, LSTM)等结构,可以显著提高声学模型的准确率。
此外,研究人员还尝试将深度神经网络与其他技术结合,如注意力机制和强化学习等,以进一步提升语音识别的性能。
总之,深度神经网络在语音识别中的应用研究具有广阔的应用前景。
通过自动学习特征表示和增加网络层数等方法,可以提高语音识别系统的准确率和鲁棒性。
文献综述电气工程及自动化BP神经网络研究综述摘要:现代信息化技术的发展,神经网络的应用范围越来越广,尤其基于BP算法的神经网络在预测以及识别方面有很多优势。
本文对前人有关BP神经网络用于识别和预测方面的应用进行归纳和总结,并且提出几点思考方向以作为以后研究此类问题的思路。
关键词:神经网络;数字字母识别;神经网络的脑式智能信息处理特征与能力使其应用领域日益扩大,潜力日趋明显。
作为一种新型智能信息处理系统,其应用贯穿信息的获取、传输、接收与加工各个环节。
具有大家所熟悉的模式识别功能,静态识别例如有手写字的识别等,动态识别有语音识别等,现在市场上这些产品已经有很多。
本文查阅了中国期刊网几年来的相关文献包括相关英文文献,就是对前人在BP神经网络上的应用成果进行分析说明,综述如下:(一)B P神经网络的基本原理BP网络是一种按误差逆向传播算法训练的多层前馈网络它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阀值,使网络的误差平方最小。
BP网络能学习和存贮大量的输入- 输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程.BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer),如图上图。
其基本思想是通过调节网络的权值和阈值使网络输出层的误差平方和达到最小,也就是使输出值尽可能接近期望值。
(二)对BP网络算法的应用领域的优势和其它神经网络相比,BP神经网络具有模式顺向传播,误差逆向传播,记忆训练,学习收敛的特点,主要用于:(1)函数逼近:用输入向量和相应的输出向量训练一个网络以逼近一个函数;(2)模式识别:用一个待定的输出向量将它与输入向量联系起来;(3)数据压缩:减少输出向量维数以便于传输或存储;(4)分类:把输入向量所定义的合适方式进行分类;]9[BP网络实质上实现了一个从输入到输出的映射功能,,而数学理论已证明它具有实现任何复杂非线性映射的功能。
毕业设计(论文)开题报告附表二课题名称基于神经网络的语音信号识别学生姓名崔楠楠学号20102460304专业班级通信工程、三班一、选题的目的意义随着社会的不断发展,计算机的迅速普及,人们渴望一种符合人类自然交往的“人机对话”模式的出现,特别是人机自然语言对话。
目前一些专家和学者在这方面进行了大量的开发和研究工作。
但语音识别技术正处于蓬勃发展的时期,仍有待进行大量的研究工作以取得更进一步的突破。
人机自然语言的接口是一个非常重要的部分。
它要求计算机能说会听,应此要求出现了语音合成和语音识别两门学科。
所谓语音识别,就是利用计算机,对人们的语音信号进行时域或频域处理,识别出所说的是什么,通俗地讲,就是让计算机能够模拟人类的听觉功能。
国际上,对计算机语音识别的研究也有近四十年的历史,经过数辈科学家和科学工作者的艰辛努力,语音识别的研究方面取得了很大的成果。
尤其是近一、二十年,提出了许多有效的语音处理和识别的方法和策略,使得语音识别这门学科的研究日趋兴旺,许多的语音识别系统也正逐步实用化。
人们所期望赋予计算机能说会听的梦想正步步走向现实。
预计在未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域(如门禁系统,手机语音自动拨号系统)。
语音识别系统依照语音识别的单元、语音识别系统是否依赖人可以分成:特定人、孤立词语音识别系统;非特定人、孤立词语音识别系统;特定人、连续语音识别系统和识别系统和非特定人、连续语音识别系统四类。
神经网络是一门新兴交叉学科,是人类智能研究的重要组成部分,已成为脑科学、神经科学、认知科学、心理学、计算机科学、数学和物理学等共同关注的焦点。
它就是指模仿人脑神经网络的结构和某些工作机制建立一种计算模型的处理方法。
由于人工神经网络具备良好的自学习和自适应能力,将其应用于语音合成系统中的韵律模型研究具有很重要的意义。
将神经网络模型与已有的文语转换系统有机结合,可以改变传统的文语转换系统的韵律模型,具有更强的适应性和可训练性,使合成语音的自然度得到显著提高,增加了系统的灵活性和风格的多样性。
基于BP神经网络的语音情感识别研究作者:徐照松元建来源:《软件导刊》2014年第04期摘要:随着科技的迅速发展,人机交互越来越受到人们的重视,语音情感识别更是学术界研究的热点。
将BP神经网络算法用于语音情感识别研究,并在汉语情感数据集上进行了相关实验,识别的准确率达到了91.5%,相较于SVM算法分类精度提高了5%。
关键词关键词:语音情感识别;BP神经网络;SVM中图分类号:TP302文献标识码:A 文章编号文章编号:16727800(2014)004001103作者简介作者简介:徐照松(1990-),男,广西师范学院计算机与信息工程学院硕士研究生,研究方向为数据挖掘、语音情感、智能计算;元建(1986-),男,广西师范学院计算机与信息工程学院硕士研究生,研究方向为数据挖掘、智能计算。
0 引言随着科技的迅速发展,人机交互显得尤为重要。
语音是语言的载体,是人与人之间交流的重要媒介。
相较于其它交流方式而言,语音交流更加直接、便捷。
近年来,随着人机交互研究的不断深入,语音情感识别更成为了学术界研究的热点,其涉及到信号处理、模式识别、人工智能等相关领域。
语音中除了能够传达语义信息外,还包含了一些情感信息,然而这些情感信息往往被人们所忽略[3]。
语音情感识别实际上是利用计算机所提取的语音信号特征来判断其属于哪一类情感。
利用模式识别方法研究语音情感识别的文献较多,朱菊霞[4]等使用SVM算法对语音情感进行识别,并取得了86%的识别率。
余华[5]等使用粒子群算法优化神经网络来进行语音情感识别,识别率较高。
BP神经网络是神经网络的一种,属于多层前馈神经网络,与其它神经网络算法所不同的是采用了反向传播的学习算法,不断地计算输出端的误差向回传递来进行权值调整,从而达到误差最小的效果。
文中结合了BP神经网络的优点,将其用于语音情感识别研究中,并且在汉语情感数据集上进行了相关实验,识别的准确率达到了91.5%,相较于其它方法提高了5%。
基于脉冲神经网络的语音信号处理技术研究随着科技的发展,语音信号处理技术渐渐走入了人们的视野。
基于脉冲神经网络的语音信号处理技术是目前比较先进的技术之一,它不仅能够更好地识别声音特征,同时还能够对信号进行处理和优化。
本文将介绍基于脉冲神经网络的语音信号处理技术的研究方向和应用领域。
一、基于脉冲神经网络的语音信号处理技术研究方向1. 声学特征提取声学特征是语音信号的基本特征,包括音调、节奏、语速等。
为了更好地应用语音信号处理技术,需要将声学特征提取出来,通过数据处理进行分析和优化。
在基于脉冲神经网络的语音信号处理技术中,声学特征提取是非常重要的步骤之一,它能够提高语音信号的识别精度,从而使得语音处理技术得以更好地发挥作用。
2. 语音识别语音识别是基于脉冲神经网络的语音信号处理技术中的另一个研究方向。
语音识别是将人类语言转换为计算机可识别的语言的过程,它需要人工智能技术的支持。
基于脉冲神经网络的语音信号处理技术在语音识别方面的表现比传统的方法有很大的进步,它可以更好地处理语音信号的动态特征,从而提高语音识别的精度。
3. 声纹识别声纹识别是通过对人的语音进行分析和处理,将其转换为唯一的生物特征,用来识别人的身份。
基于脉冲神经网络的语音信号处理技术在声纹识别方面也有很大的应用前景。
它可以通过脉冲神经网络模型对声纹进行分析和处理,提高识别的准确性和稳定性。
二、基于脉冲神经网络的语音信号处理技术应用领域1. 音频搜索随着数字媒体和互联网的发展,音频搜索成为了很多人的需求。
基于脉冲神经网络的语音信号处理技术可以通过深度学习模型对音频信号进行分析和处理,从而实现更准确、更快速的音频搜索。
2. 语音控制语音控制技术是指通过语音命令控制设备的一种技术,如图像识别、推荐功能等。
基于脉冲神经网络的语音信号处理技术可以通过对声纹的识别和命令的语义分析实现智能语音交互。
3. 语音翻译随着国际化的趋势,语音翻译技术也日益受到重视。
基于神经网络的语音信号识别研究近年来,随着技术的发展和普及,人们对于语音信号的需求也越来越大。
而语音信号识别技术则是其中非常重要的一环。
智能语音助手、语音识别软件等等,都需要依赖于语音信号识别技术实现。
而基于神经网络的语音信号识别技术,则是当前最为流行和具有应用价值的一种。
一、什么是语音信号识别技术语音信号识别技术,是指将人类语音转换成计算机识别的数字信号,并对该数字信号进行分析和处理,以达到自动识别语音内容的目的。
语音信号识别技术即自动语音识别技术,是应用领域广泛的关键技术之一。
二、神经网络在语音信号识别中的应用神经网络(Neural Network)是由一组构成各层次的神经元(neuron)所组成的网络。
在语音信号识别中,神经网络第一次被引入是在20世纪80年代初期。
早期的神经网络在语音信号识别中应用的效果并不好,主要因为神经网络的学习算法和初始参数的设定都存在问题。
然而,随着技术的发展和经验的积累,神经网络逐渐在语音信号识别中发挥重要作用。
在基于神经网络的语音信号识别技术中,通常采用的是深度神经网络(Deep Neural Network)。
深度神经网络在语音信号识别中的作用主要分为两个方面:特征提取和分类。
其中,特征提取主要是指对于语音信号进行预处理,提取出其中优秀的特征;分类则是指对于提取出的特征,进行归类识别。
在深度神经网络中,通常采用的算法是卷积神经网络(Convolutional Neural Network)或递归神经网络(Recurrent Neural Network)。
三、语音信号识别中常用的数据集针对于语音信号识别,目前已经出现了很多开发用的数据集,其中最为流行的有TIMIT、WSJ、Switchboard三个数据集。
TIMIT数据集是由美国宾夕法尼亚大学为了开发语音识别系统而录制的语音语料库,包含了625个不同说话人的6300句语音材料。
这个数据集是英语语音识别研究领域中最常用的数据集之一。
基于神经网络的智能语音识别系统我们生活中的方便程度越来越高,这归功于科技的不断发展进步。
智能语音识别技术的出现,为人们的日常生活带来了巨大的便利。
基于神经网络的智能语音识别系统,成为当今最先进、最有效的语音识别技术之一。
一、智能语音识别技术的基础智能语音识别技术是由语音输入和自然语言处理两个部分组成的。
语音输入是将听到的语言转换为信息的过程,自然语言处理则是根据语音输入生成有意义的指令和回答。
基于神经网络的智能语音识别系统,是应用神经网络技术来完成语音识别和自然语言处理的。
在神经网络中,人工神经元通过相互连接,形成了一张强大的网络,可以实现对语音信号的处理和特征提取。
二、神经网络的架构神经网络的构成包括三个层次:输入层、隐藏层和输出层。
输入层是接收语音信号的部分,隐藏层是进行特征提取和模式识别的部分,输出层则是生成人类可理解的文字或语音的部分。
神经网络的超参数和训练方式对语音识别的质量有很大的影响。
超参数包括神经元的数量、层数、激活函数等。
同时,训练方式也有很多种,例如直接优化目标函数、分段训练和多任务训练等,每一种训练方式都会有不同的效果。
三、智能语音识别技术的应用智能语音识别技术在日常生活中得到了广泛的应用,其中包括语音搜索、智能家居、车载语音识别等方面。
基于神经网络的智能语音识别系统,也成为了这些应用中的重要部分。
在语音搜索方面,基于神经网络的智能语音识别系统可以实现人机交互,让用户输入更加便捷。
智能家居系统则可以通过语音识别技术实现对家庭设备的控制,为居民提供带有智能化的居家生活。
车载语音识别系统也可以帮助人们在驾驶过程中完成人机交互,保证安全驾驶的同时提供高质量的交互体验。
四、智能语音识别技术的未来虽然现代智能语音识别技术已经取得了很大的进步,但是仍然存在着一些问题。
对于语音信号的噪声、口音和方言等问题,语音识别系统仍然有待进一步提升。
为此,我们需要不断地探索新的技术和方法,为智能语音识别技术的未来发展提供更多的可能性.对于基于神经网络的智能语音识别系统而言,我们还需要更多的关注相关研究和理论,以及不断探索更加高效的网络构架和训练方式。
基于BP神经网络语音识别方法研究摘要:神经网络是近年来信息科学、脑科学、神经心理学等诸多学科共同关注和研究的热点。
由于其具有良好的抽象分类特性,现已应用于语音识别系统的研究和开发,并成为解决识别相关问题的有效工具。
文章在讲述语音识别过程的基础上重点讨论利用BP神经网络对语音进行识别,用MATLAB完成对神经网络的训练和测试,并获得满意的结果。
关键词:语音识别;模式识别;BP神经网络,1 绪论计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。
科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。
1.1 研究背景及意义语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。
作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。
随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。
语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。
也是人机交互最重要的一步。
1.2 语音识别的国内外研究现状通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的内容,从而根据其信息,执行人的各种意图。
广义的语音识别包括说话人的识别和内容的识别两部分。
这里所说的语音识别,是指内容识别方面。
采用计算机进行语音识别到现在已经发展了50年。
从特征参数上改进,采用各种办法进行语音增强是一个研究方向,但是到目前为止,还没有一种办法能把语音信号完美地从噪音环境提取出来。
语音识别有广泛的商业化运用前景,主要可以分为通用场合和专用场合两个方面。
1.3研究内容本文研究的主要内容是结合模式识别的基本理论,研究BP神经网络孤立词语音识别的问题,实现1-5共5个数字的识别。
分析了语音信号的预处理,特征提取及BP神经网络算法实现。
2 语音识别技术2.1 语音识别系统结构孤立词语音识别是对特定的不连续的词语作为处理单元。
语音识别系统的基本组成一般可以分为预处理模块、特征值提取模块及模式匹配三个模块。
如图2.1所示为语音识别系统结构框图。
图2.1 语音识别系统结构框图从图2.1的系统整体架构可以看到,建立基于BP神经网络的语音识别系统可分为两个阶段,即训练阶段和识别阶段。
首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。
预处理包括预加重,加窗分帧和端点检测三个过程。
系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。
在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分数字1-5.在训练阶段,通过说话人多次重复语音,本系统从原始语音样本中去除冗余信息,提取说话人的特征参数并存储为BP神经网络的输入样本,在此基础上建立输入与输出的BP神经网络模型。
在识别阶段,待测语音经过预处理,使用已经训练好的BP神经网络进行识别得到结果。
2.2 语音信号预处理图2.2是语音信号的预处理的流程图。
从图2.2可以看到预处理模块包括预加重,加窗分帧和端点检测。
前级预加重、加窗分帧及端点检测是语音识别的准备工作,每一个环节对整个识别系统的性能有着重要的影响。
前级预处理主要是对信号进行一定的滤波和分帧;加窗分帧就是将语音信号进行分段处理,使语音信号连续并保持一定的重叠率:端点检测是确定语音有用信号的起始点与终止点,并通过一定的手段处理,将没有意义的语音信号去除,从而减少语音匹配识别模块的运算量,同时也可以提高系统的识别率。
预处理不合理或语音起止点及终止点判别不够准确都会使后续的特征矢量提取及模式匹配过程等工作受到很大的影响,甚至达不到语音识别的效果,因此预处理工作作为语音识别的第一步工作,必须达到所需的要求,为下一步的特征参数提取做好铺垫。
图2.2 语音信号预处理流程图2.2.1 语音信号的采样Matlab环境中语音信号的采集可使用wavrecord(n,fs,ch,dtype)函数录制,也可使用Windows的“录音机”程序录制成.wav文件然后使用wavread(file) 函数读入。
在本实验中,使用matlab的语音工具包录取1-5共5段语音,。
如图2.3所示为数字0的训练语音00.wav的信号波形图,第(I)幅图为完整的语音波形,第(II)、(III)幅图分别为语音的起始部分和结束部分的放大波形图。
2.2.2语音信号的分帧语音信号是一种典型的非平稳信号,它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化。
但研究发现,语音信号在短时间内频谱特性保持平稳,即具有短时平稳特性。
因此,在实际处理时可以将语音信号分成很小的时间段(约10~30ms),称之为“帧”,作为语音信号处理的最小单位,帧与帧的非重叠部分称为帧移,而将语音信号分成若干帧的过程称为分帧。
分帧小能清楚地描绘语音信号的时变特征但计算量大;分帧大能减少计算量但相邻帧间变化不大,容易丢失信号特征。
一般取帧长20ms,帧移为帧长的1/3~1/2。
2.2.3语音信号的预加重预加重是指在A/D转换后加一个6dB/倍频程的高频提升滤波器,语音信号的平均功率谱由于受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/Oct(倍频程)跌落。
所以求语音信号频谱时,频率越高相应的成份越小,高频部分的频率比低频部分的难求。
因此,预加重的目的是加强语音中的高频共振峰,使语音信号的短时频谱变得更为平坦,还可以起到消除直流漂移、抑制随机噪声和提高清音部分能量的效果,便于进行频谱分析和声道参数分析。
此外,通常的方法是使用一阶零点数字滤波器实现预加重,其形式为:(2-1) ()()()1y n x n x n α=--频域相对应的形式为:(2-2) ()11,[0.90,0.98]H z z αα-=-=其中,a 为预加重系数。
2.2.4 基于短时能量和过零率的端点检测在语音信号的预处理中,端点检测是关键的一步,语音信号的模型参数和噪声模型参数以及自适应滤波器中的适应参数都得依赖对应的信号段(语音段或噪声段)来计算确定。
因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。
端点检测的目的是从包含语音的一般信号中确定出语音的起点以及终点,一般采用平均能量或平均幅度值与过零率相乘的方法来判断。
这种利用短时能量和短时平均过零率两种特征共同参与检测,也被称为双门限法。
(1)短时能量设S(n)为加窗语音信号,第t 帧语音的短时平均能量为: ()1210()N tN n Eng t S n -==∑ (2-5) ()110()N tN n Eng t S n -==∑ (2-6)其中N 为分析窗宽度,S t (n )为第t 帧语音信号中的第n 个点的信号取样值。
上面两式原理是相同的,但后式有利于区别小取样值和大取样值,不会因为取平方而造成很大的差异。
短时平均能量是时域特征参数,把它用于模型参数时,应进行归一化处理,本文将取其对数值后使用,使计算和识别结果均取得了较好的效率和结果。
(2)短时过零率短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。
对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号则称为过零。
过零率就是样本改变符号次数,定义语音信号寿(m)的短时过零率Zn 为:∑-=--=1|)]1(sgn[)](sgn[|21N m n n n m x m x Z (2-7)(2-8)(3)双门限检测的方法 在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。
一个是比较低的门限,其数值比较小,对信号的变化比较敏感,很容易就会被超过。
另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超过。
低门限被超过未必就是语音的开始,有可能是时间很短的噪声引起的。
高门限被超过则可以基本确信是由于语音信号引起的。
整个语音信号的端点检测可以分成四段:静音、过渡段、语音段、结束。
在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。
在过波段中,由于参数的数值比较小,不能确信是否处于真伪的语音段,因此只要两个参数的数值回落到低l 、J 限以下,就将当前状态恢复到静音状态。
而如果在过渡段中两个参数中的任一个超过了高门限,就可以确信进入语音段了。
当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是段噪音,继续扫描以后的语音数据。
否则就标记好结束端点,并返回。
从而达到抗干扰的目的、提高识别率。
如图2.4所示。
图2.3 语音信号的端点检测图2.3 特征参数提取特征值的提取是对原始的语音信号运用一定的数字信号处理技术进行适当的处理,从而得到一个矢量序列,这个矢量序列可以代表原始的语音信号所携带的信息,初步实现数据压缩。
特征参数主要有:能量、幅度、过零率、频谱、倒谱和功率谱等,另外考虑到其他因素1 (x ≥0) -1 (x ≤0) sgn[x ]={的影响,还有许多基于基本参数的参数,本文选用了MEL 频率倒谱系数(MFCC)进行提取特征参数。
MFCC 系数的计算是以“bark ”为其频率基准的,它和线性频率的转换关系是:)7001(log 259510f f mel += (2-9) MFCC 系数也是按帧计算的,首先要通过FFT 得到该帧信号的功率谱S(n),转换为Mel 频率下的功率谱。
这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器:NHm(n) m=0,1,…,M-1; n=0,1,…,N/2-1(2-10)M 为滤波器的个数,通常取24,与临界带的个数一样;N 为一帧语音信号的点数,为了计算FFT 的方便,通常取256。
滤波器在频域上为简单的三角形,其中心频率fm 在Mel 频率轴上是均匀分布的。
从图2.5就可以看到MFCC 系数的计算过程如下:(1) 预处理:确定每一帧语音采样序列的长度(如N=256),并对每帧序列s(n)进行预加重、分帧和加窗处理;(2) 计算离散功率谱:对预处理的每帧进行离散FFT 变换得到其频谱,再取模的平方作为离散功率谱S(n);(3) 将功率谱通过滤波器组:计算S(n)通过M 个H m (n)后所得的功率值,即计算S(n)和H m (n)在各离散频率点上的乘积之和,得到M 个参数P m ,m=0,1,……M-1;(4) 取对数:计算P m 的自然对数,得到L m ,m=0,1,……M-1;(5) 离散余弦变换:对L m 计算其离散余弦变换,得到D m ,m=0,1,……M-1,舍去代表直流成份的D 0,取D 1,D 2,……,D k 作为MFCC 参数。