基于MATLAB的声纹识别系统软件的设计
- 格式:doc
- 大小:26.50 KB
- 文档页数:3
使用MATLAB进行语音识别的基本原理语音识别是一种将人类语音转化为计算机可识别文本的技术。
它可以应用在语音识别系统、智能助手等多个领域,具有广泛的应用前景。
而MATLAB是一种功能强大的数学软件工具,提供了丰富的信号处理和模式识别函数,使得它成为进行语音识别的理想选择。
本文将介绍使用MATLAB进行语音识别的基本原理。
一、语音信号预处理在进行语音识别之前,需要对语音信号进行预处理。
预处理的目的是去除噪声、降低维度以及提取特征等。
其中,常用的预处理技术包括语音信号分帧、加窗、预加重以及语音信号归一化等。
语音信号分帧是将连续的语音信号分成若干短时帧,一般选择帧长为20-40毫秒。
然后对每一帧信号进行加窗操作,常用的窗函数有矩形窗、汉宁窗等,目的是减少频谱泄漏效应。
预加重是为了解决语音信号中的频率能量分布不均的问题。
预加重的思想是在进行傅里叶变换之前对语音信号进行高通滤波,增强高频部分的能量。
语音信号归一化是为了消除语音信号能量的差异性,一般使用均方根归一化或幅度归一化等方法,使得语音信号具有相似的能量特征。
二、特征提取在预处理之后,需要进行特征提取,以便将语音信号转化为计算机可识别的形式。
常用的特征提取方法包括线性预测分析(Linear Predictive Analysis, LPC)、梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients, MFCC)等。
LPC是一种基于线性预测模型的方法,它假设语音信号是由前面的语音样本线性预测后产生的。
LPC通过提取语音信号的倒谱系数以及预测误差,将语音信号转化为一组具有较低维度的特征向量。
MFCC是一种基于梅尔刻度的频谱特征提取方法。
它模拟了人耳对声音的感知机制,通过将频率轴转换为梅尔刻度,进而使用离散余弦变换将频谱分析结果转化为梅尔频率倒谱系数,得到更加稳定和鲁棒的特征。
三、模型训练与分类在特征提取之后,需要进行模型训练与分类。
本科毕业设计基于MATLAB的特定人语音识别算法设计摘要语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。
而在随着科技技术的发展的今天,除了人与人之间的自然语言通信之外,人与机或机器与机器之间也开始使用语言。
也就是因为如此,需要涉及到语音识别技术。
为了解决机器能“听懂”人类的语言,在科技如此迅猛发展的今天,语音识别技术一直受到各国科学界的关注,其对计算机发展和社会生活的重要性也日益凸显出来。
在孤立字语音识别中,如语音密码锁,汽车控制等领域,都运用到了特定人语音识别技术,也就是DTW算法,相对于HMM算法,DTW算法具有简单操作。
在相同环境下,两者识别效果相差不大,但是HMM算法要复杂得多,主要体现在HMM算法在训练阶段需要提供大量的语音数据,而DTW算法则不需要额外的计算。
所以在特定人语音识别当中,DTW算法被广泛使用。
在本次设计中,将运用到MATLAB平台来对语音信号进行处理及识别。
相对于C语言而言,MATLAB平台更能给用户提供一个简单易懂的代码分析窗口。
而且在个性化设计中,MATLAB可以为用户提供一个人性化界面--GUI。
所以,此次设计,通过MATLAB 平台建立一个GUI界面,接着对一组语音信号的输入进行预处理及端点检测,提取特征参数(MFCC),形成参考模块。
然后再对一组相同的语音信号输入进行同样的操作作为测试模块,与参考模块进行DTW算法进行匹配,输出匹配后的识别结果。
关键词:MATLAB GUI 端点检测MFCC DTWDesign of Speech Recognition Algorithm Based on Specific MATLABCai Jingzuo(College of Engineering, South China Agricultural University, Guangzhou 510642, China) Abstract:Language is a way of human exchange of information the most convenient, quick, highly developed in the information society, for voice transmission, by using the digital method of storage, recognition, synthesis and enhancement is one of the most important parts of the whole, the most basic digital communication network. While with the development of science and technology today, in addition to natural language communication between people, between people and machine or machine and machine are also starting to use the language. It is because of this, need to involve the speech recognition technology. In order to solve the machine can "hear" the human language, the technology is so rapid development today, the speech recognition technology has been the subject of scientific attention of all countries, the importance of computer development and social life is increasingly prominent.In the isolated word speech recognition, such as voice password lock, auto control field, are applied to the speech recognition technology, which is relative to the DTW algorithm, HMM algorithm, DTW algorithm has the advantages of simple operation. In the same environment, both the recognition effect is similar, but HMM algorithm is much more complex, mainly reflected in the HMM algorithm need to provide a large amount of speech data in the training phase, while the DTW algorithm does not need the extra computation. So in the speaker-independent recognition, DTW algorithm is widely used.In this design, will apply to the MATLAB platform to carry on the processing and recognition of speech signal. Compared with the C language, MATLAB platform can provide users with a simple code analysis window. But in the personalized design, MATLAB can provide a human user interface --GUI. So, the design, the establishment of a GUI interface through the MATLAB platform, and then a set of the input speech signal pretreatment, endpoint detection, feature parameter extraction (MFCC), the formation of the reference module. Then a group of the same speech signal input to the same operation as a test module, matching with reference to DTW algorithm module, output matching recognition results.Key words:DTW GUI Endpoint detection MFCC DTW目录1 前言 (1)1.1语音识别的历史背景 (1)1.1.1国外研究历史及现状 (2)1.1.2 国内研究历史及现状 (3)1.2 语音识别技术的应用及研究方向 (4)1.3语音识别系统的基本构成 (5)2 语音信号的数字模型及采集 (6)2.1概述 (6)2.2 语音的发音原理 (6)2.2.1 人的发声器官 (6)2.2.2 语音生成 (8)2.3 语音的听觉机理 (9)2.3.1 听觉器官 (9)2.3.2 耳蜗的信号处理原理 (10)2.4 MATLAB中的语音信号模型 (12)2.4.1 wavrecord函数 (12)2.4.2 wavplay函数 (13)3 语音信号的端点检测 (13)3.1 概述 (13)3.2 MATLAB的语音端点检测算法 (16)3.2.1 短时能量的计算 (16)3.2.2 过零率的计算 (17)3.2.3 端点检测的流程 (19)4语音信号非线性预测分析 (20)4.1 概述 (20)4.2 MFCC的基本原理 (20)4.3 实验结果 (21)5特定人语音识别算法-DTW算法 (22)5.1 DTW算法原理 (22)5.2 DTW算法流程及实验结果 (24)5.2.1 算法流程 (24)5.2.2实验结果 (25)6GUI设计 (26)6.1概述 (26)6.2 GUI界面的打开 (27)6.3作品演示 (29)7结论 (31)参考文献 (31)附录 (32)附录A语音识别主函数 (32)致谢 (38)本科生毕业设计成绩评定表1前言语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。
大连民族学院本科毕业设计(论文)基于MATLAB的指纹识别系统设计摘要生物识别技术已经成为身份识别和网络安全的发展技术之一,其中指纹识别技术是目前公认的安全,准确,方便的身份认证技术之一,使之成为人们研究的热点。
本文主要设计一个基于matlab 的指纹识别系统。
首先主要介绍了指纹识别技术研究的背景,意义,及现状。
其次,实现了指纹识别系统,描述了指纹识别系统的基本结构,并且对指纹图像的预处理、特征提取、特征匹配这三个必要的环节的算法进行了详细地研究,在指纹图像预处理阶段,本文使用基于灰度的算法对图像进行了分割,同时,针对二值化后图像中仍存在的噪声,也进行了相应的修整处理,尽可能的为以后指纹特征的提取打好基础,从而成功地实现了对指纹数字图像的处理、特征提取、保存和匹配等功能。
最后,对指纹识别系统进行了仿真,仿真结果表明该系统可以较好的进行识别,准确率达到了95.1%。
关键词:指纹识别;预处理;二值化;特征提取;特征匹配AbstractBiometric technology has become one of the developing technologies for identity recognition and network security. And fingerprint identification technology is now recognized as one of the most safe, accurate and convenient authentication technologies, and it is a focus for researchers.This paper designs a matlab-based fingerprint recognition system. The first introduces the fingerprint recognition technology research background, significance, and the status quo. Secondly, to achieve fingerprint identification system, describes the basic structure of the fingerprint identification system, and the fingerprint image preprocessing, feature extraction, feature matching these three essential aspects of the algorithm is studied in detail in the fingerprint image pre-processing stage this article uses an algorithm based on gray image segmentation carried out at the same time, for the image after binarization noise still exists, but also for the corresponding trimming process, as much as possible for the future lay the foundation for fingerprint feature extraction and thus successfully achieved fingerprint digital image processing, feature extraction, storage and matching functions. Finally, the fingerprint identification system for simulation, simulation results show that the system can identify a better accuracy rate reached 95.1%.Key Words:Fingerprint Recognition;Processing;Binarization;Feature Extraction; Feature Matching目录摘要 (I)Abstract (II)1 绪论 (1)1.1本课题背景和意义 (1)1.2指纹识别技术研究现状 (1)1.3本文的章节安排 (2)2指纹识系统设计 (4)2.1指纹识别系统设计基本结构 (4)2.2指纹图像分割 (4)2.2.1指纹图像分割介绍 (4)2.2.2 均值方差法 (5)2.3指纹图像的细化 (6)2.3.1指纹图像细化的预处理 (6)2.3.2 指纹图像细化方法计算 (7)2.4指纹图像的特征提取 (8)2.4.1 指纹特征提取概述 (8)2.4.2指纹特征提取和去伪特征 (9)2.5 指纹图像匹配方法 (10)2.5.1指纹图像匹配介绍 (10)2.6本章小结 (11)3仿真结果及其分析 (12)3.1仿真结果及分析 (12)3.2本章小结 (14)结论 (16)参考文献 (17)附录 MATLAB程序 (18)致谢 (35)1 绪论1.1本课题背景和意义指纹识别技术的应用十分广泛,指纹因具有终生不变性及稳定性,而且不同人指纹相同的概率几乎为零,因此指纹自动识别系统被广泛应用于案例分析、商业活动中的身份鉴别等领域.目前有很多的生物测定技术可用于身份认证,包括虹膜识别技术、视网膜识别技术、面部识别、签名识别、声音识别技术、指纹识别等,具有安全、可靠的特点,其中自动指纹识别系统是目前研究最多、最有应用前景的生物识别系统。
基于神经网络的声纹识别系统设计与实现本论文旨在设计并实现一个基于神经网络的声纹识别系统,通过深度学习技术自动提取声纹特征,并进行声纹匹配和识别。
系统设计遵循模块化、可扩展和可移植的原则,采用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,结合多种数据增强和正则化技术,提高模型的泛化能力和鲁棒性。
系统实现过程中,我们收集了大量的声纹数据,包括不同性别、年龄、方言和说话风格的数据,并对数据进行预处理和标注。
通过对比实验,我们验证了所设计系统的有效性,并与其他声纹识别方法进行了性能比较。
实验结果表明,基于神经网络的声纹识别系统在识别准确率、鲁棒性和实时性方面均表现出色,具有较高的应用价值。
本论文的主要贡献包括:1. 设计并实现了一个基于神经网络的声纹识别系统,系统具有模块化、可扩展和可移植的特点。
2. 提出了一种结合CNN和RNN的深度学习模型,能够自动提取声纹特征并进行声纹匹配和识别。
3. 通过对比实验,验证了所设计系统的有效性,并与其他声纹识别方法进行了性能比较。
1. 进一步优化深度学习模型,提高模型的识别准确率和鲁棒性。
2. 探索更多数据增强和正则化技术,提高模型的泛化能力。
3. 将所设计系统应用于实际场景,如身份认证、安全监控和智能语音交互等。
随着科技的不断进步,生物特征识别技术日益成熟,声纹识别作为其中的一种重要方式,在个人身份验证、安全监控等领域展现出了巨大的潜力。
传统的声纹识别技术主要依赖于手工特征提取和匹配,但在复杂多变的环境下,其准确性和鲁棒性往往难以满足实际应用的需求。
因此,我们需要探索新的方法来提高声纹识别的性能。
神经网络作为一种强大的机器学习工具,具有自动特征提取和模式识别的能力,为声纹识别提供了新的思路和方法。
基于此,本文设计并实现了一个基于神经网络的声纹识别系统,旨在通过深度学习技术自动提取声纹特征,并进行声纹匹配和识别。
在系统设计方面,我们遵循模块化、可扩展和可移植的原则,采用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,结合多种数据增强和正则化技术,提高模型的泛化能力和鲁棒性。
基于深度学习的声纹识别与认证系统设计与实现声纹识别与认证是一种基于个体声音特征进行身份验证的技术,在现实生活中有着广泛的应用。
深度学习作为一种强大的机器学习方法,已经在声纹识别与认证领域展现出了巨大的潜力。
本文将介绍基于深度学习的声纹识别与认证系统的设计与实现。
声纹识别与认证系统的设计与实现主要分为以下几个步骤:声纹特征提取、声纹特征建模、声纹特征匹配与认证。
首先,声纹特征提取是声纹识别与认证的关键步骤之一。
深度学习提供了一种有效的方法来提取声纹特征。
传统的声纹特征提取方法主要依赖于人工设计的特征提取器,如MFCC和PLP。
然而,这些方法往往对噪声敏感且不具有鲁棒性。
而基于深度学习的声纹特征提取方法可以通过训练深度神经网络来自动学习具有鲁棒性的声纹特征表示。
这些深度神经网络通常是多层的卷积神经网络或递归神经网络,可以有效地提取语音信号中的抽象特征。
其次,声纹特征建模是声纹识别与认证的关键步骤之二。
特征建模的目标是利用声音特征来建立一个对不同声音进行区分的模型。
传统的方法主要使用高斯混合模型(GMM)或高斯混合模型隐马尔可夫模型(GMM-HMM)。
然而,这些方法需要大量的标注数据来估计模型参数,并且对噪声敏感。
相比之下,基于深度学习的声纹建模方法可以使用少量的标注数据,并且对噪声具有较好的鲁棒性。
常见的深度学习声纹建模方法包括深度神经网络(DNN)、卷积神经网络(CNN)和长短时记忆网络(LSTM)。
然后,声纹特征匹配与认证是声纹识别与认证的关键步骤之三。
对于特定的声纹输入,系统需要找到与之最相似的声纹特征进行比较。
在传统方法中,通常使用动态时间规整(DTW)算法或高斯混合模型相关系数(GMM-CC)来进行声纹特征比对。
但是这些方法在速度和准确性上存在一定的问题。
基于深度学习的声纹特征匹配方法可以使用欧氏距离或余弦相似度来度量声纹特征之间的相似度,并且具有更好的匹配性能。
最后,基于深度学习的声纹识别与认证系统还可以进一步整合其他的技术来提升性能。
声纹识别系统课程设计一、课程目标知识目标:1. 学生能理解声纹识别系统的基本原理,掌握声音信号处理的相关知识;2. 学生能了解声纹识别技术在生活中的应用,认识到其对社会的重要性;3. 学生掌握声纹特征提取、匹配与识别的基本方法,了解影响声纹识别效果的主要因素。
技能目标:1. 学生能运用所学知识,对实际声音信号进行预处理和特征提取;2. 学生能通过编程实现简单的声纹识别系统,具备一定的实际操作能力;3. 学生能对声纹识别系统进行性能评估,并提出优化方案。
情感态度价值观目标:1. 学生培养对声纹识别技术的兴趣,激发探索未知领域的热情;2. 学生通过学习声纹识别系统,认识到人工智能技术在实际生活中的应用价值;3. 学生在团队协作中培养沟通、合作能力,增强解决问题的信心。
分析课程性质、学生特点和教学要求,本课程目标旨在使学生在掌握声纹识别基本知识的基础上,培养实际操作能力,提高创新意识和团队协作能力。
通过分解课程目标为具体的学习成果,教师可针对性地进行教学设计和评估,确保课程目标的实现。
二、教学内容1. 声纹识别基本原理:声音信号处理基础,声音信号的时域、频域分析,声纹特征参数介绍;2. 声纹识别技术应用:介绍声纹识别在安全验证、刑侦、智能交互等领域的应用案例;3. 声纹特征提取:讲授常用的声纹特征提取方法,如梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)等;4. 声纹匹配与识别:讲解声纹匹配算法,如动态时间规整(DTW)、支持向量机(SVM)等;5. 声纹识别系统实现:基于实际声音数据,指导学生进行预处理、特征提取、匹配识别等操作;6. 声纹识别性能评估:介绍评估指标,如准确率、召回率等,分析影响声纹识别效果的因素;7. 声纹识别系统优化:探讨优化方案,如特征融合、模型调整等。
教学内容依据课程目标进行选择和组织,保证科学性和系统性。
教学大纲明确以下安排和进度:第一周:声纹识别基本原理及声音信号处理基础;第二周:声纹识别技术应用及特征提取方法;第三周:声纹匹配与识别算法;第四周:声纹识别系统实现与性能评估;第五周:声纹识别系统优化方案探讨。
目录一、设计任务及要求 (1)二、语音识别的简单介绍2.1语者识别的概念 (2)2.2特征参数的提取 (3)2.3用矢量量化聚类法生成码本 (3)2.4VQ的说话人识别 (4)三、算法程序分析3.1函数关系 (4)3.2代码说明 (5)3.2.1函数mfcc (5)3.2.2函数disteu (5)3.2.3函数vqlbg (6)3.2.4函数test (6)3.2.5函数testDB (7)3.2.6 函数train (8)3.2.7函数melfb (8)四、演示分析 (9)五、心得体会 (11)附:GUI程序代码 (12)一、设计任务及要求用MATLAB实现简单的语音识别功能;具体设计要求如下:用MATLAB实现简单的数字1~9的语音识别功能。
二、语音识别的简单介绍基于VQ的说话人识别系统,矢量量化起着双重作用。
在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。
在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。
语音识别系统结构框图如图1所示。
图1 语音识别系统结构框图2.1语者识别的概念语者识别就是根据说话人的语音信号来判别说话人的身份。
语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。
用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。
因此,近几年来,说话人识别越来越多的受到人们的重视。
与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。
因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。
目录摘要 (I)Abstract .................................................................................................................................. I I 第一章引言 (1)1.1 研究背景及意义 (1)1.2 优势及应用前景 (1)1.3 国内外研究现状 (1)第二章说话人识别的基本原理 (3)2.1 说话人识别基本知识 (3)2.1.1 语音的发声机理 (3)2.1.2 清音和浊音 (3)2.1.3 语音信号模型 (3)2.1.4 语音识别基本过程 (4)2.2 预处理模块 (4)2.2.1 采样 (4)2.2.2 量化 (5)2.2.3 预加重 (5)2.2.4 加窗 (5)2.3 特征提取模块 (6)2.3.1 短时平均能量分析 (6)2.3.2 短时平均幅度分析 (7)2.3.3 短时过零率分析 (8)2.3.4 短时自相关分析 (8)2.3.5 LPC倒谱系数(LPCC) (9)2.3.6 Mel频率倒谱系数(MFCC) (9)2.4 训练和识别模块 (10)2.4.1 矢量量化模型(VQ) (10)2.4.2 隐马尔可夫模型(HMM) (11)2.4.3 人工神经网络模型(ANN) (12)2.4.4 HMM和ANN的混合模型 (13)第三章基于Matlab的说话人识别 (14)3.1 说话人识别系统平台介绍 (14)3.2 语音采集模板(Speech Recording Plane) (14)3.3 预处理模板(V oice Preprocessing Plane) (15)3.4 特征提取模板(Feature Extraction Plane) (17)3.5 训练识别模板(Speech Recognition Plane) (18)第四章总结与展望 (25)4.1 总结 (25)4.2 展望 (25)致谢 (27)参考文献 (28)附录 (29)摘要说话是人类相互沟通交流最方便、最快捷的一种方式,世界上每一个说话人都拥有自己特定的语音,正如每个人的指纹一样,都是绝无仅有的。
项目题目:基于Matlab的语音识别一、引言语音识别技术是让计算机识别一些语音信号,并把语音信号转换成相应的文本或者命令的一种高科技技术.语音识别技术所涉及的领域非常广泛,包括信号处理、模式识别、人工智能等技术。
近年来已经从实验室开始走向市场,渗透到家电、通信、医疗、消费电子产品等各个领域,让人们的生活更加方便。
语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求和对说话人的依赖程度。
(1)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统.(2)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。
(3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。
二、语音识别系统框架设计2。
1语音识别系统的基本结构语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图l所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块,其中后处理模块为可选部分。
三、语音识别设计步骤3。
1语音信号的特征及其端点检测图2 数字‘7’开始部分波形图2是数字”7”的波形进行局部放大后的情况,可以看到,在6800之前的部分信号幅度很低,明显属于静音。
而在6800以后,信号幅度开始增强,并呈现明显的周期性。
在波形的上半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期。
这样可以很直观的用信号的幅度作为特征,区分静音和语音。
只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。
3.2 语音识别系统3.2。
1语音识别系统的分类语音识别按说话人的讲话方式可分为3类:(1)即孤立词识别(isolated word recognition),孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机"等。
基于MATLAB的声纹识别系统软件的设计作者:张敏敏马骏龚晨晓陈亮亮郑茜茜来源:《科技视界》 2013年第22期张敏敏马骏龚晨晓陈亮亮郑茜茜(温州医科大学信息与工程学院,浙江温州 325000)【摘要】本文基于MATLAB,利用语音模型匹配的方法设计并完成了一个与文本相关的声纹识别软件系统。
系统预先由麦克风向计算机录入各个说话人的语音样本,经预处理、基音周期和MFCC参数提取、多重迭代训练后得到各说话人语音的隐马尔可夫(HMM)参考模型。
实验时将输入的语音样本进行测试,根据被测试语音模型和参考模型的匹配度来进行识别。
实验结果表明,本系统的识别率将随着训练次数的增多而提高,系统基本可达到高于85%的正确识别率和实时识别的要求。
【关键词】声纹识别;Matlab;MFCC参数;HMM模型0引言声纹识别技术[1]为生物识别技术的一种,也称为说话人识别,分为说话人辨认和说话人确认[2]。
目前,市场上已经出现了一些声纹识别的应用,比如在军事情报方面,用于电话领域的监听与追踪;在监狱管理中,用于亲情通话对象的管控;在司法取证方面,语音声纹分析识别用于司法鉴定,还有社保身份认证、电话语音声纹考勤甚至现在非常流行的声纹锁屏[3]等等。
每个人的说话声音由于音色的不同可以被区分开来,本文所涉及到的声纹识别系统软件的设计[4]便是提取了声纹中的特征参数,把它作为本系统声纹识别技术的依据。
与此同时,声纹识别分为文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种[4]。
本识别系统为与文本相关[5]的声纹识别系统,要求用户按照规定的内容发音,建立好说话人的声纹模型,在后期进行语音识别时需要按规定的内容发音进而进行说话人身份的辨别。
1声纹识别系统设计本系统整体流程分为设计分为5步:预处理、提取特征参数(基音周期、倒谱系数等)、建立参考模型、带入测试模型、进行匹配。
(1)预处理:包括采样和量化(即A/D转换)、预加重处理、加窗、依据短时能量谱的语音端点检测等几个处理过程。
毕业设计开题报告电气工程及其自动化一种基于MATLAB的特定声音识别算法的研究一、选题的背景、意义语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。
这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。
这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ) 和隐马尔可夫模型(HMM) 理论。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。
语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。
比较有代表性的系统有:IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking,Nuance公公的Nuance Voice Platform语音平台,Microsoft的Whisper,Sun的VoiceTone 等。
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
基于MATLAB的说话人识别系统设计与实现王现彬;杨洁;贾英茜;饶立婵【摘要】借助语音增强、基音频率分析和共振峰分析,设计了简单的说话人识别系统.在识别过程中以平均基音频率、共振峰峰值位置作为两种评价标准,交互印证,最终实现了说话人的身份辨认.【期刊名称】《石家庄学院学报》【年(卷),期】2016(018)003【总页数】4页(P5-8)【关键词】基音频率;共振峰;说话人识别;MATLAB【作者】王现彬;杨洁;贾英茜;饶立婵【作者单位】石家庄学院物理与电气信息工程学院,河北石家庄 050035;石家庄学院物理与电气信息工程学院,河北石家庄 050035;石家庄学院物理与电气信息工程学院,河北石家庄 050035;石家庄学院物理与电气信息工程学院,河北石家庄050035【正文语种】中文【中图分类】TN391人类语音信号可对受众提供多重信息:首先可通过字、词来传递消息,其次可将说话人的感情、性别等信息传递出来,同时在语音信号里也暗含了说话人的身份信息[1-4].语音识别的目的在于识别说话人所表达出来的词汇,而说话人识别的功能是通过提取、表征并识别语音信号中的特征以验证说话人的身份.根据说话人说话内容可分为“与文本无关”、“与文本相关”及“文本提示型”的说话人识别;依据其应用范围又可分为说话人确认(Speaker Verification)和说话人辨认(Speaker Identification)[5].说话人确认就是要通过某种适当的判断准则以确定说话人是否是所声称的说话人,而说话人辨认不但要确认是否是所声称的说话人,还要确认到底是谁.近年来随着数字信号处理(DSP)技术的进步,说话人识别技术得到了迅猛发展,使其在身份鉴别、电话银行、电话购物、语音E-mail等互联网及通信领域得到了一定的应用.借助基音频率(周期)分析和共振峰分析,以基音和共振峰作为说话人语音信号的特征参数,通过分析平均基音频率和共振峰矢量差,在MATLAB平台上设计了一套简单的说话人识别系统,达到了识别说话人的目的,而该说话人识别算法可以为更为复杂的说话人识别系统的实现提供基本参考.设计过程包括语音信号时域分析、语音信号增强、基音频率(周期)分析、共振峰分析、结果识别等步骤,现分别加以说明.在语音信号时域分析阶段,主要是借助MATLAB强大的数值计算能力及图形显示能力,观测语音信号的时域波形,图1给出了语音信号为“物电学院”的语音信号波形记为s0.该语音信号可以借助Windows自带的“录音机”软件来进行语音信号的录制.通过观测图1可以看出,在语音信号波形当中夹杂着一些噪声,这主要是由声音采集设备所引入的.由于语音信号中含有噪声,故在识别前需对语音信号进行语音增强,以降低、抑制噪声对语音信号的影响,从而提高后续说话人识别的正确率.在该部分采用巴特沃斯(Butterworth)低通滤波器进行噪声的滤除,以达到语音信号增强的目的.所选用的Butterworth低通滤波器幅度平方函数如式(1)所示[6]:其中Ωc为通带截止频率,N为滤波器阶数,在仿真时选取N=4.经过该滤波器滤波后,语音信号得到了有效增强.为了进行说话人识别,必须找出说话人的语音特征,基音频率和共振峰都可作为说话人的语音特征来使用.基音频率为声带振动时的频率,相应的周期即为基音周期,基音频率与个人声带、发音习惯等特征息息相关.而共振峰也可反应出说话人的语音特征,其参数包括共振峰频率、共振峰频带宽度及共振峰幅度,一般认为共振峰包含在语音信号的频谱中,即频谱包络中的峰值为共振峰.常用的基音周期估计方法包括时域估计法、变化法和混合法.而在时域估计法中较为常用的是采用自相关进行基音周期估计,再进行换算继而求出基音频率.式(2)为能量受限的语音信号x(n)的短时自相关函数:其中x(n)为语音信号,u(i)为窗函数,保证语音信号为短时且能量受限.在短时自相关函数中周期位置处表现为峰值,这样相邻的两个峰值之间的距离即为基音周期,而基音周期的倒数则为基音频率.图2给出了s0的基音频率在不同时间处的表现形式,其平均基音频率为239.3 Hz,在说话人识别过程中,可用该平均值作为s0的特征进行比对,以达到识别的目的.在进行共振峰分析时,需根据语音信号频域包络来确定共振峰,故需先对语音信号进行功率谱分析,参照其功率密度谱上的峰值来确定共振峰.为了更好地描述功率密度谱上的尖峰,应该选用具有全极点的模型进行估计,而自回归(AR)模型恰好满足此条件.描述AR全极点模型的方程如式(3)所示:其中bi为系数,y(n)为输出,y(n-i)为y(n)的延时,w(n)为高斯白噪声.式(3)对应的系统函数H(z)如式(4)所示,可以看出其系统函数中只有极点,没有零点,故该模型可以更好地反映功率密度谱中的尖峰.在计算式(3)中的功率密度谱时可借助文森递推算法迭代求解Yule-Walker方程,最终式(3)的功率密度谱可用式(5)来描述[7]:其中为高斯白噪声的功率密度谱.图3给出了s0语音信号的功率密度谱包络,由图3可以看出,在功率密度谱包络上共有4个共振峰.在说话人识别阶段,依据共振峰的位置及其峰值大小,可作为s0的语音特征与其他语音信号比对,以进行说话人识别.借助语音增强、基音频率分析和共振峰分析,即可进行简单的说话人识别.在识别过程中以平均基音频率、共振峰峰值位置作为两种评价标准,交互印证,最终实现说话人的辨认.首先自建包含20个语音信号的语音库,将待分析语音信号s0和语音库中的已有语音信号进行基音频率分析,计算各自平均基音频率.将s0的平均基音频率和语音库中的平均基音频率进行比对,计算平均基音频率差值,并选取语音库中误差最小的前10个语音信号作为s0的近似匹配信号.在此基础上计算s0和前10个语音信号的共振峰位置,以共振峰矢量差作为第2种对比参数,选取矢量差最小的语音信号作为s0的最匹配语音,最终确定该语音信号与s0为同一说话人,进而实现说话人的识别.依据前述分析,首先将待识别语音s0和自建数据库中的20个语音信号s1-s20共21个语音信号进行基音频率分析,并计算各自的平均基音频率,将待识别语音s0的平均基音频率与数据库中的20个语音信号的平均基音频率一一进行比对,对比结果如图4柱状图所示.在图4中横坐标为数据库语音信号标号,纵坐标为待识别语音信号s0与数据库中各语音信号的基音频率差值.从图4可以看出,s3与待识别语音信号s0的差值最小,其差值为7.5;s13与s0的基音频率差值最大,为136.4.由于在本部分识别过程中,只采用了一种语音特征——基音频率,并不能使识别正确率最大化,故继续进行共振峰特征识别.将图4中基音频率差按从小到大排列前十的10个语音信号标定出来,并用第二种语音特征——共振峰来进行第2轮比对.分别计算s0和标定出来的数据库中前10个语音信号的共振峰,确定其共振峰位置及其强度,并计算共振峰矢量差,以此为参数重新进行从小到大的排列,将排序前五的结果进行绘图,如图5所示.在图5中s7与s0的共振峰矢量差最小,为0.18,而s15与s0的共振峰矢量差最大,其值为0.51.故s7与s0最为相似,由此确定s7与s0为同一说话人.对比图4和图5可以看出,在图4中s3与s0的基音频率差值最小;但在图5中,s3与s0的共振峰矢量差却排在第3位.由此可见,采用一种语音特征参数进行识别正确识别率较低,原因是一种语音特征无法涵盖语音信号的全部信息,故在识别过程中需采用多种语音特征进行交互验证,最大程度提高识别正确率.借助语音增强、基音频率分析和共振峰分析,在MATLAB平台上设计了简单的说话人识别系统.在识别过程中以平均基音频率、共振峰峰值位置作为两种评价标准,交互印证,最终实现了说话人的辨认.实验结果表明:若采用一种语音特征参数进行识别,正确识别率较低,原因是一种语音特征并不能涵盖语音信号的全部信息,故在识别过程中需采用多种语音特征进行交互验证,最大程度提高正确识别率.在后续试验中需进一步优化识别程序,引入更为精确的语音特征提取算法和识别方法,进而提高识别速度与识别精度.【相关文献】[1]LEE C H,SOONG FK,PALIWAL K.Automatic Speech and Speaker Recognition:Advanced Topics[M].Germany:Springer Science& BusinessMedia,2012.[2]LEI Y,FERRER L,MCLAREN M.A Novel Scheme for Speaker Recognition Using a Phonetically-aware Deep Neural Network[C]// Acoustics,Speechand SignalProcessing (ICASSP),2014 IEEEInternationalConferenceon.IEEE,2014:1695-1699.[3]KENNYP,GUPTAV,STAFYLAKIS T,et al.Deep NeuralNetworksFor ExtractingBaum-welch Statistics for SpeakerRecognition[C]// Proc.Odyssey.2014:293-298.[4]林琳,陈虹,陈建.基于鲁棒听觉特征的说话人识别[J].电子学报,2013,41(3):619-624.[5]吴海洋,杨飞然,周琳,等.矢量泰勒级数特征补偿的说话人识别[J].声学学报,2013,38(1):105-112.[6]陈怀琛.数字信号处理教程:MATLAB释义与实现[M].北京:电子工业出版社,2013. [7]宣传忠,武佩,马彦华,等.基于功率谱和共振峰的母羊发声信号识别[J].农业工程学报,2015,(24):219-224.。
基于MATLAB的声纹识别系统软件的设计
【摘要】本文基于MATLAB,利用语音模型匹配的方法设计并完成了一个与文本相关的声纹识别软件系统。
系统预先由麦克风向计算机录入各个说话人的语音样本,经预处理、基音周期和MFCC参数提取、多重迭代训练后得到各说话人语音的隐马尔可夫(HMM)参考模型。
实验时将输入的语音样本进行测试,根据被测试语音模型和参考模型的匹配度来进行识别。
实验结果表明,本系统的识别率将随着训练次数的增多而提高,系统基本可达到高于85%的正确识别率和实时识别的要求。
【关键词】声纹识别;Matlab;MFCC参数;HMM模型
0 引言
声纹识别技术[1]为生物识别技术的一种,也称为说话人识别,分为说话人辨认和说话人确认[2]。
目前,市场上已经出现了一些声纹识别的应用,比如在军事情报方面,用于电话领域的监听与追踪;在监狱管理中,用于亲情通话对象的管控;在司法取证方面,语音声纹分析识别用于司法鉴定,还有社保身份认证、电话语音声纹考勤甚至现在非常流行的声纹锁屏[3]等等。
每个人的说话声音由于音色的不同可以被区分开来,本文所涉及到的声纹识别系统软件的设计[4]便是提取了声纹中的特征参数,把它作为本系统声纹识别技术的依据。
与此同时,声纹识别分为文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种[4]。
本识别系统为与文本相关[5]的声纹识别系统,要求用户按照规定的内容发音,建立好说话人的声纹模型,在后期进行语音识别时需要按规定的内容发音进而进行说话人身份的辨别。
1 声纹识别系统设计
本系统整体流程分为设计分为5步:预处理、提取特征参数(基音周期、倒谱系数等)、建立参考模型、带入测试模型、进行匹配。
(1)预处理:包括采样和量化(即A/D转换)、预加重处理、加窗、依据短时能量谱的语音端点检测等几个处理过程。
(2)提取特征参数:为了能够表征说话人语音中说话人特定器官结构或习惯行为,便需要提取特征参数,并且该特征参数对同一说话人应具有相对稳定性。
①基音周期[6]:产生发音时声门的开启和闭合引起声带的周期性振动,形成周期性的脉冲串,用来描述这一串脉冲气流的周期称为基音周期。
这种参数的提取主要是基于说话人发声器官,如声门、声道和鼻腔等的特殊结构而提取出说话人语音的短时谱特征(即基音频率谱及其轮廓)。
②倒谱系数[7]:目前主流的声纹特征参数有LPC以及基于Mel频率的倒谱系数(Mel—frequency cepstral coefficients,MFCC)。
实验中证明,MFCC是目前声纹特征中识别率最高的一种,本系统便是提取Mel频率倒谱系数MFCC用来模拟人耳听觉系统的感知能力,描述语音信号在频率域上的能量分布。
Mel倒谱系数MFCC的提取过程如下:
A.对语音信号进行预处理。
B.离散傅里叶变换(DFT):是信号完成从时域至频域的转换。
C.生成Mel滤波器组。
D.计算经Mel滤波器组加权后的能量值。
E.做离散余弦DCT变换。
(3)建立参考模型:常见的识别模型有模板模型(动态时间规整方法DTW、矢量量化方法VQ)、概率模型(隐马尔科夫模型HMM、高斯混合模型GMM),以及目前正在发展中的人工神经网络(ANN)方法。
本实验采用的隐马尔科夫模型HMM[8],并将该模型确定为本系统的模式匹配方法。
使用HMM模型可以用短时模型描述平稳段的信号,而且还可以解决每个短时平稳段是如何转变到下一个短时平稳段的问题。
本过程目的是对所提取出来的说话人语音特征进行学习训练,建立声纹模板或语音模型库,或对系统中已有的声纹模板或语音模型库进行适应性修改。
(4)带入测试模型:将用于测试的语音样本参数代入,得测试模型,与参考模型一一匹配。
(5)进行匹配:在识别过程中,声纹识别系统要根据系统已有的声纹模板或语音模型库对输入语音的特征参数进行模式匹配计算,从而实现识别判断,得出识别结果。
2 实验与结果
在声纹识别系统的测试实验中,从所在班级随机抽取了15名学生(其中男生10名、女士5名),每人6个样本,共计90个语音样本,男性说话人有Yjd,Zsl,Mj,Zqy,Gcx,Mgj,Mz,Mjp,Srf,Jd,女性说话人有Hj,Whj,Gxx,Yhr,Zm。
在使用该语音库的前提下,要求他们对指定文本“温州医科大学”应用普通话进行自然发音,录制环境为室内。
并把每一个说话人的6份样本中3份样本用于训练,3份样本用于测试,建立不同的HMM模型,观察不同训练的样本数对识别结果的影响。
实验表明,运用MATLAB建立的HMM模型确实可以进行说话人身份的识
别,本系统的识别率为85%以上,但如果增加训练次数,则识别率也会相应地得到提高。
在系统实时处理上,由于MFCC参数计算量比较大,所花费的计算时间较长,使得本系统的实时性受到了考验,另外由于MFCC参数的计算涉及到DFT计算、对数计算,这使得整个计算的动态范围受到了影响以至于影响本系统的精确度。
3 声纹识别技术的研究进展
声纹识别技术仍需要在研究方法和市场应用进行相应的改进,一方面,要寻找更为优良的研究方法,另一方面,由于建模方法的选择与使用都会对声纹识别结果带来很大的影响,这要求我们能够寻找到一种更为稳定的声纹特征参数来帮助说话人身份的识别,一方面,要保证乃至提高系统的精确性,另一方面,也要保证独一性,能够区分不同说话人的特质。
随着声纹技术的不断发展,所对应的声纹市场也日趋成熟,必定会与当今的信息化时代相契合,提供一种切实有效的安全保障。
【参考文献】
[1]http:///view/116450.htm[OL].
[2]Joseph P. Campbell,Jr. Speaker recognition:a tutorial[J]. Proceedings of the IEEE,1997,85:1437-1462.
[3]http:///[OL].
[4]陈怀琛.数字信号处理教程:MATLAB释义与实现[M].2版.北京:电子工业出版社,2008.
[5]Chi-Wei Che,Qi-guang Lin,Dong-SukYuk. An HMM Approach to Text-Prompted Speaker Verification[C]//The 1996 IEEE International Conference on Acoustics,Speech and Signal.Processing Conference Proceedings,1996,2:673-676.
[6]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.
[7]张万里,刘桥.Mel频率倒谱系数提取及其在声纹识别中的作用[J].贵州大学学报,2005,22(2):5.
[8]王书沼.基于高斯混合模型的说话人识别系统的研究[D].大连理工大学,2006.。