说话人识别王林海PPT课件
- 格式:ppt
- 大小:370.00 KB
- 文档页数:43
JIU JIANG UNIVERSITY毕业论文(设计)题目基于声纹的说话人特征识别英文题目 Speaker feature recognition based on the voiceprint院系专业姓名年级指导教师2013年6月摘要说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而自动识别说话人身份的技术。
它也常被人们称为声纹识别技术,是生物认证技术的一种,其基本思想就是运用某种匹配方法进行特征识别,从而确定说话人的身份。
目前已知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线性预测系数(LPC)、线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等。
本文介绍了说话人识别的概念、原理及其识别实现的方法,指出了说话人识别技术的应用前景。
通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统,实验结果表明实验正确、有效。
关键字:说话人识别;特征参数;基音周期;线性预测倒谱;Mel频率倒谱Speaker feature recognition based on the voiceprintAbstractSpeaker recognition is the voice parameters in a speech waveform which reflects the speaker's physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication technology.The basic idea is to use a matching method for feature recognition, in order to determine the identity of the speaker.Currently known voice features include pitch, spectrogram, since the correlation coefficient, energy, average magnitude, the zero crossing rate,formant, the line spectrum of the Linear Prediction Coefficient (LPC), Linear Prediction Cepstrum (LPCC) , Mel Frequency Cepstral (MFCC).This article describes the speaker identification concepts, principles and implementation methods of identification, and pointed out the prospect of speaker recognition technology. By the Matlab7.0 platform, voice pitch, linear prediction cepstrum and Mel Frequency inverted spectra characteristic parameter extraction, analysis, contrast, identify a simple speaker recognition system, experimental results show that the experiment is correct, effective .Key Words:Speaker Recognition;Feature Parameter;Pitch;Linear Prediction Cepstral Coefficient;Mel Frequency Cepstral Coefficient目录摘要 (I)Abstract....................................................................................................................... I I 目录.. (IV)引言 (1)第一章说话人识别研究 (4)1.1说话人识别研究的意义 (4)1.2说话人识别应用领域 (5)1.3说话人识别的技术优势 (6)1.4说话人识别研究的难点和热点 (7)1.4.1说话人识别技术研究的难点 (7)1.4.2说话人识别研究的热点 (10)1.5影响说话人识别性能的因素 (11)1.6论文的内容安排 (13)第二章说话人识别的基本介绍 (14)2.1语音的基础知识 (14)2.1.1语音的产生原理 (14)2.1.2语音产生模型 (15)2.1.3语音信号的预处理技术 (17)2.2说话人识别的分类 (20)2.3说话人识别的基本原理 (22)2.4说话人识别的常用特征 (24)2.5说话人识别系统的结构框架 (25)2.7说话人识别系统评价标准 (31)第三章特征参数的提取 (32)3.1 倒谱 (32)3.1.1 同态处理基本原理 (32)3.1.2 复倒谱和倒谱 (34)3.2线性预测倒谱(LPCC)的提取 (34)3.2.1 LPCC的介绍 (34)3.2.2 LPCC的提取过程 (36)3.2.3 Matlab中实现LPCC的提取 (36)3.3 Mel频率倒谱(MFCC)的提取 (38)3.3.1 Mel频率介绍 (38)3.3.2 MFCC提取过程 (39)3.3.3 Matlab中实现MFCC的提取 (41)3.4 基音周期的提取 (43)3.4.1基音周期的介绍 (43)3.4.2短时自相关函数 (45)3.4.3 MATLAB中实现基音周期的提取 (47)第四章说话人识别系统的实现 (47)4.1 实验实现的环境 (47)4.2 WA V声音文件格式分析 (48)4.3实验平台的选择 (49)4.4录音 (50)4.5 预处理和端点检测 (50)4.7 系统实验框图和步骤 (52)4.8实验结果和分析 (52)4.8.1实验结果 (52)4.8.2 结果分析 (60)4.9 小结 (60)参考文献 (60)附录 (61)致谢 (85)引言语音是人类交流信息的基本手段。
说话人识别方法概述作者:武光利来源:《硅谷》2012年第19期摘要:说话人识别是语音识别的一个重要的分支,是当前的研究热点之一。
首先介绍说话人识别的基本原理,然后介绍说话人识别常用的特征参数和分类方法,最后探讨说话人识别研究的难点。
关键词:说话人识别;特征提取;分类方法说话人识别是从说话人所发语音中提取出说话人是谁的信息的过程。
根据说话人识别的目标,可分为说话人辨认和说话人确认。
1)说话人辨认:根据给出的一段语音,判断是已知的N个人中的哪个人说的,所要解决的是“你是谁”的问题。
如果这个人一定包含在这N个人中,则称为“闭集”否则,称为“开集”。
2)说话人确认:根据给出的一段语音,判断是否是某个特定人说的,所要解决的是“你是否是你所声明的那个人”的问题。
根据说话人识别系统的工作模式,可将其分为与文本有关和与文本无关的两种。
1 说话人识别的基本原理图1给出了说话人识别系统框图。
建立和应用这一系统可以分为两个阶段[1],即训练阶段和识别阶段。
在训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集。
而在识别阶段,待识别说话人语音中导出的参量要与训练中的参考参量或模板加以比较,并且根据一定的相似性准则形成判断。
对于说话人辨认来说,所提取的参数要与训练过程中的每一人的参考模型加以比较,并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。
对于说话人确认而言,则是将从输入语音中导出的特征参数与其声音为某人的参考量相比较,如果两者的距离小于规定的阈值,则予以确认,否则予以拒绝。
2 说话人识别常用的特征一般而言,说话人所发出的语音信号中既包含说话人所要表达的语音信息,又包含说话人本人特有的个性特征。
按照参数的稳定性,说话人特征参数可大致分为两类[2]:一类是说话人生理决定的固有特性(例如,声道构造的个性差异等),主要表现在语音的频率结构上,代表性的特征参数有基音和共振峰。