基于美尔倒谱系数及隐马尔可夫模型的说话人识别系统研究

格式：pdf
大小：283.01 KB
文档页数：3

下载文档原格式

/ 3

基于嵌入式的特定人语音识别智能轮椅设计的开题报告

基于嵌入式的特定人语音识别智能轮椅设计的开题报告一、选题背景与意义随着人口老龄化的加剧，行动不便的老年人数量也在逐年增加。

他们的日常生活中存在着很多难以克服的困难，往往需要借助他人的帮助。

在这样的情况下，特定人语音识别技术可以为老年人提供更加便捷的生活方式。

嵌入式系统的发展也为智能轮椅的研发提供了更好的机会。

智能轮椅可以为行动不便的老年人提供更加舒适的出行方式，同时也可以提高生活质量和幸福感。

因此，基于嵌入式的特定人语音识别智能轮椅设计是一项具有重要意义的研究。

二、研究目的本研究旨在设计一款基于嵌入式的特定人语音识别智能轮椅，为行动不便的老年人提供更加便捷和舒适的出行方式。

三、研究内容和技术路线本研究将主要涉及以下内容：1. 嵌入式系统的硬件平台设计和开发，包括单片机选型、外设选择和系统集成等。

2. 特定人语音识别技术的研究和开发，包括语音信号的获取、特征提取和语音模型的训练等。

3. 智能轮椅的控制系统设计和开发，包括电机控制、传感器采集和座椅控制等。

4. 系统软件设计和开发，包括系统驱动、人机交互界面设计和应用程序开发等。

5. 系统测试和性能优化，包括硬件测试、功能测试和性能测试等。

技术路线如下：1. 硬件平台的设计和开发：根据系统应用需求，选取适合的单片机作为主控芯片，选择合适的外设驱动模块，完成硬件平台的设计和开发。

2. 特定人语音识别技术的研究和开发：在硬件平台的基础上，采用梅尔倒谱系数（MFCC）方法提取语音特征，采用隐马尔可夫模型（HMM）进行模型训练和识别。

3. 智能轮椅的控制系统设计和开发：根据用户需求和行动不便程度，设计合适的控制系统，实现轮椅的灵活控制、转向和座椅调节等功能。

4. 系统软件设计和开发：采用C语言、STM32 CubeMX等工具进行系统软件设计和开发，实现系统驱动、人机交互界面设计和应用程序开发等功能。

5. 系统测试和性能优化：进行硬件测试、功能测试和性能测试，优化系统的性能和稳定性。

基于梅尔频率倒谱系数与翻转梅尔频率倒谱系数的说话人识别方法

ｈｔ：／ｗ．ｃ．ｎｔ／ｗｗｊａｅｐｏ
文章编号：０１９８（０２０２４０１０ — ０１２１）９— ５２— ３
ｄｉ１．７４Ｓ．．０７２１．２４ｏ：０３２／ＰＪ１８．０２０５２
基于梅尔频率倒谱系数与翻转梅尔频率倒谱系数的说话人识别方法
ＨＵｎｇｓｎ，ＺＦｅ —ｏｇＨＡＮＧＸｕａｎ‘
（ｏｌｅｏｎｏｍｔｎＳｉｃｎｎｉｅｉ，ＨｕａｎｖｒｔｈｎｓａＨｕａ１０２ｈｎ）ＣｌｇｆｒａｉｃｎｅａｄＥｇｎｒｇｅｆＩｏｅｅｎｎｎＵｉｓｙｅｉ，Ｃａｇｈｎｎ４０８，Ｃｉａ
ｆａｕｅｂｏｉｉｇＭＦｉＭＦＣｕｉｇＦｓｅｒｔｒｏ．ＴｅｅｐｒｎａｅｕｔｓｏｈｔｈｘｄｆａｕｅｐｏｏｅｅｔｒｙｃｍｂｎｎＣＣｗｔＩＣｓｉｈｒｃｅｎｈｎｉｉｈｘｅｉｔｌｓｌｈｗｔａｅｍｉｅｅｔｒｒｐｓｄｍｅｒｓｔｉｈｓｐｐｒｈｓｂｔｒｒｃｇｉｏｅｆｒａｃｏ￣ｅｔＣＣｎｔｎｙｉｈｕｅｖｉｅｄｔｂｓｕｌｏｉｅｎｉｎｔｉａｅａｅｔｅｏｎｔｎｐｒｍｎｅｃｍｐｄｗｉＭＦｏｌｎｔｅｐｒｏｃａａａｅｂｔａｓｎｔｏｓｔｍＣｅｃｎＭＦＣａｄＩｖｒｄＭＦＣ（ＭＦＣ．ｈｓｍｔｏｏｓｕｔｄａｍｘｄａｅｎＭｅｒｑｅｃｅｓｕｏｆｉｔ（Ｃ）ｎｎｅｅＣＩＣ）Ｔｉｅｄｃｎｔｃｉｒｉｆｅｔｈｒｅｅ

了解语音处理中的说话人识别与语音增强技术

了解语音处理中的说话人识别与语音增强技术一、说话人识别技术介绍说话人识别（Speaker Recognition）是语音处理领域中的重要研究方向之一，这项技术旨在通过分析和识别语音信号中的个体差异特征，来确定说话人的身份。

与语音识别（Speech Recognition）不同，说话人识别主要关注的是说话人本身，而不是所言内容。

1. 特征提取在进行说话人识别时，首先需要对语音信号进行特征提取。

常用的特征包括短时能量、过零率等低层次特征以及梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCC）等高层次特征。

其中，MFCC 是目前最为常用的一种特征表示方法，它能够有效地表达语音信号中与发音相关的信息。

2. 语音编码为了更好地描述和比较不同说话人之间的差异，需要将提取到的语音特征进行编码。

常见的编码方法有高斯混合模型（Gaussian Mixture Model, GMM）、隐马尔可夫模型（Hidden Markov Model, HMM）以及神经网络等。

3. 训练与建模在说话人识别任务中，通常需要使用大量的语音样本进行训练，以建立说话人的特征模型。

通过训练生成的模型能够用于后续对未知说话人进行识别。

4. 说话人识别系统基于学习到的模型，可以构建一个完整的说话人识别系统。

该系统可以根据新输入的测试语音信号，从已有的训练数据中找出与之最匹配的说话人身份信息。

二、语音增强技术概述语音增强（Speech Enhancement）技术旨在提升语音信号品质和可懂度，减弱背景噪声干扰。

它在手机、会议系统、语音助手等各种应用场景中都有着广泛的应用。

1. 常见问题及背景噪声类型传统通信设备上存在一系列问题，如回声、杂音、混响等影响通信质量和听觉体验。

此外，来自环境的各种背景噪声也是影响正常通信和语音处理任务效果的主要因素。

常见背景噪声类型包括白噪声、风噪声、交通噪声等。

2. 降噪方法目前常见的降噪方法包括时域滤波法、频域滤波法和子空间方法等。

人工智能语音识别的算法原理

人工智能语音识别的算法原理人工智能语音识别（Automatic Speech Recognition, ASR）是指通过计算机和相关算法模型来将人类语音转换为可理解的文本或指令。

它在语音识别、语音转换和语音合成等方面具有广泛的应用，深受人们的关注和重视。

本文将介绍人工智能语音识别的算法原理。

一、声音信号的获取与处理声音信号是进行语音识别的基础，它可以通过麦克风等设备来获取。

在进行识别之前，声音信号需要经过一系列的预处理步骤。

首先，声音信号会经过采样，将连续的声音信号离散化成数字信号，以方便计算机处理。

然后，对声音信号进行特征提取，常用的特征包括梅尔频率倒谱系数（MFCC）和线性预测编码（LPC），这些特征可以更好地描述语音的频谱信息。

最后，对提取得到的特征进行归一化处理，以确保在不同的环境下都能得到较好的识别效果。

二、语音识别的基本原理语音识别的基本原理是通过训练一个模型，使其能够对输入的声音信号进行分类和识别。

常用的语音识别模型包括隐马尔可夫模型（Hidden Markov Model, HMM）和深度神经网络（Deep Neural Network, DNN）。

隐马尔可夫模型是一种统计模型，它通过建立一个状态转移概率矩阵和一个输出概率矩阵来表示语音信号的转换和语音单元的生成概率。

在训练过程中，通过最大似然估计来优化参数，使得模型对不同语音单元的识别更加准确。

在识别过程中，根据输入的声音信号，模型可以计算出所有可能的状态序列，然后通过动态规划算法（如维特比算法）来找到最有可能的序列，从而实现语音识别。

深度神经网络是一种由多层神经元组成的网络结构，通过大量的训练数据和反向传播算法，使网络的权重和偏置不断调整，从而学习到语音信号的特征和模式。

在语音识别中，深度神经网络可以作为一个分类器，对不同的语音单元进行识别。

通过深度神经网络的前向传播过程，输入的声音信号经过多个隐藏层的计算，最终得到对应语音单元的输出，然后可以根据输出的概率来确定识别结果。

小规模人员语音辨识系统的研究

的声音就可以实现判别功能：而文本无关型的语音识
作者简介：张汝霞（１９５９一），女，大专，助理实验师，研究方向为语音识别
＠现代计算机２０１３．０１中
ＲｅｓｅａｒｃｈｏｎａＳｍａｌＩＳｃａｌｅＰｅｏｐｌｅＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＳｐｅｃｉｆｉｃＳｅｎｔｅｎｃｅｓＳｙｓｔｅｍＢａｓｅｄｏｎ
文章编号：１００７ — １４２３（２０１３）０２ — ００１２ — ０５
ＤＯＩ：１０．３９６９￣．ｉｓｓｎ．１００７ — １４２３．２０１３．０２．００３
小规模人员语音辨识系统的研究 ★
之人工听觉语音识别更客观、更准确．也更科学ｌ３叫。本文探讨的基于特定语句的小规模人员语音辨识系统可应用于智能门禁系统、职工打卡系统等说话人识别领
域
★基金项目：广东省科技计划项目（Ｎｏ．２０１１Ｂ０３１４００００３）
声谱仪描绘出人的声音图像．即语声的频谱图语音鉴
定涉及生理学、语音学、电子学、计算机技术等学科，
作为一门综合性应用技术．它是随着计算机理论和相
关技术学科的进步，以及侦查破案、司法审判的社会需要产生和发展起来的由于语音鉴定依据语声的语音所显示的物理量．可以进行定量分析和比较．所以它较

采用离散HMM的孤立词识别系统

摘要本文探讨了离散马尔可夫模型的基本原理及在孤立词识别中的应用，并且实现了一个文本有关的孤立词识别系统，其正确识别率达到96.3%。

关键词隐马尔可夫模型Mel频率倒谱系数矢量量化语音识别1引言目前，隐马尔可夫模型技术是语音信号处理中的主流技术，孤立词识别是语音识别的一个重要分支，可以有效地应用于电话查询、电话银行业务等领域，有很高的实用价值。

离散HMM在训练及识别时计算量小，对输入矢量的分布不必作先验假设，因而在对实时性要求较高的场合得到了较多的应用。

本文实现的是一个基于离散的HMM的孤立词识别系统。

2HMM对语音信号的描述及应用语音信号是通过声源经声道处理产生的，是一种时变的随机信号。

我们的语音发音是有限的，所有可以认为声道的状态是有限的。

我们将人的声道特性划分为有限个特性平稳的部分或状态，每个状态对声音信号作用产生受该处的声道物理参量决定的短时信号[1]。

这样，声道特性的变化用HMM的状态转移概率来描述，某一声道特性产生短时语音信号观察值的概率分布用HMM的状态生成概率表征，则HMM模型就有效地用于描述时变语音信号。

3系统实现3.1特征矢量的形成语音信号的采样率为8K，采样后的语音信号通过预加重运算、分帧、最后将每帧语音转换成相应的特征矢量，本系统的特征矢量是采用20阶MFCC（mel–frequencycepstralcoefficient）系数，即mel倒谱系数，对应于一个短时帧的20阶MFCC系数组成的20维矢量空间的一个特征矢量。

3.2HMM结构和状态数的选择在小词汇表、孤立字词识别时，HMM多采用自左向右无跳转或有跳转模型，本系统采用的是无跳转的自左向右模型结构。

在若干的汉字实验中表明，若状态数取6～8是较为合理的选择[3]，本系统状态数为6。

3.3离散HMM的VQ码本形成采用DHMM，则需对输入特征矢量进行VQ处理，即用LBG算法对话者的训练，集中所有的训练矢量（帧）训练出VQ码本。

与文本无关的说话人识别系统的设计与实现

Ｍａｏｏｅ）ａｏｔｒｖＭｄ１ｌｒｈｈｅｒｓｌｈｗｔａｉｈｓｈｈｃｍｕｔｎｓｅｄｈｅｃｇｉｏｋｇｉｍ．Ｔｅｕｔｓｏｔｔａｉｏｐｔｉｐｅａｉｒｒｏｎｉｓｈｇａｏｄｎｈｇｅｔｎ
（．ｓｔｅｏｇｉｌｒＳｓｉｂｅｅｐｅｔＳａｄｎｃｄｍｇｉｔｒｌｃｎｅ，１ＩｔｕｎｉｔｆＡｒｕｔｅｕｔｎｌＤｖｌｍｒ，ｈｎｏｇＡａｅｙｏｒｕｕａｉｃｃｕａａｅｏｔｆＡｃｌＳｅｓ
用领域具有特殊的现实意义。ＬｂＩＷ语言是美国国家仪器公司（ａｏａＩｓｍｅｔ，Ｉ的创新软件产品，ａＶＥＮｔｎｌｎｔｎｓＮ）ｉｒｕ是一种功能强大的图形
化编程语言，可提供与真实仪器相似的用户界面，使用数据流编程方法来描述程序的执行，用图标和连线代
维普资讯
第２卷第４１期２００８年８月
山东科学
ｓ｛Ｄ０ＧＣＮＣＩＡＮＮＳ ⅡＩＥ
Ｖｏ．ｌＮ．１２ｏ４
Ａｕ２０ｇ．０８
文章编号：（２０６２０）４０５—５１Ｙ－２／０８０－０７０１４
ｒｅ．ａｔ
Ｋｅｏｄ：Ｃ；ｐｖｄＶ — Ｍｇｒｈｔｔｎｅｅｄｎ；ｓｅｅｅｔｃｔｎＡＶＥｙｗｒｓＭＦＣｉｒｅＱＨＭａｏｔｍｏｌｉｍ；ｅ — ｄｐｎｅｔｐａｒｄｎｆａｏ；ＬＢＩＷｘｉｋｉｉｉｉ

如何在Matlab中进行语音识别与处理

如何在Matlab中进行语音识别与处理引言语音识别与处理是计算机科学领域中一项重要的技术，它旨在帮助计算机理解人类语言，并能够对语音进行分析与处理。

Matlab作为一种流行的科学计算软件，提供了强大的语音处理功能，为开发语音识别算法提供了便捷的工具和环境。

本文将介绍如何在Matlab中进行语音识别与处理的基本方法和步骤。

一、语音数据的获取和处理1.语音数据的获取在进行语音识别与处理之前，我们首先需要获取语音数据。

语音数据可以通过麦克风或外部录音设备进行采集，也可以从公共数据库或其他可用资源中获得。

Matlab提供了一系列的函数和工具箱，方便读取和处理不同格式的音频文件，如WAV、MP3等。

2.语音数据的预处理获取到语音数据后，我们需要对其进行预处理。

这包括去除噪声、降低采样率、抽取语音特征等操作。

Matlab提供了丰富的音频信号处理函数和算法，例如消噪滤波、谱分析、时频分析等，可用于对语音信号进行预处理和特征提取。

二、语音信号的特征提取1.短时能量和过零率短时能量和过零率是最常用的语音特征之一。

短时能量表示语音信号在短时间内的能量大小，过零率表示语音信号在短时间内过零的次数。

Matlab提供了一系列函数用于计算短时能量和过零率，如enframe、frame2sample等。

2.梅尔频率倒谱系数（MFCC）MFCC是一种常用的语音特征提取方法，它使用了梅尔滤波器组对频谱进行映射，并通过离散余弦变换（DCT）将频谱转换为倒谱系数。

Matlab提供了mfcc函数用于计算MFCC特征，并可通过调整滤波器组的参数来优化特征提取效果。

3.线性预测编码（LPC）LPC是一种基于线性预测模型的语音分析方法，它通过对语音信号进行线性预测来估计语音信号的参数。

Matlab提供了lpc函数用于计算LPC系数，并可通过解线性方程组来估计语音信号的预测残差。

三、语音识别算法的开发与实现1.基于模板匹配的识别算法模板匹配是一种简单而有效的语音识别方法，它通过比较输入语音信号和事先存储的模板语音信号进行匹配，找出最相似的模板。

基于人工智能的语音识别技术研究

基于人工智能的语音识别技术研究人工智能技术的快速发展使得语音识别技术得以突飞猛进，成为现代通信和人机交互中不可或缺的一部分。

语音识别技术旨在将人类语音转化为可处理的数字信号，为人们提供更加高效、便捷的交流方式。

本文将从语音识别技术的历史背景、工作原理、应用领域和未来趋势等方面展开论述，深入探讨基于人工智能的语音识别技术的研究。

一、语音识别技术的历史背景语音识别技术的发展经历了漫长而曲折的过程。

早在20世纪50年代，科学家们就开始意识到语音可以通过数字化方式进行表示和处理。

然而，由于当时计算机的速度和存储能力有限，使得语音识别技术的进展受到了严重的限制。

直到20世纪80年代，随着计算机技术的飞速发展，语音识别技术迎来了爆发式的增长。

此后，深度学习和人工智能技术的兴起更是为语音识别技术的发展提供了坚实的基础。

二、语音识别技术的工作原理语音识别技术基于信号处理、模式识别和机器学习等多个学科的理论和方法。

从声音源到语音识别结果的整个过程可以分为声学建模、语音特征提取、声学模型训练和解码等几个关键步骤。

声学建模是语音识别的基础，其核心是根据语音信号和相应的文本标注数据建立声学模型。

声学模型可以是隐马尔可夫模型（HMM）或者是神经网络模型，用于模拟语音信号和文本之间的对应关系。

语音特征提取则通过对语音信号进行预处理，将其转化为数字特征，以便于后续的模型训练和识别。

常用的特征提取方法包括梅尔频率倒谱系数（MFCC）和线性预测编码（LPC）等。

声学模型训练是通过有监督学习的方法调整模型参数，使其能够更好地拟合语音信号和文本之间的映射关系。

训练数据通常包括大量的语音样本和相应的文本标注。

解码阶段则是根据训练好的声学模型和语言模型，对新的语音输入进行最优路径的搜索，得到最可能的文本结果。

三、语音识别技术的应用领域语音识别技术广泛应用于多个领域，为人们带来了便利和效率的提升。

在智能手机领域，语音助手成为了人们日常生活中的得力助手，可以通过语音命令实现搜索、导航、发送短信等功能。

基于说话人识别的声纹识别系统设计与优化

基于说话人识别的声纹识别系统设计与优化声纹识别技术是一种利用个体声音特征进行身份认证的技术。

在现今的安全领域中，声纹识别系统被广泛应用于语音账号密码验证、犯罪侦查和电话欺诈检测等领域。

为了提高声纹识别系统的准确性和性能，本文将介绍基于说话人识别的声纹识别系统的设计与优化，以帮助解决实际应用中可能面临的问题。

声纹识别系统的设计包括声学特征提取、特征表示和声纹匹配三个主要步骤。

而说话人识别作为声纹识别系统的一种重要任务，它的目的是识别不同说话人之间的声音差异。

根据说话人识别的原理和技术，声纹识别系统可以细分为以下几个方面的设计与优化。

首先，声纹特征提取是声纹识别系统的基础。

常用的声纹特征提取算法包括梅尔频率倒谱系数（MFCC）、线性频率倒谱系数（LFCC）和迁移学习等。

在声纹特征提取的过程中，应该考虑声音的频谱特性、寿命和噪声等因素，以提高系统对说话人的识别能力。

同时，合理选择特征提取算法，充分利用说话人的声音信息，还可以有效降低系统的运算复杂度。

其次，声纹特征表示是声纹识别系统的核心。

声纹特征表示的目的是将声音转化为可评估和比较的向量。

常用的声纹特征表示方法有高斯混合模型（GMM）、隐马尔可夫模型（HMM）和深度神经网络（DNN）等。

这些方法不仅考虑了声音的语音学特征，还结合了统计模型和机器学习技术，以提高说话人识别的准确性和鲁棒性。

同时，声纹特征表示方法还应注意对说话人的个体特征进行有效建模，提高系统的辨别能力。

最后，声纹匹配是声纹识别系统的决策过程。

声纹匹配的目标是将待识别的声音与已知说话人的声音进行比较，以判断是否来自同一说话人。

常用的声纹匹配方法有动态时间规整（DTW）、高斯混合模型—通用背景模型（GMM-UBM）和i-vector等。

这些方法可以通过比较声纹特征的相似度来进行说话人的识别。

在声纹匹配的过程中，应该考虑系统的鲁棒性和对噪声环境的适应能力，以确保系统在实际应用中能有更好的效果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

，
∑ （＝ｆ１）
４１．￣ＰＯＡ的计算（ｌ）可由下述方程可得：假若观察序列０：００ …０依一定的概率对应于状态序列。，＿ｆｃ（．，（：ｑ））ｉＱ＝ｑ：ｒ那么其条件概率为：ｌ …ｑ，ｑ
＝
，
（．ｆ）
（）０
上
ＰＯＱＡ＝ｌＰｏＡ（ｌ，）ｌ（）ｔ
ｔｌ＝Ｊ
：
：ｂ（１・ｑ（２ … ｂ。）９Ｄ）ｂ。）ｑ（７ｌ
查塾丽查Байду номын сангаас ！塑墨型三墼：
（）１１
上式中假定各观察是相互独立的。型入模所描述的随机过程出现状态序列Ｑ的概率为：
ＰＱｌ）ｒａ。叮（＝７ａ …ａ一吼‘ 。
（３）
对于离散隐马尔可夫模型，：有
表２Ｍｅ滤波器组的频带划分ｌ
说话人识别系统通常由信号预处理、特征提取、立模型、建模式匹配、判决等部分组成，系统组成框图如图１其所示嘲。其中预处理包括归一化、去掉无声段和噪声等；特征提取包括采样、量化、预加重、加窗等。建立说话人识别系统，分为两个阶段，即训练阶段和识别阶段。在训练阶段，系统的每个使用者需要说出若干训练语句，系统据此建立每个使用者的模型。在识别阶段，将待识别人发出的语音中提出特征参量与在训练过程中建立的模板进行比较，并根据一定的模式匹配方法得到判决结果【句。２基于ＬＣ美尔倒谱特征（Ｃ的端点检测ＰＭＦＣ）确定说话人语音信号的起止点，满足减语音信号处理的实时性要求，是语音信号处理领域中一个基本而且重要的问题。端点作为语音分割的重要特征，大程度上影响系统的识别的性能。在较在很高信噪比的声学环境中，最低电平能量的语音能量也能超过背景噪声能量，因此只需作简单的能量测量就可鉴别出起止点，然而端点检测之所以存在难度，主要是由于大多数实际情况并非如此。因此，
・
・
科技论坛
基于美尔倒谱系数及隐马尔可夫模型的说话人识别系统研究
夏晶
摘号的线性预测系数、端点检测、语音特征参数提取、语音算法识别流程等进行了初步研究，并进行了说话人识别系统的仿真验证。关键词：美尔倒谱系数；隐马尔可夫模型；说话人识别；强噪声环境由于说话人的差异及每个人的语言所具有固定的特征，使得基于语音识别的信息处理技术成为今后数年内ｒ’ Ｉ产业中最为重要的技术革命【１］。因为用语音来识别说话人的身份有着许多优点：比如语音是人类的固有特征，不会丢失或遗忘；语音信号采集方便，同时系统设备成本低。以利用语音特征进行身份识别的声纹识别技术在信号处所理领域成为近来的热点研究问题［２１。２Ｏ世纪６年代开始真正意义上的语音识别研究，０随着微电子技术和计算机技术的发展，使得近５０年来在该领域的研究取得了快速的进展１３１。如今，语音识别技术己经逐步进入实用化阶段，比如比如欧洲在信息和金融等领域通过应用语音识别技术在１９９５年不仅完成了ＣＶ（ａｅＶｒｃｔｎｉＢｎｉｇａｄＴｌｃｍｍｎａＡＥＣｌｒｅｆａｉｎａｋｎｅｏｕｉ－ｌｉｉｏｎｅｃｔｎ计划，ｉ）ｏ而且于同年启动了ＰＣＳＯ（ＰｏｅｒｇＣｌＡ — ＩＡＳｉｎｅｎａｕｉｌｔｅｔａｏｏＳｃｒｅｖｅＯｅａｏ）Ｊ，ｈｎｉｔｎｆｒｅｕｅＳｒｉｐｒｔｎｔ￣并在电信网上完成了ｃｉｃｉ￥０说话人的语音识别Ｍｔｏ；ｏｒｌＶｓｏａ和ｉａ等公司成立了Ｖｃｍｅｃ联 — ｏｍｒｅ盟，应用说话人识别技术实现电子交易的自助化，ＴＴ应用说话Ａ＆人识别技术研制出了智慧卡（ｒａ）并应用于自动提款机，ｓｔｒ，ｍａｃｄ其中通过声音确定人的身份是此项目的重要组成部分。国内有很多著名高校及研究所在这方面也进行了大量卓有成效的研究。目前，说话人语音识别技术的研究重点包括：说话人语音特征的分离提取、特征的增强、特征声学参数的处理以及识别模式匹配方法，比如主分量分析（Ｃ）矢量量化Ｑ、ＰＡ、）人工神经网络方法ｆＮ）隐马尔可夫模型（ＭＭ及相关方法的相互组合等。虽然语音ＡＮ、Ｈ）识别技术发展到今天虽然已经有几十年的历史，取得了许多优异的成果，直到今天并末达到令人满意的程度，但仍然存在着很多技术难点。尽管一些识别器已经投放市场，但基本上还停留在实验阶段。即在高噪声环境下如何提高识别率等方面应对说话人特征提取及相关算法方面应深入研究。
１说话人语音识别的机理
（州电视台社会新闻部，南郑州４００）郑河５００要：了适应强噪声环境下的语音识别，为进行了基于美尔倒谱系数特征及隐马尔可夫模型的识别算法研究，主要对提取语音信
表１传统方法与基于ＭＦＣＣ的端点检测方法 ’ 比较结果
数的检测方法能够较好的判断语音的有声段与无声段１而基于美７］，具有较好的检测性能，明显优于传统的端点检测方法。其基于美尔尔倒谱特征的端点检测方法所含的信息量较多，能较好地表征语音倒谱特征的端点检测与传统方法的比较结果如表１所示。信号，不仅表征的语音质量好、识别率高，而且实时性较好，根据人基于ＬＣＦＣ的带噪声端点检测方法在自噪声低信噪比下的ＰＭＣ的听觉特性的美尔尺度进行非线性变换，使得在低信燥比的环境下性能明显优于基于能量和常规倒谱距离的检测方法，消除了噪声的
图１说话人识别系统组成框图
：ＨＨＨＨ！
图２美尔倒谱系数及差分的提取流程
需要对合适的端点检测方法进行研究。传统的基于能频值的检测方法在强噪声背景下的汉语语音端点检测中有良好的应用，基于嫡函
图３用于计算Ｍｅ倒谱的三角滤波器组ｌ
、
ｍ
－
０
４基于隐马尔可夫模型识别的问题求解（＝尸＝ｆｔ＝ｓｆ）ｆ，（，＋ｊ，ｑＩＤ因为隐马尔可夫模型不仅能描述瞬变的随机过程，而且能够描为对于给定的模型和观察序列０，在ｔ时刻处于状态Ｓ，ｉ在述动态随机过程的转移特性，以它能够利用不同语音段和语言结ｔｌ所＋时刻处于状态：的概率。用前后向变量表示，有果的信息来实现说话人识别系统【。ｌｏｌ（＝Ｏ（（＋）卢１）Ｐｆ）ｔｆ－ｑ１・（，０），ｔ）ａ＋隐马尔可夫模型一般由三元参数组：｛，，来表示，Ａ ’ 用于描：ｆ．ｑ）（ｑ（（．） ‰ （ｌ（＋．（ｆ）Ｄ１‰ ｒ））（）８述一种随机序列统计特性的概率模型。通常而言，对于给定的一个观察序列Ｏ：ａＤ …０一个隐马尔可夫模型参数组Ａ＝｛＇曰ｌ＇丌Ａ，，７ｆ ∑ 毫ｆ），） ∑ （）（：Ｎ，（９）采用隐马尔可夫模型构成说话人识别系统时，必须解决如下三个基（＝ｆ）本的问题：则调整模型参数：Ｏ，｝使ＰＤ最大的参数重估表达式ｒＡ ’ （）
作者简介：晶，９岁，汉族，夏４男，学历：大学本科，郑州电视台社会新闻部，副主任，工程师。
科技论坛
・５・
一
图４ＭＭ计算流程图Ｈ
影响，具有很好的鲁棒性，且具有较强的实际应用价值。３基于美尔倒谱系数的特征提取特征提取是任何一个模式识别处理问题首先要解决的问题。说话人所发语音信号中既包括了所发话音的特征，也包括了说话人的个性特征，是话音特征和说话人个性特征的混合体。而考虑人听觉图６说话人辨认的识别率与识别人数的关系特性的美尔倒谱系数能够有效地描述说话人的个性特征。线性预测系数是一种最有效和最流行的语音分析技术之一，它在模型条件下０和Ｑ同时发生的联合概率为：是基于声道特性来来考虑的。但是它没有考虑人耳的听觉特性，而Ｐ，Ｉ＝ＰＯＱ）（Ｉ（ＱＡ（Ｉ・ＱＡＯ），Ｐ）ｆ４１人的听觉系统是一个特殊的非线性系统，能够响应不同频率信号的由前向变量计算的概率ＰＤＩ）：（为＾灵敏度。Ｐ；（） ∑ ｑｆＤ（）（Ｉ－ｑ）（十＋Ｄ美尔倒谱系数及差分的提取流程如图２所示。Ｎ（５，）Ｍｅｌ频率倒谱参数ｆｌｒｑｅｃＣｐｔｍｏｇｃｅｔＭｅｅｕｎｙｅｓｕＣｅｌｎ，Ｆｒｉ ∑ （・ｆＤ（）ＭＦＣ，Ｃ）具有比线性预测系数更好地提高系统的识别性能。表２显４２最佳状态链的确定．示了基于Ｍｅ滤波器组的频带划分［ｌＳｌ。给定一个观察序列０＝ｏｏ …Ｏｌ２ｒ和一个隐马尔可夫模型的参这里定义一个有Ｍ个滤波器的滤波器组【滤波器采用三角数组，９Ｊ，通常采用Ｖｔｂ算法来选择一个最佳状态链Ｑ＝ｑ２ｉｒｉｅ￣ … ｑ滤波器，中心频率为ｍ）ｌ・滤波器组中每个三角滤波来解释观察序列０其，・ｍ＝２Ｍ；。器的跨度在Ｍｅ标度上是相等的。则三角滤波器的频率响应定义ｌ４３隐马尔可夫模型的参数优化问题．为：ｆ０ｋｆ — ＜（Ｄｍ隐马尔可夫模型的参数优化问题，也就是如何调整模型参数