基于神经网络隐马尔可夫模型的混合
- 格式:pdf
- 大小:207.19 KB
- 文档页数:4
ocr 常用算法
OCR(Optical Character Recognition,光学字符识别)常用的算法包括:
1. 模板匹配法:将待识别字符与预设字符库模板进行比较,找出最相似的模板作为识别结果。
2. 特征提取法:基于字符的结构特征如连通域、端点、角点等进行分析,并通过训练得到的分类器识别字符。
3. 神经网络模型:尤其是深度学习技术广泛应用后,卷积神经网络(CNN)结合循环神经网络(RNN)或长短时记忆网络(LSTM)在OCR中表现优秀,通过大量标注数据训练,能够自动学习并提取字符特征进行识别。
4. 隐藏马尔可夫模型(HMM):通过统计学习方法,对字符序列的概率分布进行建模,实现连续字符序列的识别。
以上各算法常结合使用,以提升OCR系统的准确性和鲁棒性。
人脸识别综述摘要:首先介绍了人脸识别的发展历程及基本分类;随后对人脸识别技术方法发展过程中一些经典的流行的方法进行了比较详细的阐述。
最后介绍了人脸识别的应用及发展现状,总结了人脸识别所面临的困难。
关键词:人脸识别1引言人脸是人类最重要的生物特征之一,反映了很多重要的生物信息,如身份,性别,种族,年龄,表情等等。
随着计算机技术的飞速发展,基于人脸图像的计算机视觉和模式识别问题也成为近些年研究的热点问题。
其中包括人脸检测,人脸识别,人脸表情识别等各类识别问题。
对于人脸识别问题的研究已有几十年的时间,在理论研究和实际开发方面都取得了一定的进展,并且目前已有一些电子产品配备了人脸识别系统。
但是,对于人脸性别和种族识别的研究却比较少,但研究这个问题的意义和实际价值却是不可忽视的。
在实际公共场所的安检系统中,大多数情况下都是将多种模式识别系统结合在一起,以尽量提高检测识别的准确度,性别识别系统也是其中不可缺少的一部分。
对它的研究不仅有助于提供更多个性化的人机交互方式,还可以应用于各种监控系统、电子产品的用户身份鉴别和信息采集系统。
从理论意义上来说,也丰富了原有的人脸识别方法,使得人脸识别系统不但可以识别出被识别者是谁,还能自动给出其性别和种族,从而提高人脸识别的准确率和图像检索效率。
所谓人脸识别,就是利用计算机分析人脸视频或者图像,并从中提取出有效的识别信息,最终判别人脸对象的身份。
人脸与人体的其他生物特征(指纹、虹膜等)一样与生俱来,它们所具有的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提;同其他生物特征识别技术相比,人脸识别技术具有操作简单、结果直观、隐蔽性好的优越性。
因此,人脸识别在信息安全、刑事侦破、出入口控制等领域具有广泛的应用前景。
2人脸识别的发展历程及方法分类关于人脸识别的研究最早始于心理学家们在20世纪50年代的工作,而真正从工程应用的角度来研究它则开始于20世纪60年代。
最早的研究者是Bledsoe,他建立了一个半自动的人脸识别系统,主要是以人脸特征点的间距、比率等参数为特征。
基于人工智能的无线电信号识别方法
一、绪论
随着无线电技术的不断发展和普及,无线电信号识别技术也取得了巨
大的发展,成为各类无线电系统中至关重要的一环。
随着人工智能技术在
语音、图像等识别方面的发展,在无线电信号识别方面也有了一定的应用,取得了良好的效果。
本文将介绍基于人工智能的无线电信号识别方法。
二、人工智能技术在无线电信号识别中的应用
1、神经网络
神经网络是人工智能的一种重要技术,它采用前馈和回馈的原理,将
复杂的数据进行分类识别,达到识别目的。
神经网络在无线电信号识别方
面可以用来识别一个无线电信号的定位、频带宽度、功率和信号类型等信息,用于定位和探测无线电信号的位置及其特性参数。
2、支持向量机
支持向量机(SVM)是一种非参数学习方法,它具有良好的泛化能力,可以用来识别无线电信号的类型。
它可以对复杂的无线电信号数据进行处
理和识别,进而获得信号的精确参数,从而更好地识别和分析信号。
3、隐马尔可夫模型
隐马尔可夫模型是一种用于时序数据分析的有效工具,可以用来识别
无线电信号数据中的相关特征。
它可以基于无线电信号的时间序列数据,
在不同的时间点和功率等参数下,对无线电信号进行分析和识别。
python 声音拟合算法如果你想要在Python中实现声音的拟合算法,你可以考虑以下几种方法:1. 基于频谱的拟合算法:首先,将声音信号进行傅立叶变换,将其转换为频谱形式。
然后,使用某种形式的模型(例如高斯混合模型或隐马尔可夫模型)对频谱进行拟合。
2. 基于神经网络的拟合算法:你可以训练一个深度学习模型(例如循环神经网络或生成对抗网络)来学习如何生成声音。
这种方法需要大量的训练数据,并且模型的训练可能需要大量的计算资源。
3. 基于声学模型的拟合算法:如果你的目标是生成特定的声音(例如人的语音),那么你可以使用某种形式的声学模型(例如声学模型-基线模型或声学模型-感知模型)。
这些模型可以根据输入的特征参数生成声音。
以下是使用`librosa`和`numpy`库进行频谱拟合的简单示例:```pythonimport numpy as npimport librosaimport librosa.displayimport matplotlib.pyplot as plt# 加载音频文件y, sr = librosa.load('audio_file.wav')# 计算音频的频谱D = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)# 显示频谱图plt.figure(figsize=(14, 5))librosa.display.specshow(D, sr=sr, x_axis='time', y_axis='log')plt.colorbar(format='%+2.0f dB')plt.title('Spectrogram')plt.show()```这只是一个基本的例子,实际的声音拟合算法可能需要更复杂的处理和分析。
解密机器学习技术中的马尔可夫链算法机器学习技术在近年来得到了广泛的应用和发展,其中马尔可夫链算法作为一种重要的数据建模方法,被广泛应用于自然语言处理、图像处理、推荐系统等领域。
本文将解密机器学习技术中的马尔可夫链算法,介绍其基本原理、应用以及未来的发展趋势。
马尔可夫链算法是一种基于概率的序列建模方法,其基本思想是根据当前状态,预测下一个状态的概率分布。
它主要基于马尔可夫假设,即未来的状态只与当前状态有关,与过去的状态无关。
马尔可夫链算法主要包括两个关键要素:状态空间和转移概率矩阵。
在马尔可夫链算法中,状态空间表示可能的状态集合,例如在自然语言处理中,状态可以是一个单词或者一个字母;在推荐系统中,状态可以是一个用户的行为。
转移概率矩阵则表示从一个状态转移到另一个状态的概率分布。
通过学习样本数据,马尔可夫链算法可以估计这些转移概率,从而实现对未来状态的预测。
在实际应用中,常用的马尔可夫链模型包括隐马尔可夫模型(Hidden Markov Model,HMM)和马尔可夫随机场(Markov Random Fields,MRF)等。
马尔可夫链算法在自然语言处理中有着广泛的应用。
通过学习文本数据,可以构建一个语言模型,用于自动生成文章、机器翻译、语音识别等任务。
在机器翻译中,马尔可夫链算法可以根据源语言的状态(单词序列),预测目标语言的状态(单词序列),从而实现翻译的自动化。
类似地,在语音识别中,马尔可夫链算法可以根据声学特征的状态,预测语音文本的状态。
通过马尔可夫链算法的应用,可以提高机器在自然语言处理任务中的准确性和效率。
除了在自然语言处理领域,马尔可夫链算法在图像处理中也有着重要的应用。
例如,在图像分割任务中,可以利用马尔可夫随机场模型,将图像分割为不同的区域。
通过学习图像样本的转移概率,可以实现对未知图像的分割。
类似地,在图像标注任务中,可以通过马尔可夫随机场模型,将标注的过程建模为一个状态转移过程,从而提高图像标注的准确性。
深度学习在语音识别中的应用语音转文本说话人识别等任务深度学习在语音识别中的应用深度学习技术在近年来得到了广泛的应用,其中在语音识别领域尤为突出。
语音识别的目标是将人类语音转化为相应的文本信息,以便计算机能够理解和处理。
而深度学习通过复杂的神经网络结构和大规模的数据训练,可以提供准确、高效的语音识别能力。
本文将重点讨论深度学习在语音识别中的应用,包括语音转文本和说话人识别等任务。
通过深入研究这些应用,我们可以更好地理解深度学习在语音识别领域的优势和挑战。
一、语音转文本语音转文本任务是将说话者的语音信息转化为相应的文字信息。
传统的语音识别方法通常基于声学模型和语言模型,引入了混合高斯模型(HMM)和隐马尔可夫模型(HMM)等技术。
然而,这些方法在复杂语音场景和多种说话语言的情况下往往表现不佳。
深度学习通过神经网络的端到端训练,可以直接从原始语音信号中提取高级特征,并学习到更复杂的语言模型。
通过使用递归神经网络(RNN)或卷积神经网络(CNN)等结构,深度学习可以更好地捕获语音中的时序和上下文信息,从而提高语音转文本的准确率。
二、说话人识别说话人识别任务是确定语音信号中的说话者身份。
传统的说话人识别方法主要基于声音的时域和频域特征,如时长、共振峰频率等。
然而,这些特征往往不稳定且易受环境噪声干扰。
深度学习通过学习说话者的语音表示,可以从不同语音片段中提取更鲁棒和具有区分度的特征。
通过使用卷积神经网络(CNN)和长短时记忆网络(LSTM)等结构,深度学习可以自动学习到更具有代表性的说话者特征,从而提高说话人识别的准确率。
三、深度学习中的挑战尽管深度学习在语音识别中取得了显著的成果,但仍存在一些挑战需要克服。
首先,深度学习需要大规模的标注数据进行训练,这在某些语言和领域上可能存在困难。
其次,传统的深度学习模型在处理长时间序列时存在难以训练、计算复杂度高等问题。
为了解决这个问题,研究人员提出了一系列改进的模型结构和训练策略,如循环神经网络(RNN)的变种、注意力机制等。
深度学习神经网络原理与应用分析深度学习神经网络是当今最热门的领域之一,其在人工智能、计算机视觉、语音识别和自然语言处理等方面都有广泛的应用。
深度学习的基础是神经网络,本文将对深度学习神经网络的原理与应用进行分析。
一、神经网络的基本结构与原理神经网络是由多个神经元组合而成的网络结构,每个神经元都具有多个输入和一个输出。
神经元接收到多个输入,并将这些输入送入激活函数中进行处理,最终输出一个结果。
多个神经元组成的网络就可以实现更加复杂的功能。
神经网络通常由输入层、中间层和输出层组成。
输入层是神经网络的接口,将外部信息输入到神经网络中;中间层是神经网络的核心,通过多个中间层的组合,可以实现非常复杂的功能;输出层是神经网络的输出接口,将神经网络的输出结果输出到外部。
神经网络的训练过程通常采用反向传播算法,该算法是求解网络的最优权值的一种方法。
在训练过程中,首先对神经网络进行正向传播,得到神经网络的输出结果;然后,将输出结果与期望输出结果进行比较,计算误差;最后,将误差通过反向传播算法传回网络,调整神经元之间的权值,使得误差最小化。
二、深度学习神经网络的应用1.计算机视觉深度学习在计算机视觉领域有着广泛的应用,如图像分类、目标识别和人脸识别等。
目前,卷积神经网络(CNN)已成为计算机视觉领域最常用的深度学习模型。
CNN的特点是可以自动提取图像的特征,并可以逐层提取信息,逐渐深入到图像的各个层次。
通过CNN,可以实现图像分类、目标检测、图像分割等多种计算机视觉任务。
2.语音识别深度学习在语音识别领域的应用也非常广泛。
传统的语音识别方法通常是通过Gaussian混合模型(GMM)和隐马尔可夫模型(HMM)来实现的。
然而,这些方法需要手动提取语音的特征,容易受到噪声和变化的影响。
深度学习神经网络可以自动提取语音的特征,并且对于噪声和变化具有很好的鲁棒性。
目前,深度学习神经网络已经成为语音识别领域最常用的模型之一。
pomdp 观测空间的理解概述及解释说明1. 引言1.1 概述POMDP(部分可观察马尔可夫决策过程)是一种经典的强化学习框架,用于解决在存在不完全信息和随机性的环境中制定最佳决策策略的问题。
它广泛应用于自动驾驶、人工智能领域等各个领域,并展示出强大的解决能力。
本文将重点讨论POMDP中观测空间的理解,并深入探究观测空间对POMDP 求解的影响。
通过对观测模型及其表示方法的介绍,我们将揭示如何利用观测空间来更好地理解和描述POMDP中的概念。
1.2 文章结构本文分为五个主要部分。
首先,在引言部分中,我们将概述文章的目标和结构。
接下来,在第二部分中,我们将介绍POMDP的基本概念,包括POMDP的定义以及观测空间在其中扮演的重要角色。
第三部分将专注于观测空间本身,包括其定义、特点以及与状态空间之间的关系。
在第四部分中,我们将详细介绍POMDP观测模型及其表示方法,包括基本方法和进阶方法。
最后,在第五部分中,我们将对全文进行总结,并对POMDP观测空间领域未来的发展方向提出展望与建议。
1.3 目的本文目的在于通过对POMDP中观测空间的理解进行概述和解释说明。
我们将探究观测空间对POMDP问题求解的影响,并介绍观测模型及其表示方法。
通过本文的阐述,读者将能够深入了解观测空间概念,并在实际应用中更好地利用、理解并处理它们。
以上是文章“1. 引言”部分的内容,在接下来的章节中将进一步展开讨论。
2. POMDP的基本概念2.1 POMDP的定义部分可观察马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)是一种用于建模具有不完全信息的决策问题的数学框架。
在POMDP中,系统状态无法直接观测到,而只能通过观测结果进行推断。
因此,POMDP适用于那些在决策过程中存在隐含变量或不完全观测信息的问题。
POMDP由五个关键元素组成:状态空间、动作空间、观测空间、转移概率和奖励函数。
常见的用户行为序列建模的方式一、引言用户行为序列建模是分析和预测用户在特定环境下的行为模式的一种方法。
通过建模用户的行为序列,我们可以更好地了解用户的兴趣、喜好和需求,从而为他们提供更好的产品和服务。
本文将介绍几种常见的用户行为序列建模方式。
二、马尔可夫链模型马尔可夫链模型是一种基于状态转移的序列建模方法。
在用户行为序列中,每个用户行为被看作是一个状态,而用户行为之间的转移概率则被建模为状态转移概率。
通过统计用户行为序列中每个状态的转移概率,我们可以得到一个马尔可夫链模型,用于预测用户下一步的行为。
三、条件随机场模型条件随机场模型是一种基于概率图模型的序列建模方法。
在用户行为序列中,每个用户行为被看作是一个观测变量,而用户行为之间的关系则被建模为一个条件随机场。
通过学习条件随机场模型的参数,我们可以根据观测到的用户行为序列预测用户未来的行为。
四、长短时记忆网络模型长短时记忆网络模型是一种基于神经网络的序列建模方法。
在用户行为序列中,每个用户行为被看作是一个输入节点,而用户行为之间的依赖关系则被建模为网络中的权重。
通过训练神经网络模型,我们可以根据历史的用户行为序列预测用户未来的行为。
五、隐藏马尔可夫模型隐藏马尔可夫模型是一种基于概率图模型的序列建模方法。
在用户行为序列中,每个用户行为被看作是一个观测变量,而用户行为背后的潜在状态则被建模为一个隐藏变量。
通过学习隐藏马尔可夫模型的参数,我们可以根据观测到的用户行为序列推断用户的潜在状态,从而预测其未来的行为。
六、时序模式挖掘时序模式挖掘是一种基于序列数据的模式发现方法。
在用户行为序列中,我们可以通过挖掘频繁出现的行为序列来了解用户的兴趣和偏好。
通过识别这些模式,我们可以为用户提供个性化的推荐和建议。
七、聚类分析聚类分析是一种将用户行为序列划分为不同群体的方法。
通过将相似的行为序列聚集在一起,我们可以发现不同用户群体之间的行为模式和差异。
这有助于我们更好地理解用户的需求和行为习惯,并提供针对不同群体的个性化服务。
语音识别算法中的声学建模方法总结语音识别是一种将语音信号转化为文本的技术,广泛应用于语音助手、智能音箱、电话自动接听等各种场景中。
而在语音识别算法中,声学建模方法是其中一个关键的环节。
本文将对声学建模方法进行总结,包括高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔可夫模型(Hidden Markov Model,HMM)、深度神经网络(Deep Neural Network,DNN)等方法。
首先,我们来介绍GMM方法。
GMM是一种基于统计模型的声学建模方法,它假设语音信号是由多个高斯分布组成的。
在训练过程中,我们通过最大似然估计来估计高斯分布的参数,如均值和协方差矩阵。
然后,在识别过程中,我们将输入的语音信号与每个高斯分布进行比较,选择概率最大的高斯分布作为最终的识别结果。
GMM方法常用于传统的语音识别系统中,其性能在一定程度上受到数据分布的限制。
接下来,我们介绍HMM方法。
HMM是一种基于序列建模的声学建模方法,它假设语音信号是由多个隐藏的状态序列和对应的可观测的观测序列组成的。
在训练过程中,我们通过最大似然估计来估计HMM的参数,如初始状态概率、状态转移概率和观测概率。
然后,在识别过程中,我们使用Viterbi算法来寻找最可能的状态序列,进而得到最终的识别结果。
HMM方法在语音识别中广泛应用,其优势在于对于长时序列的建模能力较好。
然而,GMM和HMM方法都存在一些问题,如GMM的参数数量较大,计算复杂度较高;HMM对于复杂的语音信号建模能力相对较弱。
因此,近年来,深度神经网络被引入到语音识别中作为一种新的声学建模方法。
深度神经网络(DNN)是一种由多层神经元构成的神经网络模型。
在语音识别中,我们可以将DNN用于声学模型的学习和预测过程中。
具体来说,我们可以将语音信号的频谱特征作为输入,通过多层的神经网络进行特征提取和模型训练,在输出层获得最终的识别结果。
相比于传统的GMM和HMM方法,DNN方法在语音识别中取得了更好的性能,其受到数据分布的限制较小,对于复杂的语音信号建模能力更强。
基于神经网络/隐马尔可夫模型的混合
语音识别方法的研究现状
摘要:作为大词汇量连续语音识别系统的主流技术,隐马尔可夫模型(HMM )方法已经取得了相当的成功。
但是,由于HMM 在理论上的一些缺陷,使得目前的连续语音识别系统只能在非常有限的范围内得到应用。
也就是说,从根本意义上说,语音识别是一个尚未解决的问题,仍旧是一个科学上的问题,离工程化还有相当的距离。
所以,不断地探索新模型与新方法对彻底解决这一问题至关重要。
另一方面,近几年的研究表明,神经网络(ANN )具有极强的对复杂模式的分类能力。
在连续语音识别的研究中,理应考虑结合两者之长来提高识别系统的性能,尤其是声学层面上的识别率。
本文旨在介绍国外这方面的前沿成果,并结合我们自己在这方面的工作,对其发展方向提出一些看法。
关键词:神经网络,隐马尔可夫模型,混合方法。
一. 概况
近年来,自动语音识别的研究已经取得了非常大的进步,许多科研单位和大公司的语音识别系统在实验室中都表现出了较高的识别率。
但是,这些识别系统在实际场合的应用效果是不能令人满意的,或者说,目前的识别系统只能在非常有限的范围内得到应用。
为了根本解决语音识别问题,我们还必须不断地探索新模型与新方法。
首先,我们回顾一下当前语音识别中最为成功的方法。
语音的产生可以看作是由信息源通过一个有噪信道,把语言序列W 转换为一个信号序列S 的过程[1],如图1所示。
因此,语音识别就是一个最大后验概率(MAP )的解码问题。
有 噪 信 道
通 道 解 码
图1
根据贝叶斯公式,该解码问题被表示为:
arg max (/)arg max
(/)()()
W W P W A P A W P W P A ∈∈=ΓΓ
其中A 是声学特征向量,P(A/W)是声学模型,P(W)是语言模型,可以认为P(A)与P(W)无关
[2][3],则(1)式等同于:
argmax (/)argmax (/)()
W W P W A P A W P W ∈∈=ΓΓ
在识别系统的识别单元确定下来以后,通常对每个识别单元建立一个HMM,并通过大量的语音数据来训练每个HMM的参数,因此在识别过程中,P(A/W)的求取就是计算声学观测向量与每个HMM的相似度。
二. HMM与ANN应用于语音识别时各自存在的一些问题
2.1 HMM的特点
HMM在语音处理的各个领域中的应用都获得了巨大的成功,但它的一些缺陷也使系统性能难以进一步提高。
我们不妨用表1来列举其用于语音识别时的优缺点[4]。
用于连续语音识别的HMM方法
优点缺点
丰富的数学框架对模式的辨识能力差强有力的学习和解码方法要求声学特征内部各分量不相关
对时间序列信号的处理能力强状态序列由一个一阶Morkov链产生
表 1
从表1可以看出,为了用HMM来表示语音的产生,必须建立一些假设,在此基础上设计训练和识别算法,而这些假设与实际情况不一定相符,这正是HMM理论的缺陷所在。
2.2人工神经网络方法的特点
利用神经方法进行连续语音识别的方法很多,比较有代表意义的有[5][6][7][8]等,它们共同的思想就是利用ANN强大的静态模式分类能力,结合HMM或DP的时间处理能力,用混合模型来描述语音的产生模型。
这样做的主要原因是因为目前的ANN结构缺乏时序信号的处理能力[9]。
虽然可以通过扩展网络的拓扑结构或引入反馈以获得局部的时间处理能力,如TDNN[10]和RNN[11],但对于时变性和随机性都很强的连续语音信号来说,还尚未找到有效的方法,即仅用ANN把输入的声学向量序列转换为输出的语音单元序列。
三. 基于ANN/HMM的混合识别系统
如上所述,采用混合方法来结合ANN与HMM两者之长,是可能提高识别器性能的一条途径。
这种混合方法的基本思路可以简单描述为:训练神经网络用于HMM状态的分类,神经网络的输出被解释为在声学特征向量窗口中某一帧特征向量的后验概率,即有: gl(xn,)=p(q/x) (3)
其中??是声学特征向量,??是神经网络的参数,??是神经网络的输出。
在估计系统参数时,ANN和HMM各自训练;在进行识别时,对每一帧声学特征向量,用神经网络的输出替代传统HMM方法中每个状态的输出概率,并以Viterbi算法或其它DP算法动态搜索最佳状态路径。
实现这种系统的神经网络可以有多种形式,如MLP,RNN或RBF网络等等。
3.1 ANN输出的概率解释
为了使神经网络适用于HMM统计模型框架的计算,必须对神经网络的输出赋予统计意义。
这方面代表性的工作有[5][12][13][14][15],本文给出关于神经网络输出概率解释的一种通用证明
考虑神经网络的MSE训练准则:
?????????????????
其中??????表示教师信号,?????????是神经网络的实际输出信号,K 是模式总数,N是训练次数。
如果训练数据充分,对于连续值的特征向量,MSE准则可表示为:
???????????//
可以看出,在(7)式中,第二项独立于神经网络的输出??,所以最小化MSE准则函数(4)就等价于选择神经网络的参数来最小化(7)式的第一项。
而(7)式最小化的结果就是:神经网络的输出??是后验概率??的最佳估计。
上述证明过程只与训练神经网络的准则函数有关,所以适用于各种结构的神经网络。
同时,对于相对熵准则函数,也有类似的结果[15]。
不难看出,上述结论必须满足两个前提条件,即:
£¨1£© 用以完成后验概率估计的神经网的结构必须足够复杂,能实现两个空间之间的任意非线性映射。
£¨2£© 神经网络的训练必须达到全局最小点,这样才能保证??与??在某种“最佳”
意义上最为接近。
3.2有代表性的ANN/HMM混合识别系统
N.Morgan和H.Bourlard提出的基于MLP/HMM的非特定人连续语音识别混合系统[17]非常具有代表性,下面对它做简单描述。
图 2
如图2所示,在混合系统中,MLP估计每个识别单元(音素)对应于每个HMM状态的后验概率,而用有时长(duration)信息的HMM中的Viterbi算法实现语音的规整。
用MLP所估计的后验概率,不能直接用于Viterbi计算,必须除以每个识别单元的先验概率,从而得到因子化的语音特征向量与HMM状态之间的似然度,即有:
??????????????????
由于利用神经网络而不是传统的HMM的B矩阵(离散情况)或混合高斯曲线(连续情况)来估计每个HMM状态的输出概率,可以适用多种特征而不必考虑它们之间是否相关。
在这个系统中,送入神经网的声学特征包括:12阶PLP系数,对数能量,基音等。
同时,按照HMM 的假设,有:
???????????????
而混合系统则可这个条件为:
?????????????????/
即在局部观察值模型中,含有声学上下文(acoustic context)参数。
按照(10)式,图2所示
的混合系统中的MLP具有下面的结构:
图3
MLP的输入含有9帧数据,其中前4帧和后4帧分别代表当前要识别语音帧的上下文。
整个系统的训练分为两部分。
用在线(on-line)梯度的方法训练MLP,再利用由前一步训练得出的MLP参数(权值矩阵)来估计的状态输出概率,并以此训练HMM的状态转移概率。
该系统在充分训练的条件下,比传统的HMM方法具有更高的识别率。
四. 展望
从目前的结果来看,基于ANN/HMM的混合方法确是一种非常有希望的方法,值得做进一步的深入研究。
结合我们自己的工作,我们认为至少在以下四个方面还需要投入大量的精力,以获得更好的结果:
£¨1£© 在识别单元的选取方面,要充分考虑汉语的特点,并借鉴西文的经验。
£¨2£© 几乎所有混合方法中训练ANN的方法都利用在线(on-line)梯度的方法以避免ANN陷入局部最小值,这实际上也是ANN理论上的一个老问题。
£¨3£© 如何把听觉的感知特性与ANN/HMM混合方法相结合。
£¨4£© 寻求语言模型。