当前位置:文档之家› 关键词识别在语音监听系统中的应用

关键词识别在语音监听系统中的应用

关键词识别在语音监听系统中的应用
关键词识别在语音监听系统中的应用

Scientific Journal of Information Engineering

February 2014, Volume 4, Issue 1, PP.13-18 Key Words Recognition Applied to Speech Monitoring System

Min Wang#, Huiting Ni, Lizhi Li, Xiaoqun Zhao

Electronic and Information Engineering College, Tongji University, Shanghai 201804, China

#Email: viviansea87@https://www.doczj.com/doc/dd14895849.html,

Abstract

Along with our government’s paying attention to national defense and security, monitoring on telephone is more and more important. Obviously, traditional way cannot meet the requirements now, so developing automated speech monitoring technology is very urgent. This paper introduced a speech monitoring system based on key words recognition (KWR), on the basis of previous research, the system achieved the following functions---online real-time monitoring and offline non real-time detection. Through the theoretical analysis, this system can save human resources and improve the working efficiency.

Keywords: CSR; Speech Monitoring System; KWR

关键词识别在语音监听系统中的应用

王民,倪慧婷,李立志,赵晓群

同济大学电子与信息工程学院,上海201804

摘要:随着我国对国家安全事业的重视,电话内容的监听越来越重要。传统的人工方式的监听已不能适应新时期的要求,迫切要求引入自动化的语音监听技术。本文介绍了一个基于语音关键词识别的电话语音监听系统,在现阶段已经成

熟的语音关键词识别技术的基础上,实现对语音电话的在线实时监听和离线非实时的检测功能,可以大大节省人力资源,

提高整个监听系统的工作效率。

关键词:连续语音识别;语音监听系统;关键词识别

引言

自9.11事件以后,如何对国家重要安全部门和敏感的公共场合进行全天候、自动、实时的监控,已成为世界各国高度重视的一个全球性问题。在这样的背景下,视频监控技术得到了广泛的应用,即通过分散设置的摄像机记录监控场景,并集中显示,使得监控人员可以实时了解发生的事件,以及时做出反应。但是,有关研究已经表明,仅依靠视频监控中的人眼检测,即使是专业操作人员也难以构成真正有效的安全系统。因为只要连续专注于监控屏幕超过20分钟,监控人员的注意力都会降低至不能满足监控要求的水平。并且视频监控的前提是建立在要监控的嫌疑人到场的情况下的。在这种情况下,语音监听显示出了视频监听所不具有的优点:1)电话监听不需要嫌疑人到场;2)电话作为公共通讯设备现在几乎人人都会使用。因此,语音电话监听比视频监控更加有效,也就成为了近年来国家安全等领域的重要研究课题,但是纯人工监听需要24小时不间断的实时监听,大大耗费了人力和时间,而且由于人的注意力不可能长时间高度集中,有时也会把极其重要的内容忽略掉[1]。

相比于目前通常采用的人工监听方式,计算机自动处理有着速度快、效率高、漏检率低等特点,尤其是针对需要同时对多路电话进行实时监听的场合,电话内容自动检测和处理技术更是具有不可替代的作用。基于连续语音的关键词识别作为语音识别的重要分支,近年来发展迅速,并广泛应用于国防、生活等各个领域。用于监听的关键词识别系统不同于其他服务类的系统,在服务类系统中,被识别的对象往往是合作状态的,

如果识别未完成可以要求重复输入语音;而在监听系统中,被识别的对象可能是多个人的对话,并且是连续的语音,而且往往是不合作的,但如果一个关键词出现了,一般会多次出现,系统有多次识别的机会,并且发现关键词后需要人来验证。根据监听系统的这些特点,本文所设计的关键词识别系统(KWS)可以对连续语音中出现的敏感关键词及时的预警、并跟踪敏感目标,可以实现实时监听,不但可以节省人力,而且高性能的语音关键词识别系统可以做到对电话网络的实时监控。

本文在分析关键词识别技术发展现状的基础上,针对监听的特点,结合实际工作的需求和实践,探讨语音关键词识别技术在语音监听方面的优点和发展趋势,设计了一个基于语音关键词识别系统的监听系统框架,通过分析本系统使用后监听工作效率的提高说明系统的有效性和先进性。

1语音识别的分类和特点

语音识别的任务是利用计算机从语音信号中提取有用信息,并确定语音的语言含义。针对发音人的不同,可以把语音识别技术分为特定人语音识别和非特定人语音识别。前者只能识别一个或几个人的语音,而后者则可以识别任意人的语音。显然,非特定人语音识别系统更符合电话语音监听的实际需要,但它要比针对特定人的识别困难得多。针对识别内容的不同,语音识别技术主要分为三类:孤立词识别、连续语音识别和语音关键词识别[2]。

孤立词识别是识别事先已知的孤立的词,如“开机”、“关机”等,说话人说话时,每个词组之间都有明显的停顿。孤立词识别主要应用于自动控制,如机器人操纵、设备仪器操纵、智能玩具、家电的操纵等。

连续语音识别(CSR, Continuous Speech Recognition)的任务是识别日常生活、工作中自然交流的连续语音,如一个句子或一段话,话音的词、句字之间可能没有明显的停顿。连续语音识别主要应用于听写机、语音输入系统、语音监听等。

关键词识别(KWR)与连续语音识别有着密切的关系。它是从连续的语音中检测若干关键词出现在何处,因此可以说关键词识别是连续语音识别的一种。但它又不要求把整个的语音流全部识别出来,只需要提取用户关心的关键信息,并不需要系统识别出整个句子。从这点上来讲,关键词识别降低了对识别系统的要求。由于用户对关键部分的发音通常都是完整的和吐字清楚的,对非关键词部分和语法不需要过多的要求,因此从语音流中识别关键词比识别整个句子的发音要容易得多。同时也降低了对环境噪声的要求。因此,关键词识别技术用于语音监听具有比较明显的优势[2,3]。

2连续语音中的语音关键词识别及其关键技术

建立一个语音关键词识别系统(KWS)主要有两个部分:关键词检出和关键词确认。关键词检出从无限制语音流中检测出尽可能多的候选关键词,再由关键词确认部分对这些候选关键词进行置信度评估。关键词检出主要包括以下几个模块:特征提取,建立声学模型并进行训练,搜索和识别等。语音关键词识别的原理框图如图1所示。

图1 语音关键词识别的原理框图

2.1 特征提取

语音信号的特征参数有很多种,常见的有基音周期、线性预测参数(LPC)、线谱对参数(LSP)、线性预测倒谱系数(LPCC)、Mel倒谱系数(MFCC)、口音敏感参数(ASCC)、感觉加权的线性预测(PLP)参数、动态差分参数、高阶信号谱类特征等。这些特征反映了语音信号的不同特性,在语音识别的不同领域有着不同重要性的使用。大部分KWS系统使用的特征是能量、倒谱系数以及它们的一阶、二阶差分。倒谱系数有基于LPC的LPCC参数和MFCC参数两种。对于LPCC参数,给各维乘以一个权重系数,加强高维的权重,效果更好。MFCC参数考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上,由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC有良好的识别性能和抗噪性能,但是其计算量和计算精度要求搞。特征提取的技术已经比较成熟,但是更高效的特征参数人们仍然在研究[2]。

2.2 声学模型的建立

确定所使用的特征后,先要选取适当的识别单元。然后为每个单元建立一个模型,再从训练语音中提取特征,供模型进行训练。多数关键词识别系统将语音看作是关键词和非关键词的组合。非关键词由M个垃圾(Garbage)模型(也称为“Filler”,即“填充”模型)来表示。这种系统的关键词和非关键词模型可能对应不同的识别单元。这类系统中,有些将每个关键词作为识别单元,有的以“子词”(即关键词的一部分)作为识别单元。

识别单元确定后,就要为每个单元建立一个模型。通常用隐马尔可夫模型(Hidden Markov Mode1,HMM)。在过去的十年中,HMM已经被认为是用于连续语音非特定人关键词识别的最好方法。HMM依据其输出,可以分为连续、离散两种。对于离散HMM需要先进行聚类、矢量量化,计算量小,但是精度受限制;连续HMM则可以直接将特征矢量作为训练样本,需要估计更多的参数,运算量大。两种HMM各有所长,应根据具体情况选取[4,5]。

对于汉语语音而言,词是由字构成的,而每个字对应一个音节,音节由HMM模型表示,即由状态转移系列构成的,所以很自然地可以由字的连接系列来表示词,也就是同样可以用状态转移系列来表示每个词,从而得到新的关键词的HMM模型,然后把每个关键词的HMM模型联接起来组成一个全局HMM。

2.3 关键词的搜索和检出

关键词检出是关键词识别系统中最重要的一个组成部分,它通过最佳路径搜索算法来得到每个候选关键词同输入语音的匹配分数。普通的语音关键词识别系统一般都假设在每个连续语音段中最多只存在一个关键词,因此检出的目的就是:从候选的关键词中取出一个或多个关键词,使得它们同连续语音中某一段语音的后验概率达到最大。在本文中主要说明关键词加垃圾模型的搜索策略。关键词和垃圾模型是对语音分别建立N个关键词模型和M个垃圾模型。垃圾模型包括非关键词语音和非语音,每个关键词对应一个关键词模型。对训练语音提取特征后,分别对关键词模型和垃圾模型进行训练,然后将它们组成一个全局HMM。

最基本的识别方法如下:对输入语音提取特征,将特征送全局HMM,用Viterbi算法找出最佳状态路径,如果最佳路径中含有一个子序列使得子序列中的每个状态都是某个关键词模型中的状态,则认为该子序列对应的语音序列是要识别的关键词。

2.4 后处理

为了进一步提高识别率,很多系统在以上搜索之后,还对假想命中的关键词进行了后处理(或称“语音验证”,Utterance Verification)。常用的方法有:1)利用神经网络分类进行确认;2)先区分关键词和填充,然后利用模糊动态聚类判断是哪个关键词;3)利用置信度对识别结果进行检验,常用的置信度有两种,一是利用反词模型得到该候选的似然比来完成对识别结果的确认,二是利用识别模型自身的信息构造置信函数。

2.5系统评价指标

在系统的性能指标方面,对语音关键词识别系统来说,理论上存在两类错误[6]:

类型I 错误:错误拒绝(False Reject ,FR):系统没有检测到语音中应该出现的关键词;

类型Ⅱ错误:错误接受(False Alarm ,FA):系统检测到的关键词在语音中没有出现,是假冒的关键词。 在关键词系统中,定义衡量类型I 错误的指标为拒识率,类型Ⅱ错误的指标为虚警率。

=

100%?未被正确识别的关键词数拒识率参考关键词总数 (1) =100%C ???识别错误的结果关键词数虚警率语音的小时数待检关键词总数 (2)

其中,待检关键词总数是指给定的关键词表中的关键词总数。C 是一个常数,其作用是使误警率和拒识率处于同一尺度。

可以使用检出率来评价关键词的检测性能:

100%1=?=-正确识别的关键词数检出率拒识率参考关键词总数 (3)

系统在识别阶段为了保证最终结果有比较高的检出率,常常给出尽可能多的候选关键词,以便把正确的候选关键词包含进来。在确认阶段必须使用有效的方法,拒识那些错误的候选,以降低系统的虚警概率,同时也要保证检出率不受影响。

3 基于语音关键词识别的电话监听系统

3.1 系统搭建依据

用于监听的关键词识别系统不同于其他服务类的系统。在监听系统中,对象可能是多个人的对话,往往是不合作的,但如果一个关键词出现了,一般会多次出现。因此系统会有多次识别的机会,并且发现关键词后需要人来验证,所以对识别率要求也就没那么高。

提高语音识别系统性能的一般思路是提高每个词单次的检出率,目前多是通过增加样本库的规模、提高MFCC 等特征参数的维数,以及增加语言模型等方法来实现,这样就大大增加了系统的计算量,使系统速度降低,实时性跟不上要求。而在电话监听中,实时性是非常重要的,所以本文构建的语音关键词识别系统,根据电话监听的特殊场景,即某个关键词在监听过程中必会出现多次,在不增加计算量的基础上增强了系统的实时性。

图2 不同容忍次数下单次识别率与系统识别率的关系

假定所有关键词的单次检出率均为α,可容忍次数为n 次,根据计算,系统的总体检出率1(1)n βα=--,对于确定的α,随着n 的增加,系统性能将提升。在单次检出率不高的情况下,本系统对关键词的有效性理

论上可达到95%甚至以上。图2假定系统对所有关键词识别率相同的情况下,描绘了某词单次检出率分别为0.4,0.45,…,1.0时系统的性能。

可以看到,在可容忍次数最多为3次的情况下,即便单次检出率低至仅有65%,系统依然能以高于95%的概率检出该词。因此,若某个关键词在语段中多次出现,随着次数增加,可降低对单次检出率的要求而不影响系统对该词的检出率。

3.2 系统架构

根据语音关键词识别系统应用在监听方面的特点,对于多个关键词的组合,设计了一个基于KWS 的监听系统架构,具体如图3所示。其中,k 表示关键词的个数,N i 代表KWS 系统中一定时间内识别出关键词的次数,i α代表此关键词的权重。

图3 基于KWS 的监听系统架构

本系统架构的工作流程是这样的:

1) 设定好待识别的关键词k 个,KWS-1、KWS-2、...、KWS-k 是分别针对不同关键字的识别系统;

2) 根据实际要求设定所需的关键词组合,设定不同关键词的权重,以此更准确锁定所要监听的语音;

3) 根据实际需要事先设定好门限值,

1k i i i N

=∑α的数值若超过此门限值,则此语音电话为敏感电话,输入到关键词确认模块进行确认;

4) 由工作人员对出现关键词的电话线路进行跟踪、监听;最后由工作人员对出现关键字的语音段进行监听并记录。

另外,为了提高系统的效率和正确率,监听系统可以由在线实时监控部分和离线非实时检测部分组成,具体如图4所示。

图4 由在线实时监控和离线非实时检测组成的监听系统

具体实施方案如下:

1) 设定好识别的关键字,采用KWS-A 系统对大量电话线路进行实时监控,使用该KWS 系统的目的是对海量电话语音进行在线检索,过滤掉大量非关键语音,该系统的特点是算法复杂度低、执行效率高,关键字识别率高,正确率低;

2) 采用关键字确认模块,对识别出的关键字与正确的关键字进行比对,得出该KWS 系统的识别结果,与我们所期望的识别指标进行比较判断;

3) 若步骤2未达标,则采用KWS-B 系统对语音进行离线二次检索识别,该系统的目的是对电话语音信号进行细搜索识别,提出报警,相较于KWS-A 系统,该系统的特点是算法复杂度较高,执行效率较低,正

确率较高;

4)若识别结果仍未达标,则重复步骤3,以此类推若达标则输出结果;

5)对出现关键字的语音段进行监听并记录。

针对上面提出的两种系统架构,可以结合起来,即图4中的KWS-A和KWS-B部分均采用图3中的结构,这样就可以大大提高监听的工作效率和识别的正确率。

4结论

本文介绍了一种基于语音关键词识别的电话监听系统,该系统采用了先进的关键词识别算法,并通过多机并行处理机制和在线实时监测、离线二次监测相并行的方法解决了海量数据处理和多频道同时监听的问题,提高了整个系统的监听效率。

从理论分析来看,该系统可以大大减轻了人工监听的工作量,提高监听系统的工作效率。通过新技术的使用,改变了传统的监听工作方式,可以有效地解决内容监听对语音电话监听带来的挑战。

致谢

在此对博士后基金的资助者、提供指导和帮助的各位老师、给予转载和引用权的资料、文献以及研究思想的所有者表示感谢!

R EFERENCES

[1]Haritaoglu I, Harwood D, Davis L W. Real-time surveillance of people and their activities [J]. IEEE Trans Pattern Analysis and

Machine Intelligence. 2000, 22(8): 809-830

[2]Bingxi Wang, Dan Qu, Xuan Peng. Practical Speech Recognition Technology [M]. National Defence Industry Press, Beijng, 2005.

[3]Weintraub, M. LVCSR log-likelihood ratio scoring for keyword spotting. ICASSP 1995, vol.1, pp.297-300

[4]L.R Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. of the IEEE, 1989.2,

77(2): 257-285

[5]Lee C-H, Rabiner L, Pieraccini R, et al. Acoustic modeling for large vocabulary speech recognition [J]. Computer Speech and

Language, 1990, 4(2): 127-165

[6]Dong Wang. Out-of-Vocabulary Spoken Term Detection [D]. Ph.D. Thesis, University of Edinburgh, 2010

[7] D. Reynolds and R. Rose. Robust text-independent speaker identification

using Gaussian mixture speaker models. IEEE Trans.

ASSP, 3(1): 72-83, 1995

[8]S.Young et al. The HTK Book (for HTK version 3.4), Speech Vision and Robotics Group, Cambridge University Engineering

Department. Jul. 2000. https://www.doczj.com/doc/dd14895849.html,/docs/docs.shtml

[9]Aubcrt, X.L. An Overview of Decoding Techniques for Large Vocabulary Continuous Speech Recognition [J]. Computer Speech

and Language, 2002, 16(1): 89-114

【作者简介】

1王民(1987-),女,汉族,研究生,主

要研究领域为语音关键词识别,现攻读

同济大学硕士学位。

Email: viviansea87@https://www.doczj.com/doc/dd14895849.html,

2倪慧婷(1990-),女,汉族,研究生,主要研究领域为语音识别,现攻读同济大学硕士学位。Email: niht90@https://www.doczj.com/doc/dd14895849.html, 3李立志(1973-),男,汉族,博士后,高级工程师,研究领域为语音信号处理,水声通信等,国防科技大学计算机通信专业硕士,同济大学信息与通信专业博士。

Email: richllz@https://www.doczj.com/doc/dd14895849.html,

4赵晓群(1962-),男,汉族,博士,同济大学教授,博士生导师。主要从事信息论、纠错编码理论、信源编码理论、数字语音处理和数字信号处理等方面的工作。

Email: zhao_xiaoqun@https://www.doczj.com/doc/dd14895849.html,

语音识别输入系统

IBM语音识别输入系统(ViaVioce) V9.1 简体中文光盘版| 用嘴巴控制电脑... sjyhsyj 2009-8-28 12:13:271# 软件大小:276.08MB 软件语言:多国语言 软件类别:国外软件 / 汉字输入 运行环境:Win9x/NT/2000/XP/ 软件介绍: 该系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入150个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风,使用便利,特别适合于起草文稿、撰写文章、和准备教案,是文职人员、作家和教育工作者的良好助手。 IBM潜心研究26年,他领导了世界的语音识别技术,其语音识别产品在全球销售已达一百万套以上。使用语音输入方式,您的工作空间更加自由舒畅: *即使您不会打字,也可迅速准备好文稿; *只要集中精力思考问题,无须琢磨怎样拼音,怎样拆字; *当您疲劳时,闭上眼、伸伸腰,双手方在脑后,然后轻松地说:开始听写吧... ... 注:价值超数千元的IBM的中文语音录入工具,有耳麦的朋友可以试一试,也可以当作学习普通话的工具,没有理由不下载使用它。 IBM ViaVoice语音输入系统详解 作者: 艾寒出处: 天极网 目前汉字输入的方式主要有四种:键盘输入,手写输入,扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。 键盘输入:键盘输入基本上是基于各种输入法,主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯,因为人们在措辞时,头脑中首先反映出的是即将这个词语的语音,所以字形输入法更适合专业录入人员使用。拼音输入法也分两种,一种以词语为输入单位,另一种以语句为输入单位,而后者不符合写作的思维习惯,因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高; 手写输入:手写输入是最容易上手的输入方法,但是同样由于手写输入的先天不足,很难达到较高的输入速度; 扫描输入:扫描输入对于硬件要求比较高,主要是适用于资料的整理; 语音输入:语音输入对输入人员的键盘操作能力、指法要求很低,几乎可以说你只要会说汉语,就可以进行语音输入。 语音输入尤其是汉字语音输入经历了很长时间的研究和应用,到目前已经达到了一个相

语音识别技术综述

语音识别技术综述

语音识别技术综述 电子信息工程2010级1班郭珊珊 【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 【关键词】语音识别;语音识别原理;语音识别发展;产品 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类 语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑 可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识

别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑 也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑 也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别

基于语音识别技术的影像科诊断报告生成系统的研究及设计

.18 《中国医疗器械信息》2011年第17卷第8期 Vol.17 No.8 收稿日期:2011-04-08 作者简介:李建华,上海医疗器械高等专科学校 助教0 概述 在医院临床检查科室书写诊断报告时,60%~70%的诊断报告是专业诊断术语,且重复率很高,其实也就 是一些词汇的组合。随着医疗设备的不断更新,信息化、数字化已经是目前乃至今后很长一段时间医院的发展趋势和目标。计算机在医疗领域的应用已经非常广泛,小到一个医院的门诊挂号系统,大到整个地区的医院信息系统(可与放射科信息系统、图像归档与传输系统整合)随处可见计算机的踪影,计算机使用水平和程度已经成为一个医院信息化、数字化水平的指标。在一个中等以上的医院里,每天的诊断信息输入量是很大的(包括病人的基本信息、病情描述、诊断报告、治疗意见)。传统的信息系统使用的是键盘输入,就键盘输入而言,目前常见的有拼音和笔画输入,输入者需要有一定的计算机操作基础。基于上述情况,开发一个小词汇的语音识别系统,可以减少临床医技科室诊断医师的键盘输入工 作量,并可以推广到医院其他部门,从而提高工作效率,提高计算机在日常诊断中的使用领域。 目前,语音技术在医疗部门的应用几乎没有,就整个社会而言,语音技术的使用领域也是非常有限的。语音技术的应用正处于加速启动期,语音技术在医疗 领域应用的前景将很广阔。1 系统设计和关键技术1.1 系统的基本结构 本系统主要由两个部分组成,语音识别引擎、诊断报告系统。语音识别引擎主要负责语音到文字信息的转换工作,诊断报告系统主要实现诊断报告的处理、打印、存盘及系统设置等。其中语音识别引擎是整个系统的关键,而报告系统则是实现报告的编辑等常见的操作。 基于实际情况和系统开发环境(开发语言、API 使用情况、系统设计工作量、可扩展性等),我们采用逐级细分的方法,即将系统按使用科室划分,在某个科 室的模块中按检查部位划分。系统功能模块如图1所示,此结构可以满足我们此系统的设计指标。

matlab语音识别系统(源代码)最新版

matlab语音识别系统(源代码)最新版

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6) 3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12)

一、设计任务及要求 用MATLAB实现简单的语音识别功能; 具体设计要求如下: 用MATLAB实现简单的数字1~9的语音识别功能。 二、语音识别的简单介绍 基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。 图1 语音识别系统结构框图 2.1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术,应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。

语音识别实验2

关于语音识别的研究 网络工程专业网络C071班贾鸿姗 076040 摘要:语音识别技术的广泛应用 1前言: 语音识别技术也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。 语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。 尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号 特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制 由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。 2.1.3数字助理 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。 智能玩具 通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在

中文电脑的汉语语音输入系统及其方法与制作流程

一种汉语语音输入系统及其方法,用以将任意文句的汉语语音直接转换成相应的中文文字,该系统及其方法包括声音处理过程及语言解码过程两大部分。其特征在于声音处理过程利用“段落统计模型” 计算输入汉语语音的各单音节及声调的机率,进而辨识之;语言解码过程针对声音处理过程送来的一连串音节利用“词类双连中文语言模型”找出对应的中文字。一种包含“智慧型学习技术”的汉语听写机,用本方法将语音输入转换成文字显示。 技术要求

1、一种汉语语音输入方法,用以将任意文句的汉语语音直接转换成相对应的中文文字,该方法包括声音处理过程以及语言解码过程两大部分,其特征在于,该声音处理过程利用“段落统计模型”计算输入汉语语音的每一音节以及声调的机率,进而辨识之;该语言解码过程针对该声音处理过程送来的一连串音节,以“马可夫中文语言模型”找出所对应的中文字。 2、根据权利要求1的方法,其特征在于,其中该“马可夫中文语言模型”是以“词”为基础,但以“字”来计算机率的“马可夫中文语言模型”。 3、根据权利要求1的方法,其特征在于,其中该以“词”为基础,以“字”来计算机率的“马可夫中文语言模型”系将输入的音节串所对应的同音字一一分割为若干个词,但根据两两相连的词之间相连的词头字及词尾字相连出现的机率,并比较每一个词出现的频率及前后文关系判断该音节的字。 4、根据权利要求1的方法,其特征在于,其中该“段落统计模型”的训练方式包含下列步骤: (1)若某一单音节α的总长度为T个音框,则将该单音节分为N段,每一段含有T/N个音框; (2)使用者重覆念该单音节数次,长度虽不尽相同,但同样等分成N段; (3)将所有上述单音节的第一段音框的特征向量合在一起,训练成第一段的状态; (4)将所有上述单音节的第二段音框的特征向量混合在一起,训练成第二段的状态,依此类推,训练出N个状态; (5)上述每个状态以M个高斯机率混合来描述,以上述音框的特征向量训练各个高斯机率的参数;和 (6)上述M个状态即构成该音节α的“段落统计模型”。

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: (1)语音特征提取: (2)声学模型与模式匹配(识别算法) (3)语义理解:计算机对识别结果进行语法、语义分析。 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR), 语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。 现代语音识别技术研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。 语音识别应用的特点 1.语音识别系统必须覆盖的功能包括: (1)语音识别系统要对用户有益(希望它是能检测到的)。例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。 (2)语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。 (3)语音识别系统必须有足够的精度 (4)语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理 有以下四种方式可以处理这个问题。 (1)错误弱化法。这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它不利影响。 (2)错误自检纠正法 系统利用已知任务的限制自动地检测并纠正错误。 (3)确认或多层次判定

(4)拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定,而是将其转给人工座席。 在很多情况下,语音识别技术可以充分发挥出RFID的潜能: 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益 语音识别技术在邮件分拣中的应用 现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件 系统来处理不能上机的邮件,仍需要大量的劳动力。 由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。 以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。 对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如:碰到了寄给Joseph Schneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。 姓名和邮箱编码:Jennifer Schroeder, 软件工程部;Joseph Schneider, 技术操作部;Josh Schriver, 技术操作部,因为这三个姓名全都符合(J,S,C,H)的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的,就可以把邮件投入Joseph Schneide的信箱了。 邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。 例如,有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,如表2所示,数据库就会给出所有可能和这几

基于语音识别的家居智能监控系统

内蒙古科技大学 本科生毕业设计说明书(毕业论文) 题目:基于语音识别的家居智能监控系统 学生姓名: 学号: 专业:测控技术与仪器 班级: 指导教师:

基于语音识别的家居智能监控系统 摘要 智能家居系统大体而言可分为高层的信息娱乐网络和底层的数据采集与网络控制,在底层以微控制器为核心作为智能家居网络结点是目前智能家居的主要实现方式,语音识别技术在我国的研究成果也不是很高,但是用语音识别技术来与家居智能控制相结合是非常创新的。 本设计是采用AT89C52单片机为核心控制器的智能家居监控系统,系统通过无线nrf905作为信息传输媒介,将语音识别软件收到的具体指令发送至现场对单片机进行控制,从而控制家居的动作;同时现场单片机将数据通过无线发送至主控单片机,通过PC 界面实时监控家居各模块的运行状态。 该系统的功能模块分为:语音控制窗帘模块、温度检测模块、火焰检测模块和防盗报警模块。通过C#编程,在Microsoft Speech SDK的基础上实现对家具的智能监控,在PC机界面上直观的看到家居所有情况。 关键字:单片机;语音识别;nrf905;温度检测;防盗报警

Speech recognition-based smart home monitoring system Abstaract Generally speaking the smart home system can be divided into high-level information and entertainment network,the underlying data collection and network control in the bottom to the microcontroller as the core as a smart home network node,this is the main achievement of smart home way,the speech recognition technology inour research is not very high,but the voice recognition technology to the home intelligent combination of the control is very innovative. The design is using AT89S52 MCU core controller intelligent home monitoring system,the system through wireless nrf905 as information transmission medium,that specific instructions received by the voice recognition software is sent to the scene to control the MCU to control the actions of home;at the same time the scene SCM data through the wireless sent to the host microcontroller,real-time monitoring via a PC interface home run of the module state. The functional modules of the system is divided into,the voice control the curtains module temperature detection module,the flame detection module,and burglar alarm module. On the basis of the Microsoft Speech SDK,C # Programming,intelligent monitoring of the furniture intuitive interface of the PC,see the home in all cases. Keywords: SCM;speech recognition;nrf905;temperature detection;burglar alarm

语音识别系统调研报告

语音识别系统调研报告 姓名:罗小嘉学号:2801305018 1、摘要:本文简要的介绍了语音识别系统的原理,发展和在各个方面的应用前景。 2、关键词:语音识别;应用 3、引言:语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。它是近十几年来发展起来的具有理论价值和实用价值的新兴学科:从计算机大学科角度看,可视为智能计算机的智能接口;从信息处理学科来看,可视为信息识别的一个重要分支;从自动控制学科来看,又可视为模式识别的一个重要组成部分. 早在18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域. 60 年代末期,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70年代后期,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展. 4、正文:语音识别系统要求能够实现实时语音识别。该语音识别系统的关键技术主要是语言实时识别技术、语音端点检测与声韵分割。如图: 对于语音端点检测与声韵分割的问题,从背景噪声中找出语音的开始和终止,这在语音处理中是很基本的问题,因为准确的端点检测,不仅可以提高识别精度,还可以避免计算噪声,减少计算量. 大多数语音处理系统采用过零率和能量两参数作端点检测. 但过零率受噪声影响较大,采用多门限过零率作语音起点检测,将能量信息直接反应在门限中,同时将分析窗长取小,使起点检测比较准确,效果较好. 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇

宝马中文声控语音识别控制系统

BMW中文声控系统 声控启动语音控制支持方言专车专用 宝马中文声控系统市场前景 在庞大的汽车销量的基础上,车载语音系统已成为现代汽车的重要亮点之一,但是由于技术的局限性,国内车载语音系统的发展始终比较缓慢,在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在,Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英,由多名各领域资深人士参与研发,根据中国市场特点以及中国用户使用习惯进行特殊定制,成功推出Qdis-isods系列产品,为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后,用户用自己的声音即可完成相关操作,而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言,声音识别准确率高并支持多人识别,一举攻克了之前的技术难题,让车载语音系统全面进入中国市场。以前需要手动操作的控制,现在您和爱车直接对话就能实现,而且还能语音识别并控制后装增配的产品,满足客户多种智能语音操作的需求。随着车联网技术的发展,汽车的互联性会越来越强,我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上,从而完成更复杂的识别控制任务。我们依然在不断创新实践,以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型,金鼓德达将以一贯优秀的无损加装技术,让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列,爱车从此智能! 一、BMW中文声控系统主要功能 1.语音识别启动引擎 语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车 语音指令随时学习,支持所有方言,指令内容可以自由定义;

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

基于语音识别技术的智能家居控制系统的设计

基于语音识别技术的智能家居控制系统的 设计 基于语音辨认技术的智能家居控制系统的设计摘要 21 世纪经济快速发展,人们对物资文化的需求也愈来愈高。在信息科技的支持下,事物在朝着简单化、便捷化、智能化的方向发展。在此背景下应运而生而生的智能家居,正是信息时期的典型产物。 本文设计了1套基于语音辨认技术的智能家居控制系统,能够在客户端输入语音信号,完成对家居装备的控制,使得家居装备更加智能化。本文首先对语音辨认的相干理论知识进行了详细的论述,利用麻省理工学院(Massachusetts Institute of Technology, MIT)语音服务器完成对语音信号的特点提取和辨认进程,并且该服务器内有自动的高频噪声滤波器,避免声音信号产生失真现象。其次Zigbee模块完成了数据传输的功能,能够在网络拓扑较为稳定的家 居环境中实现对数据的传输,消耗的功率下降,本钱也较低。最后基于安卓手机到达控制家具的目的,在手机客户端输入语音信号以后,服务器将翻译出来的语音信息传递给后台,由手机通过无线网络传递给家居装备,从而到达传递控制指令的目的。最后本文在测试阶段对本文设计的基于语音辨认技术的智能家居控制系统进行了性能测试,测试结果良好,能够到达预期的目标。 关键词:智能家居;语音辨认;控制系统 Abstract With the rapid development of the economy in the 21st century, people's demand for material culture is also increasing. With the support of information technology, things are developing in the direction of simplification, convenience and intelligence. The smart home that emerged in this context is

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

基于语音识别的家居智能监控系统

基于语音识别的家居智能监控系统

————————————————————————————————作者:————————————————————————————————日期:

内蒙古科技大学 本科生毕业设计说明书(毕业论文) 题目:基于语音识别的家居智能 监控系统 学生姓名: 学号: 专业:测控技术与仪器 班级: 指导教师:

基于语音识别的家居智能监控系统 摘要 智能家居系统大体而言可分为高层的信息娱乐网络和底层的数据采集与网络控制,在底层以微控制器为核心作为智能家居网络结点是目前智能家居的主要实现方式,语音识别技术在我国的研究成果也不是很高,但是用语音识别技术来与家居智能控制相结合是非常创新的。 本设计是采用AT89C52单片机为核心控制器的智能家居监控系统,系统通过无线nrf905作为信息传输媒介,将语音识别软件收到的具体指令发送至现场对单片机进行控制,从而控制家居的动作;同时现场单片机将数据通过无线发送至主控单片机,通过PC 界面实时监控家居各模块的运行状态。 该系统的功能模块分为:语音控制窗帘模块、温度检测模块、火焰检测模块和防盗报警模块。通过C#编程,在Microsoft Speech SDK的基础上实现对家具的智能监控,在PC机界面上直观的看到家居所有情况。 关键字:单片机;语音识别;nrf905;温度检测;防盗报警 Speech recognition-based smart home monitoring system

Abstaract Generally speaking the smart home system can be divided into high-level information and entertainment network,the underlying data collection and network control in the bottom to the microcontroller as the core as a smart home network node,this is the main achievement of smart home way,the speech recognition technology inour research is not very high,but the voice recognition technology to the home intelligent combination of the control is very innovative. The design is using AT89S52 MCU core controller intelligent home monitoring system,the system through wireless nrf905 as information transmission medium,that specific instructions received by the voice recognition software is sent to the scene to control the MCU to control the actions of home;at the same time the scene SCM data through the wireless sent to the host microcontroller,real-time monitoring via a PC interface home run of the module state. The functional modules of the system is divided into,the voice control the curtains module temperature detection module,the flame detection module,and burglar alarm module. On the basis of the Microsoft Speech SDK,C # Programming,intelligent monitoring of the furniture intuitive interface of the PC,see the home in all cases. Keywords: SCM;speech recognition;nrf905;temperature detection;burglar alarm 目录 摘要 ......................................................................................................................................... I

基于单片机的语音识别系统_毕业设计 推荐

基于单片机的语音识别系统

基于单片机的语音识别系统 摘要 近几年来,智能化和自动化技术在玩具制造领域中越来越被关注。本文介绍一种智能化小车控制系统的设计——语音控制小车。语音控制小车是基于SPCE061A的代表性兴趣产品,它配合61板推出,综合应用了SPCE061A的众多资源,小车采用语音识别技术,可通过语音命令对其行驶状态进行控制。首先介绍了SPCE061A的主要性能及其引脚的功能;接着完成了电源电路、复位电路、键盘电路、音频输入电路,音频输出电路和无线控制电路等硬件功能模块的设计。软件设计模块能实现智能小车的前进、后退、转向、停止、避障、表演动作以及循线等功能。测试表明,在环境背景噪音不太大,控制者的发音清晰的前提下,语音控制小车的语音识别系统能对特定的语音指令做出智能反应,做出预想中的有限的动作 关键词:spec061a 语音识别驱动电路声控小车智能反应

Abstract In recent years, Intelligent and automation technology in the toy manufacture have been paid more and more attention.Introduce an intelligent vehicle control system design. SPCE061A program the system to single-chip, based on implementation of the car's voice control, This paper introduces the hardware sub-system design and implementation. The SPCE061A's main characters and pin function are introduced firstly. Completed the power circuit, reset circuit, keyboard circuitry, audio input circuits, audio output circuit and control circuit of wireless hardware such as the design of function modules. Software design module can achieve smart car forward, backward, turn, stop, obstacle avoidance, performing actions, as well as on-line functions. Test showed that the background noise in the environment is not too great, control persons under the premise of clear pronunciation, voice control car speech recognition systems for specific voice commands to make intelligent reaction, limited to the desired action. Keywords: spec061a 、voice recogniton、Driving circuit、Voice control dolly、intelirent response

相关主题
文本预览
相关文档 最新文档