当前位置:文档之家› 基于单片机的语音识别系统研究

基于单片机的语音识别系统研究

基于单片机的语音识别系统研究
基于单片机的语音识别系统研究

本科学生学年论文

论文题目:基于单片机的语音识别系统研究学院:电子工程学院

年级:2010级

专业:电子信息工程

姓名:

学号:

指导教师:

2013 年 06 月 22 日

摘要

随着计算机技术的不断发展,人们越来越希望通过语音来实现人机对话,语音识别技术由此应运而生。语音识别是让机器自动识别和理解语音信号,并把语音信号转变为相应命令的技术。特定人孤立词的语音识别是应用最为广泛的一种语音识别技术,而当前这方面的硬件设备成本较高,使得难以大量推广应用。基于上述原因,本文通过对孤立词语音特点的研究,结合单片机等硬件设备,设计了一种基于特定人孤立词的语音识别系统。本文的研究工作和成果主要有以下几个方面的内容:

文章首先分析了语音产生的机理,并以此分析了语音识别的各种算法。对语音信号进行预处理后,提出了一种新的基于短时平均幅度和短时平均过零率的端点检测手段,增强了算法对于不同类型词语的适用性。提取语音线性预测倒谱系数,作为特征参数选择动态时间规整法为模板匹配算法,并针对传统匹配算法中计算量大的特点,作出改进,采用了一种全局路径限制的方法以减小匹配过程中的计算量。在模板的训练中,针对语音信号随机性较大的特点,提出了一种平均模板的训练法,提高了模板的可靠性。

然后,以C805IF040单片机为核心,对系统的硬件电路做了详细设计。之后,文章详细阐述了系统算法的具体实现过程。另外,考虑到系统的定位,对算法中特征阶数的选择作出计算。

最后,对系统在不同的噪声环境和语言环境下进行了大量的实验。结果表明,系统在相对安静的条件下,对特定人孤立词的识别率较高,满足设计要求。同时,由于系统成本低,操作简单,在社会中将具有很好的应用前景。

关键词

语音识别;线性预测倒谱;动态规整技术;单片机

Abstract

With the continuous development of computer technology, it is hoped to achieve man-computer dialogue by voice.As a result,speech recognition technology came in to being.Speech recognition is a kind of technology that is using computer to transfer the voice signal to a command by identification and understanding.Speaker-depended isolated word speech recognition is the most widely used speech recognition technology.However,the cost of hardware devices in this regard is too high at present,resulting in an unnecessary waste of resources. Given the status , through the studying of the characters of single word,a speaker-Depended Isolated-word speech recognition system is designed with the combination of MCU and other hardware device.The main research and results are summarized as follows:

Firstly, according to the mechanism of voice production,a variety of speech recognition algorithms are introduced.After the pretreatment on the speech signal, a new algorithm based on zero-crossing rate and short-term average rate is presented which enhanced the applicability for different types of words.LPCC(Linear Predictive Cepstral Coding)is extracted from the signal as the speech characteristic parameters, DTW(Dynamic Time Warping ) algorithm,which is improved to reduce the amount of data in the matching process by using global constraint,is used for the matching of the model.The average training method is used to enhance the robustness of the system in the course of the training templates for the randomness of speech signal.

Secondly,C805lF040 micro -controller selected as the core,circuit design of the system is shown. Then,the paper details the software components,including the concrete realization of the Process of the algorithm.In addition,taking into account the characteristics of the system itself,the parameters of the algorithm are calculated.

Finally,a lot of debugging and test are carried out under different noise environment and language environment.Experiment results indicate that this control system is stable,and can achieve a good recognition result for special words in quiet conditions.At the same time, due to the low cost,simple operation,the system will have a good application prospects and will be

widely used in future.

Key words Speech Recognition ; LPCC ; DTW ; MCU

目录

摘要 ............................................................................................................................................ I Abstract......................................................................................................................................II 前言 . (1)

第一章语音识别相关技术 (2)

1.1 语音识别概述 (2)

1.1.1 语音识别系统 (2)

1.1.2 语音识别的步骤 (3)

1.2 预处理及特征参数提取 (3)

1.2.1 语音信号的预处理 (3)

1.2.2 线性预测系数LPC (5)

1.3 基于DTW的语音识别 (6)

1.3.1 DTW算法原理 (6)

1.3.2 DTW算法的改进 (6)

1.3.3 匹配模板的训练方法 (7)

第二章系统软件设计 (8)

2.1 主程序流程 (8)

2.2 模板的训练与识别程序 (8)

2.3 端点检测子程序 (11)

2.4 特征提取子程序 (11)

第三章实验与分析 (13)

3.1 系统实验平台介绍 (13)

3.2 实验方案设计 (14)

3.3 实验结果与分析 (14)

结论 (17)

参考文献 (18)

致谢 (19)

前言

语音不仅是人和人之间进行信息交流最直接最方便和最有效的工具,而且也是人和机器之间进行通信的一种重要手。实现人机自然语音对话,对于方便人们生活,提高工作效率具有重要的意义。而实现人机自然语音对话的核心技术就是语音信号处理。

语音信号处理,是以语音学和数字信号处理为基础发展形成的一个综合性的学科,它的研究方向主要有语音分析、语音增强、语音识别、语音合成等几个分支。在过去的近半个世纪里,在语音信号处理方面的研究已经为社会生活带来了深远的影响和极大的便利。作为语音信号处理的关键分支,语音识别技术己经走出实验室,在诸多领域有着广泛的应用,成为了智能计算机研究的主要分支和人机语音通信的主要途径之一。由于语音识别本身所存在的巨大商业价值,世界各大公司纷纷在这方面投以巨资,让这项技术取得了长足的发展,并已经进入社会的各个领域之中。在以后的生活中,语音识别会扮演越来越重要的角色,为人类社会的发展带来更大的便利。

目前,语音识别技术主要有两个发展方向,即大词汇量的语音识别系统和小型化、便携式的语音识别系统。其中,大词汇量的语音识别系统算法复杂,实现难度大,主要用于听写机等设备;小型的语音识别系统,尤其是基于特定人孤立词的语音识别系统,在很多行业中已经有了广泛的应用。尽管小型语音识别系统正日臻完善,但是由于语音信号的随机性较大,而且对背景噪声极为敏感的特点,导致在通常情况下识别率很难达到100%,而一旦背景噪声增大,系统的识别率更会迅速降低。基于以上原因,我们必须对语音识别做进一步的研究工作。本文的研究目的就是要找出一套适合于特定人孤立词语音识别的系统方案。

第一章语音识别相关技术

1.1 语音识别概述

1.1.1 语音识别系统

语音识别系统本质上是一种模式识别系统,它的基本结构如图1-1所示,与一般模与一般模式识别系统一样包括有特征提取、模式匹配、参考模式库等三个基本单元,一般分两个步骤。第一步是系统学习或训练阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库。第二步是识别或测试阶段。根据识别系统的类型选择能够满足要求的一种识别方法,采用语音信号处理方法分析出这种识别方法所需求的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较,通过判决得出结果。

图1-1语音识别系统的结构框图

语音识别系统的设计要考虑到服务对象、词表大小、发音方式、任务性质等许多因素。按不同的影响因素,语音识别系统可以做许多分类。

1.根据服务对象分为:特定人和非特定人

这里所说的服务对象,是指所研制的识别系统是考虑提供给特定的人使用的,还是不确定的任意人使用的,即有特定人识别系统和非特定人识别系统之分。

2.根据词表大小分类:大、中、小词汇量

每一个语音识别系统都有一个词汇表,系统只能识别词汇表中包含的词汇。很明显,随着词汇数目的增加,识别器的难度一般会增加。这是由于:词汇越多,潜在的词间相似性会增加,分辨愈困难;随着词条数增加,系统的搜索运算开销及存储开销就增加。

3.根据发音方式分为:孤立词和连续语音

发音方式指的是采用孤立词发音方式还是连续语音发音方式。一般的孤立词识别系

统的结构比较简单,其原理框图如图1-1所示,词表中每个词对应有一个参考模式,它是由这个词重复发音多遍,再经特征提取和某种训练算法得到的。孤立词的发音,词与词之间要有足够的时间间隙,以便能够检测到首末点。对于连续语音发音方式通常采用连续语音识别系统,其系统结构更为复杂,碰到的困难也更多[1]。

1.1.2 语音识别的步骤

语音信号首先经过预处理(含AD转换)变成满足要求的离散数字信号;然后对其进行频谱分析,提取出语音信号的参数化表示(或称待识别未知模式),通常是由特征矢量构成的特征矩阵;在识别过程中,再把此模式和数据库中的参考模式进行比较;最后由识别决策来决定是否识别,并给出结果[2]。

预处理

预处理的内容很丰富,首先是A/D转换,其目的就是将麦克风录入的原始模拟语音信号采样量化成能够被程序控制和处理的数字信号。

特征提取

经过对语音信号的预处理之后就要进行特征参数的提取,特征提取是任何一个模式识别处理问题首先要解决的问题。在语音信号的特征提取中对特征参数的要求是: (1)能有效代表语音特征,具有良好的区分性;

(2)特征参数之间有良好的独立性;

(3)特征参数易于计算,最好能保证语音识别的实时实现。线性预测系数是能够有效地表征语音的全极点模型参数。

在语音信号的频域特征参数中,目前使用最为广泛的是线性预测倒谱系数(LPCC)和美尔频率倒谱系数(MFCC),MFCC在非特定人识别方面性能优越于LPCC。但求解MFCC 系数需要快速傅立叶变换(FFT)、三角滤波、取对数和离散余弦变换(DCT)等过程,运算复杂,LPCC在特定人的语音识别方面也具有较好的效果,其运算量相对较小。本系统设计采用LPCC系数,本文也将主要介绍线性预测倒谱系数(LPCC)[3]。

识别判决

语音识别过程就是根据模式匹配原则,按照一定的相似性度量法则,使未知模式与参考模式库中的某一个参考模型获得最佳匹配的过程。

1.2 预处理及特征参数提取

1.2.1 语音信号的预处理

由于自然界的语音都是模拟信号,若希望对语音信号做处理,必须将其转变成数字信号,再对数字信号进行整理分析,滤除不必要的信息。这个过程就被称为语音信号的预处理,它包括数字化、预加重和加窗分帧三个部分。

数字化

语音信号的数字化是将语音模拟信号转变成为数字信号的过程,这个过程分为两个步骤:采样和量化。

图1-2语音信号数字化过程 采样就是把信号在等间隔的时间上进行抽取,得到离散的序列,并将其转换成数字。 +∞<<∞-=n nT x n x a )()( (1-1) 其中n 为整数;T 为采样周期,)(t x a 是原始模拟信号。

虽然语音信号的频率最大值可达1okHz,但是语音中对声音的清晰度有最重要影响的还是集中在300一3400Hz 之间,而根据采样定理,只有当采样频率大于信号自身频率的2倍时,才不会导致信息的丢失,因此本文选择8kHz 的采样频率。

在对语音信号进行数字化之前,由于信号中可能存在一些在信号频率之后的的背景噪声,因此为了防止噪声干扰,需要对信号进行带通滤波处理,滤除信号中的背景噪声,以保证信号的有效性。

预加重

当人发浊音时,声门振荡产生的是准周期性的脉冲串,而这样的脉冲形状和理想的占脉冲性比,会导致信号在高频部分产生一12db/oct 的衰减作用。由于辐射模型可以看做是一个一阶的差分方程,它会引起语音的高频部分产生6db/oct 的提升作用,因此总的来说语音信号的高频有一6db/oct 的衰减,即频率每增加一倍信号的功率就会减少1/4,因此,为了抵消这种影响,就要在预处理中对语音信号进行预加重。预加重的可以提升语音的高频部分,使信号的频谱变得平坦,这样就能消除声道模型中的极点带来的影响预加重可以放在模数转换之后进行,用具有与6db/otc 。相当的预加重数字滤波器实现,一般来说,用一阶数字滤波器滤波器,即z u H 11--=来实现。

分帧加窗

在对语音信号进行分析的过程中,信号流的处理通常是以分帧的前提来实现的。也就是以一定的长度对信号进行截取,这个长度就是帧长。从时域上来分析,信号具有短时平稳的特性,也就是说在10到2Oms这么短的一段时间内,可以将信号看作是平稳的。在本系统中,将帧长取为2Oms。在对信号进行分帧时,常采用交叠分段的方法,这样可以使帧和帧之间的过度更加的平滑,可以保证数据的连续性。在交叠分段中,前一帧和后一帧的交叠部分称为帧移,如图1-1所示。

帧移和帧长之比一般取O到0.5。本文对音频信号进行8kHz的采样,以160个采样点为一帧,步长为80个采样点。

图1-3步长帧移示意图

根据傅里叶变换的原理,在计算信号的频谱之时,所观测信号的长度应是无限的,在现实中对语音信号采用分帧截断的方法对信号进行处理。

1.2.2 线性预测系数LPC

1947年维纳首次提出了线性预测分析(Linear Prediction)方法,之后,线性预测就应用于许多领域中。1967年,板仓等人最先将线性预测技术应用到语音分析与合成中。目前,线性预测作为一种工具,几乎普遍地应用于语音信号处理的各个方面,是最有效和最流行的语音分析技术之一,线性预测能用极少的参数,有效正确的表现出语音信号的波形及其频谱特性,而且参数计算简单、快速,己被成功用于语音识别、合成、编码、说话人识别等方面[4]。

线性预测基本原理:

线性分析的基本原理将被分析的信号用模型来表示,即将信号看作是某一个模型或系统的输出。这样,就可以用模型参数来描述信号。

模型的系统函数可以写成有理分式的形式:

∑∑=-=-?-?+=p i i q i i z a z b G z H 11

11

11)( (1-2)

信号可以用有限数目的参数构成的模型来表示。

线性预测倒谱系数(LPCC)

在语音识别系统中很少直接使用LPC 系数,而是由LPC 系数推导出参数线性预测倒谱系数LPCC 。倒谱特征的实质就是将信号作适当的同态滤波,将信号中的卷积关系变为乘积关系,随之作对数处理使之化为可分离的相加成分,标准的倒谱系数计算流程需要进行FFT 变换、对数操作和相位校正等步骤,运算比较复杂。在实际计算中,当序列x(n)为最小相位的情况下,可利用序列x(n)及其复倒谱c(n)的递推关系来简化运算。

1.3 基于DTW 的语音识别

1.3.1 DTW 算法原理

模板匹配法是多维模式识别系统中最常用的一种相似度计算方法,是最早用于语音识别的方法。这种方法采用某种非线性时间对准算法,解决了发音长短不一的问题。常用的是基于最近邻原则的动态时间规整方法,简称DTW,是效果最好的一种非线性时间规整模板匹配算法,在孤立词语音识别中获得了成功的应用[5]。

DTW 就是将发音在时间轴进行弯曲,以使两次发音能够更好的匹配。假设己存入的参考模板为:R(1,2,...,M),测试模板为:T(1,2,...,N),其相似度用距离D=[T,R]来表示,假设n 和m 分别是T 和R 中任意选择的帧号,D=T(n),R(m)]表示两帧之间的距离。在DTW 算法中通常采用欧式距离,距离越小相似度越高。

若N=M 则可以直接计算,否则要考虑将T(n),R(m)对齐,对齐采用线性扩张的方法,如果N

1.3.2 DTW 算法的改进

传统的DTW 算法的缺点是模板匹配的运算量太大,当两个模板的长度较大时,训练和识别算法的运算量就相当大。实际上,在匹配的路径中限定了规整路径的斜率,因此许多网格点是达不到,所以平行四边形外的网格点是不需要计算的,另外也没必要保存所有帧的匹配距离矩阵和累积距离矩阵[6]。

改进型DTW 算法大大提高了运算效率,它把实际路径分为三段:

),1(),,1(),,1(N X X X X b a a a ++ (1-3) 其中a X =1/3(2M-N),b X =2/3(2N 一M),a X 和b X 都取最相近的整数。

如图1-4所示由此也得出了对M 和N 长度的限制条件2M-N ≥3,2N-M ≥2,当限制条件不满足时,即说明语音和模板的长度相差太大,匹配意义不大,不进行动态规划匹配,在x 坐标轴上的每一帧与Y 坐标轴上]m ,[ax min Y Y 间的帧做比较,max min ,Y Y 的计算公式如下:

()?????≤≤??? ??-+≤≤=?????≤≤-+≤≤=N x X N M x X x x y N

x X N M x X x x y a a b b 212

10222021max min (1-4)

图1-4 匹配路径约束示意图 1.3.3 匹配模板的训练方法

偶然训练法

当待识别词表不太大且系统为特定人设计时,可以采用一种简单的多模板训练方法。即每个词的每一遍读音形成一个模板,在识别时,待识别矢量序列用DTW 算法分别求

得与每个模扳的累计失真,然后判别它属于哪一个。但由于语音的偶然性很大,且训练时读音可能存在错误,比如不正确的音联。错误发音亦得不到纠正,故这种方法形成的模板鲁棒性不好,这也是这种方法被称为偶然训练法的原因。

鲁棒性训练法团

鲁棒性训练是一种串行训练法。将每一词重复说多遍直到得到一对一致性较好的特征矢量序列。最终得到的模板是在一致性较好的特征矢量序列对在沿DTW 的路径上求平均。其训练过程可描述如下:

假定只考虑某个特定的词。令X1={X 11,X 12,...,X 1r ,}为第一遍的特征矢量序

列,X2={X 21,X 22,...,X 2r ,}为另一遍的特征矢量序列,通过DTW 算法计算这两个模板的失

真d(x l ,x 2),如果d(x l ,x 2)小于某个门限,便认为这两遍特征矢量序列一致性较好,便可

求x l 和2x 的时间弯折平均而得到一个新模板),....,,(21n Y Y Y Y =。具体求法如下:

令T 为DTW 算法的最优路径长度,最终得到最优路径序列。

)))(),(()),...,2(),2(()),1(),1(((T j T i j i j i ty ty (1-5) 新模板Y 可通过下式求得:

y k j k i k T k x x y ,...,2,1),(21)(1)(1== (1-6)

非特定人识别任务的模板训练算法一聚类[7]

对于非特定人语音识别,要想获得较高的识别率,就须对多组训练数据进行聚类,以获得可靠的案板参数。最初的孤立词识别采用人工干预的聚类方法,这些方法尽管有效,但由于人工干预的繁琐工作,阻碍其广泛应用。为了解决这个问题,人们提出过一系列的聚类算法。这些聚类算法与常规的模式聚类方法的主要不同点是:语音识别模板的聚类,针对的是有时序关系的特征序列,而不是维数固定的模式,训练方法复杂,主要用于非特定人的语音识别。

第二章系统软件设计

2.1 主程序流程

语音识别系统在整个程序的设计中,系统进入主程序之后主程序采用调用子程序的方式来完成对语音模板的训练以及识别等任务。

图2-1 语音识别主程序流程

图2-1为系统的主程序流程。系统运行之后,有按键按下之时,判断为何种命令,如果是模板训练命令则进行模板训练的算法操作,语音识别命令则执行语音识别子程序。

2.2 模板的训练与识别程序

模板的训练程序主要完成从开始采集语音信号到最终生成语音参考模板的全过程,而识别子程序则完成采集待识别语音信号到最终通过模式匹配得出识别结果。

在模板的训练中,对每个词进行三次录音,将信号进行处理之后,根据DTW匹配计算这三个词之间的相互距离,并找到距离最短的两段信号,采用平均模板的算法将这两段信号进行平均,得到新的矢量作为最终模板。模板训练的流程如图3-2所示。

图2-3为进行语音识别时的流程图,其大致过程与模板训练的过程相似

图2-3识别子程序流程

从图2-2和2-3可以看出,在进行模板训练和语音识别的时候,需要反复调用很多子程序,这其中包括预处理、端点检测、特征参数的提取等。这些算法的原理和方法在第一章中已经有了详细的介绍,在下面几节中将距离给出这些算法的流程图。

2.3 端点检测子程序

本系统对于语音信号采用8kHz的频率进行采样,之后对语音信号进行预加重和加窗处理。本文采用的是一阶高通数字滤波器1-μz-1,实现预加重,采用汉明窗对数字信号进行加窗,其中0.9≤μ≤1.0,取u=0.94。预加重流程如图2-4,其中N为采样点数。

图2一4预加重流程

通过预加重处理之后的信号通过矩形窗进行加窗分帧。本系统语音信号处理的帧长度取20ms,因此,每帧有160个采样点,帧移和帧长之比选为0.5,因帧移选择为80。

2.4 特征提取子程序

本系统在对语音信号进行特征提取时,采用LPCC作为特征矢量。LPC阶数的选取决定了语音识别过程中的计算量,也决定了语音模型的阶数,对语音识别系统的性能有着重要影响。当阶数选择在8到32之间的时候,LPC一般可以较好地表征声学特性[10]。而且随着LPC的阶数的增加,语音识别率并不是一直升高,这是由于阶数增加的时候,预测系数受语音信号中的随机信息的影响也越来越大,以及有限字长等一系列效应,都会导致系统识别率的降低[11]而且随着阶数的增加,由 1.2节的算法原理可知,系统的计算量

也会随着特征模型阶数的增加以几何倍数而增加,这样也并不利于系统在单片机上的实现。因此,必须合理的选择阶数才能让系统的性能达到最高。本系统所采用8kHz的频率语音信号进行采样,而8kHz的采样信号通常有4个共振峰[12],因此取p=8。此外为了弥补鼻音中存在的零点以及其他因素引起的偏差,通常在上述阶数的基础上再增加两个极点,p=10。

在对LPCC的提取之前,首先要对语音信号进行LPC特征参数的提取,之后再对其进行倒谱计算,定义变量i来表示当前处理到的帧数,N来表示经过端点检测之后所保留的帧数,即N=I_End-1start+1,定义E来存放最小误差能量.本系统使用矩阵c[]J[p+2]来存放语音信号的LPCC参数以语音信号的第i帧为例,其计算流程如图2-5所示。

图2-5 LPCC参数计算流程

第三章实验与分析

3.1 系统实验平台介绍

本文在对系统的实验研究中,针对上文所分析的各种算法采用MATLAB构建了一个语音识别系统。在录制音频信号时,通过调用wavrecord函数,以8kHz的采样率对语音信号进行8位采样,之后将信号进行归一化。对于归一化之后的数字信号,采用巴特沃斯数字滤波器对信号进行滤波,然后对信号分别进行预处理、端点检测、特征提取、模板训练、语音识别等操。

系统在运行时,首先需要对语音模板进行训练。调用wavrecord函数对每个信号进行三次录制,通过预处理、端点检测、特征提取之后,找到距离最近的段音频信号,采用平均模板的方法生成新的向量作为语音模板。在语音识别之时,同样采用wavrecord函数对语音信号进行录制,提取出相应的特征模板,与已存的模板进行匹配,找到与已存模板DTW距离最小的那个模板,也就是对应的识别结果。

本系统在研究语音识别的相关算法之时,采用MATLABGUIDE结合代码设计了一个语音信号处理系统,系统界面如图3-1所示。

图3-1语音信号处理界面

图3-1所示的系统中,包含预处理、平均幅度、过零率、端点检测、DTW路径计算等多种功能。读取两端音频信号之后就可进行相应的算法实验。通过点击相应的按钮以完成不同的子函数调用来实现不同功能。

3.2 实验方案设计

由于本系统的定位是特定人孤立词的语音识别,因此在实验过程中,为了能够体现系统对特定人以及孤立词的识别效果,为以后的研究做参考,共设计了以下4种方案: 1.对于同一特定人,在安静在安静的环境下对数据1到10及“黑”、“龙”、“江”、“大”、“学”共15个孤立字语音模版进行训练后,分别在安静条件、信噪比分别为40db 30db、25db的环境下对每个信号进行20次的识别实验,记录下系统在这些环境下的识别率作为实验结果。

2.对同一个特定人,在安静的环境下分别采集“前进”、“后退”、“确认”、“停止”、“取消”、“关闭”六条孤立词的语音命令作为训练模板,采用与第一种实验相同的方案进行实验,记录下实验结果。

3.对于同一特定人,在安静情况下采用“黑龙江大学”、“信息学院”、“端点检测”、“特定提取”、“动态规划”、“模板训练”、“语音识别”共七段语音信号作为识别对象,经训练后在多种噪声环境下进行一系列的实验。

4.为了反映算法对于不同的特定人语音的识别率,增加对于非特定人之间的识别方案"在安静条件下对总共三位特定人共采集1到10共10个数字声音信号以及“黑”、“龙”、“江”、“大”、“学”05个孤立字信号,每位特定人14段音频信号,共51段语音信号,将这些信号作为参考模板库。之后,对三位特定人在不同的信噪比环境下采用传统的DTW方法以及简化的DTW算法进行多次识别实验,并记录下实验结果。

在以上所设计的四种实验方案中,实验方案1和方案2主要用于检验系统对特定人孤立词的识别能力,以及系统在不同的噪声环境中识别率的规律所在。通过这两次实验,找出系统所适用的信噪比范围;方案3则主要用于在系统所适用的背景噪声范围内对于较长词汇的识别率;方案4侧重于研究系统对于不同的特定人的区分能力。

3.3 实验结果与分析

表3-1为第二种实验方案的识别结果。从表中可以看出,识别率随着信噪比的减小

而越来越小。同时,这是因为采用词语作为识别对象的时候,语音信号的随机性更高,语速过快或者过慢时,所生成的特征向量的维数会发生变化,导致匹配过程中的距离增大,从而影响到系统的识别率。

表3-1双字词汇识别结果表

识别对象安静条件识别率40db识别率30db识别率25db识别率前进90% 80% 60% 50%

后退100% 80% 80% 70%

确认95% 90% 60% 55%

停止100% 100% 100% 100%

取消100% 90% 85% 80%

关闭95% 90% 80% 60% 平均识别率96.7% 88.3% 77.5% 69.2%

通过前两次的实验可以看出,本系统所设计的算法并不适用于有较大外部噪声的情况,也就是说信噪比应在30db以上才能保证一定的识别率,当信噪比低于30db之时,在很多词汇上,尤其是相近以及轻易比较明显的语音上,识别率都会大大下降。

表3-2 四字词汇识别结果

识别对象安静条件识别率40db识别率30db识别率黑龙江大学80% 60% 45%

信息学院100% 90% 80%

端点检测70% 65% 70%

特征提取95% 95% 90%

动态规则90% 80% 65%

模板训练95% 95% 85%

语音识别100% 80% 85%

平均识别率90% 80.7% 74.3%

表3-2为方案3的实验结果。由于前两种方案己经得出系统只适合在信噪比为3Odb 以上的环境中进行实验,因而只采用了三种背景作为实验环境。通过实验数据可以看出,系统对于较长词汇的识别率相比于短小词汇来说有一定下降,这是由于词语较长,当特定人进行发音之时,语速的快慢变得尤为明显。而较快的语音对应着较大的模板,较短的语音对应着较小的模板"就算是同一位特定人,对于四字词汇的发音时间也会有较大变

浅析语音识别技术的难点及对策

浅析语音识别技术的难点及对策 在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。 语音识别技术 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。 语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT">60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning,DP)和线性预测分析(Linear Predict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。 70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding,LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

(完整版)基于单片机的语音控制开关设计毕业设计

题目基于单片机的语音控制开关设计所在学院物理与电信工程学院专业班级通信工程专业 1102 班指导教师郑争兵 完成地点物理与电信工程学院实验室 2015年 6月03日

毕业论文﹙设计﹚任务书 院(系) 物理与电信工程学院专业班级通信1102 学生姓名朱楠 一、毕业论文﹙设计﹚题目基于单片机的语音控制开关设计 二、毕业论文﹙设计﹚工作自_2015 _年_ 1__月_10_日起至_2015__年 6 月_ 10 日止 三、毕业论文﹙设计﹚进行地点: 物理与电信工程学院实验室 四、毕业论文﹙设计﹚的内容要求: 智能家居作为一个新生产业,目前处于一个导入期与成长期的临界点,随着智能家居市场推广普及的进一步落实,培育起消费者的使用习惯,智能家居市场的消费潜力必然是巨大的,产业前景光明。本课题设计语音智能控制开关,具体要求如下: 1. 掌握语音识别的工作原理,使用语音识别芯片完成硬件设计; 2.能实现语音控制开关的开启和关闭; 3. 系统集成,焊接电路板,调试。 成果形式:实验样机一套。 毕业设计进度安排: 1.10─3.20:查阅资料(参考文献不少于10篇),进行方案论证,完成开题报告。完成不少于3000字的外文翻译; 3.20─ 4.30:设计硬件电路,编写相关软件、完成电路仿真及样机调试; 5.1─5.20:完善系统调试,撰写论文,准备毕业设计验收等工作; 5.21- 6.10:整理资料,修改论文,准备毕业答辩。

指导教师系(教研室)通信教研室 系(教研室)主任签名批准日期 接受论文(设计)任务开始执行日期学生签名

基于单片机的语音智能开关设计 朱楠 (陕西理工学院物理与电信工程学院通信1102班,陕西汉中 723003) 指导教师:郑争兵 [摘要]语音识别是解决机器“听懂”人类语言的一项技术。随着语音识别理论研究的深入和数字信号处理软、硬件技术的发展,语音识别技术应用的研究越来越受到人们的关注。智能语音家电控制系统实质上就是一个替代传统手动开关的受声控制的电子开关。此系统以STC11L08XE和LD3320语音芯片为硬件核心,对语音芯片LD3320的信息进行处理,并对开关进行控制,通过LD3320外界的麦克风采集声音信号,再通过LD3320语音芯片进行频谱分析,在提取语音特征,之后和关键词语列表中的关键词进行对比匹配,最后找出得分最高的关键词作为识别结果输出给单片机,单片机进行处理后,再输出信号来控制继电器,再通过继电器来控制开关工作,开关又可实现对电器的控制。语音芯片的功能都是通过单片机控制实现的。最终实现对智能语音开关的控制 [关键词] STC11L08XE单片机语音芯片LD3320 语音识别 Design of intelligent voice switch based on MCU Zhu nan (Grade11,Class2,Major of Communication Engineering,School of Physics and Tutor:Zheng Zheng bing Abstract: Speech recognition is a technology to solve the machine to understand human language. Along with the research of speech recognition theory and the development of digital signal processing software and hardware technology, The research on the application of speech recognition technology is getting more and more attention.The intelligent speech appliance control system is essentially an electronic switch which replaces the traditional acoustic control with the manual switch. This system LD3320 voice chip and the stc11l08xe as hardware core and the voice chip ld3320 information for processing, and control the switch, through ld3320 external microphone audio signal acquisition, and then through the ld3320 voice chip spectrum analysis, key words in speech feature extraction, and the list of key words contrast matching, finally to find the highest score of the words as recognition results output to the MCU, MCU processing, then the output signal to control the relay, then through the relay to control of the switch, the switch can be to achieve control of the electric appliances. The function of the speech chip is realized by the MCU control. Control of the intelligent speech switch is realized finally. Key words : STC11L08XEMCU LD3320 voice chip Speech recognition

单片机语音识别程序

最近想做语音识别玩玩,网上查了查,找到一个用Atmega32实现的语音识别机械车 地址是:https://www.doczj.com/doc/ae4186981.html,/e ... h8_css34/index.html 貌似是利用带通滤波取得频谱(或者叫功率谱?),看不太懂.我决定用DFT 算法,因为它节约内存 DFT程序借借鉴了 hendry 单片机 DTMF 软解码算法的实现 https://www.doczj.com/doc/ae4186981.html,/forum.php?m ... &highlight=dtmf //-------------------------------------------------- //DFT运算 //注意,ad是有符号数,无符号的AD值需减128 //返回值为1表示已经计算了功率谱 //-------------------------------------------------- U8 dft(S8 ad) { U8 i; U8 offset;//查表指针 U32 temp; //ad-=128;//去直流分量 for(i=0;i>8; offset+=PI2/4;//偏移1/4周期为cos表 s_dft_real += (S16)ad * sintab[offset];//>>8;//cos表 tabp+=tabinc;//指针下移 } s_dft_p ++; if (s_dft_p == NSAMP) //采样点已达到设定值,计算功率 { s_dft_p = 0; //点数清0 for (i = 0; i < NFREQ; i ++)//每个频点计算功率 { s_dft_real/=NSAMP*6; //除以合适的值能使得功率在一字节内 s_dft_image/=NSAMP*6; temp=s_dft_real*s_dft_real + s_dft_image*s_dft_image; if(temp>65535)temp=65535; s_dft_real = sqrt16(temp);

语音识别技术研究

基于Google技术的语音识别实现 前言 语音识别技术在手机上应用得相当广泛,我们日常最频繁的沟通方式是语音,在手机应用中,大部分是通过硬件手动输入,目前这依然是主要与手机互动的方式,然而对于像手机这种小巧的移动设备来说,使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是,Google 推出了强大的语音搜索业务。2008年11月,Google的语音搜索已经在iPhone平台上线,而Android在1.5 SDK版本中也加强了语音识别功能,并应用到了搜索功能上,这的确是一个非常让人惊喜的更新。 Android语音识别 Android系统集成了Google的语音识别技术,我们只需要实现少量代码便可以是使用语音识别。 android语音识别方法一:使用intent调用语音识别程序 1、通过intent传递语音识别的模式 Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); 2、语言模式和自由形势的语音识别 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,https://www.doczj.com/doc/ae4186981.html,NGUAG E_MODEL_FREE_FORM); 3、设置语言库 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.CHINA.toString()); 4、开始执行intent、语音识别 intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "请开始说话"); 5、开始 startActivityForResult(intent, 1234); RecognizerIntent包括的常量:

基于语音识别的智能小车设计-毕设论文

基于语音识别的智能小车 摘要 随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。本设计是语音识别在控制领域的一个很好实现,它将原本需要手工操作的工作用语音来方便地完成。 语音识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。从识别对象的类型来看,语音识别可以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。本设计采用的识别类型是特定人孤立词语音识别。 本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音输入、端点监测、特征参数提取、匹配、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,根据不同的指令控制小车完成不同的动作。 该设计对语音识别的现有算法进行了验证和实现,并对端点检测和匹配算法进行了些许改进。本设计达到了预期目标,实现了所期望的功能效果。 关键词:MATLAB,语音识别,端点检测,LPC,单片机,电机控制

SMART CAR GASED SPEECH RECOGNITION ABSTRACT With the development of computer technology,pattern recognition,signal processing technology and acoustic technology etc, the speech recognition system that can meet the various needs of people is more possible to achieve.The past three decades, the voice recognition in the field of computer, information processing, communications and electronic systems, automatic control has increasingly wide range of applications. Speech recognition by the speaker's speech can be divided into isolated word (Isolated Word) identification, conjunctions (Connected Word) and continuous speech recognition (Continuous Speech) identification. Identifying the type of object from the point of view, the voice recognition can be divided into a specific person (Speaker Dependent) speech recognition and non-specific (Speaker Independent) speech recognition. This design uses the identification type is a specific person isolated word speech recognition. This design is of a good implementation of speech recognition in the control field, it does the work that would otherwise require manual operation by the voice of people easily.This system includes two major aspects:the host system and the slave system. The host system use the MATLAB on the computer which has powerful mathematical computing ability to do the work of voice input, endpoint monitoring, feature extraction, matching, identification and serial control,then it send different commands through the PC serial port to slave system according different recognised voice. The slave system is a car controlled by a single-chip micro-controller.It controls the car do different actions according different instructions received.

基于单片机的语音识别系统 毕业设计

基于单片机的语音识别系统毕业设计 目录 摘要..................................... 错误!未定义书签。Abstract ................................. 错误!未定义书签。目录..................................................... I 前言.. (1) 1 方案介绍及设计简介 (2) 1.1小车的控制要求及设计方案 (2) 1.1.1小车的控制要求 (2) 1.1.2方案设计与论证 (2) 1.2SPCE061A 简介 (3) 1.2.1SPCE061A单片机概述 (5) 1.2.2SPCE061A的介绍 (7) 1.2.3SPCE061A的结构 (7) 1.3SPCE061A 单片机强大的语音功能 (7) 1.3.1语音识别的原理 (8) 1.3.2系统的结构框图 (9) 1.4语音控制小车设计要求 (10) 1.4.1功能要求 (10) 1.4.2语音控制小车的主要功能 (10) 1.4.3参数说明 (10) 1.4.4注意事项 (10) 2电路设计及程序设计 (11) 2.1电路设计基础知识 (11) 2.2电路方框图及说明 (13) 2.3各部分电路设计 (13) 2.3.1电机的选择 (14)

2.3.2继电器驱动电路的设计 (14) 2.3.3行驶状态控制电路设计 (15) 2.3.4麦克录音输入及AGC电路 (16) 2.3.5语音播报电路 (18) 3软件设计 (19) 3.1软件流程图及设计思路说明 (19) 3.1.1程序设计 (20) 3.2模块设计 (20) 3.2.1中断流程图部分 (20) 3.2.2语音识别部分 (22) 4连接和操作说明 (25) 4.1硬件模块连接图 (25) 4.1.1功能说明 (25) 4.1.2代码下载 (26) 4.1.3训练小车 (27) 4.1.4声控小车 (28) 4.1.5重新训练 (28) 总结 (30) 致谢 (31) 参考文献 (32) 附件1 系统程序说明 (33)

基于DTW算法的语音识别系统实现

基于DTW算法的语音识别系统实现 作者:吴晓平, 崔光照, 路康 作者单位:郑州轻工业学院信息与控制工程系,河南省,郑州市,450002 刊名: 电子工程师 英文刊名:ELECTRONIC ENGINEER 年,卷(期):2004,30(7) 被引用次数:13次 参考文献(5条) 1.祝晓阳;卢中宁;崔光照数字信号处理芯片TMS320VC5402的语音接口设计[期刊论文]-郑州轻工业学院学报(自然科学版) 2002(02) 2.陈志鑫;郭华伟基于TMS320C54xDSP的实时语音识别系统[期刊论文]-半导体技术 2001(04) 3.张勇C/C++语言硬件程序设计 2003 4.楼顺天基于MATLAB的系统分析与设计 2000 5.赵力语音信号处理 2003 引证文献(13条) 1.石太佳.王晓君基于LPMCC的语音识别系统实现[期刊论文]-电声技术 2010(1) 2.舒鹏飞.颜卫.徐魁基于ADSP的语音识别系统[期刊论文]-科协论坛(下半月) 2009(7) 3.吕涛.刘百芬.燕贤青一种基于定点DSP的语音识别算法实现[期刊论文]-华东交通大学学报 2008(6) 4.张钢.朱铮涛.何淑贤应用DTW的语音(声纹)鉴别技术研究[期刊论文]-中国测试技术 2007(2) 5.白志强.唐永哲基于动态时间规整的飞控系统故障诊断[期刊论文]-计算机仿真 2007(1) 6.王佑民.江城.吴丰博用FPGA实现基于内容的音频检索系统[期刊论文]-中国制造业信息化 2007(17) 7.何燕玲.马建国声控机器人的特定人孤立词汉语识别系统设计[期刊论文]-西南科技大学学报(自然科学版)2006(1) 8.杨占军.杨英杰.王强基于DSP的语音识别系统的设计与实现[期刊论文]-东北电力大学学报(自然科学版)2006(2) 9.王振浩.杜凌艳.李国庆.高树永动态时间规整算法诊断高压断路器故障[期刊论文]-高电压技术 2006(10) 10.高丙朋基于DSP的小词汇量语音识别系统[学位论文]硕士 2006 11.贺翠英说话人识别研究及DSP实现[学位论文]硕士 2006 12.白志强飞行控制系统故障检测研究与仿真软件开发[学位论文]硕士 2006 13.田强基于Sphinx汉语语音评价系统探讨[学位论文]硕士 2005 本文链接:https://www.doczj.com/doc/ae4186981.html,/Periodical_dzgcs200407007.aspx

语音识别研究的背景意义及现状

语音识别研究的背景意义及现状研究的背景及意义 自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让各种机器能听懂人类的语言并能按人的口头命令来行动,从而实现人机的语言交流。随着科学技术的不断发展,语音识别 (Speech Recognition) 技术的出现,使人类的这一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机认交互应用中己经占到越来越大的比例。 音乐就是一种艺术。通常可以解释为一系列对于有声、无声具有时间性的组织,并含有不同音阶的节奏、旋律及和声。音乐与人的生活情趣、审美情趣、言语、行为、人际关系等等,有一定的关联。音乐是人们抒发感情、表现感情、寄托感情的艺术,不论是唱、奏或听,都内涵着关联人们千丝万缕情感的因素。特别对人的心理,会起着不能用言语所能形容的影响作用。 音乐可以通过几种途径来体验,而音乐播放器是现代生活中最便捷 , 最实用的一种。现如今社会在飞速发展,人们的生活节奏也在不断加快,工作压力也在日益增大,致使越来越多的人选择在闲暇时间放松自己。而听音乐就成了人们缓解生活压力的第一选择,医学表明音乐不仅可以对人们紧张的心情带来放松,还能有效的缓解高血压对心血管造成的压力。因此音乐播放器已经成为人们日常生活中至关重要的物品。 然而可惜的是,传统的音乐播放器通常上是通过两种方式实现人们对播放器的控制的:一是按键式控制(其中也包括线控式),通过直接按键改变电平发出指令;二是通过远程控制,通过红外线或者蓝牙等对播放器发布命令。这对于疲劳中的人们或者残障人士来说是不方便的。为了减少手动操作的繁琐,此次设计专门致力于研究一种方案通过语音控制来实现对音乐播放器的控制,使其更加方便、更加人性化,实现音乐播放器的全自动语音控制。这个设计不仅是为了解决人们日常使用传统音乐播放器不方便的烦恼,而且是为了研究语音识别技术在单片机中的应用,特别是在SPCE061中实现语音识别的应用,设计出具有语音控制功能的音乐播放器。 国内外研究现状 语音识别的研究工作可以追溯到 20世纪50年代AT&T贝尔实验室的Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60年代末

用单片机实现语音控制机器人

用单片机实现语音控制机器人 制作人:潘磊pb02023035 卢恒pb02006088 题目:用凌阳单片机实现语音识别功能并传递给PIC单片机信号,由PIC单片机控制机器人实现动作 关键字:PIC单片机,凌阳单片机,语音控制 单片机在现今生活中占有越来越重要的地位,用语音控制单片机实现控制更具有 广泛的应用价值。用语音控制舞蹈机器人做一些动作是我们这次实现的功能,虽然这 在语音控制方面仍处于起步阶段,但他体现了语音控制的原理和基本实现,也为更高 级的运用打下了基础。 原理: 1.语音识别原理 语音识别电路基本结构如上图所示:语音识别分为特定发音人识别(Speaker Dependent)和非特定发音人识别(Speaker Independent)两种方式。 特定发音人识别是指语音样板由单个人训练,对训练人的语音命令识别准确率较高,而其他人的语音命令识别准确率较低或不识别。非特定发音人识别:是指语音样板由不同年龄、不同性别、不同口音的人进行训练,可以识别一群人的命令。语音样板的提取非常重要。我们将标准模式的存储空间称之为“词库”,而把标准模式称之为“词条”或“样板”。所谓建立词库,就是将待识别的命令进行频谱分析,提取特征参数作为识别的标准模式。 识别过程首先要滤除输入语音信号的噪音和进行预加重处理,提升高频分量,然后用线性预测系数等方法进行频谱分析,找出语音的特征参数作为未知模式,接着与预先存储的标准模式进行比较,当输入的未知模式与标准模式的特征相一致时,便被机器识别,产生识别结果输出。如果输入的语音与标准模式的特征完全一致固然好,但是语音含有不确定因素,完全一致的条件往往不存在,事实上没有人能以绝对相同的语调把一个词说两遍,因此,预先制定好计算输入语音的特征模式与各特征模式的类似程度,或距离度的算法规则固化在ROM

语音识别字符分割算法_原创.

5.设计方法 5.1概述 5.2硬件系统的设计 语音信号预处理 (1)预加重 预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。在计算机里用具有6dB/频程升高频特性的预加重数字滤波器来实现,一般是一阶的FIR数字滤波器: 为预加重系数,值接近于l,在0.9和1之间,典型值为0.94。 预加重的DSPBuilder实现: 为了便于实现,将上式中的一阶FIR预加重滤波器用差分方程表示为: 其中,为原始语音信号序列,N为语音长度,上面的公式显示其在时域 上的特性。又因为0.94接近于15/16,所以将上面的式子变为 除以16可以用右移4位来实现,这样就将除法运算化简为移位运算,降低了计算复杂度。在后面的模块设计中,也乘以或者除以一些这样的数,这些数为2的幂次,都可以用移位来实现。 预加重的硬件实现框图如下: 预加重实现框图 DSP Builder中的图形建模为:

预加重滤波器的DSPBuilder结构图 (2)分帧 语音信号是一种典型的非平稳信号,其特性随时间变化,其在很短的时间内是平稳的,大概为1小20ms,其频谱特性和物理特征可近似的看做不变,这样就可以采用平稳过程的分析处理方法来处理。 分帧的DSP Builder实现: 语音信号在10到20ms之间短时平稳(这样可以保证每帧内包含1一7个基音周期),也就是说选取的帧长必须介于10到20ms之间,此外,在MFCC特征提取时要进行FFT变换,FFT点数一般为2的幂次,所以本文中选择一帧长度为16ms,帧移为1/2帧长,这样一帧就包含了16KHz*16ms=256个点,既满足短时平稳,又满足FFT变换的要求。 由于采集的语音是静态的,语音长度已知,很容易计算出语音的帧数,但是在硬件上或实时系统中,语音长度是无法估计的,而且还要考虑存储空间的大小和处理速度,采用软件实现时的静态分帧方法是行不通的,可以利用硬件本身的特点进行实时的动态分帧。 为了使帧与帧之间平滑过渡,保持连续语音流的自相关性和过渡性,采用交叠分帧的算法。帧移取1/2帧长,即128个数据点当作一个数据块。FIFO1大小为一帧语音长度,分成两个数据块,预加重后的数据写入这个FIFO。为了实现帧移交叠,在FIFO1读数据时,同时再用FIFO2保存起来,当FIFO的一块数据读完以后,紧接着从FIF22读出这一块的副本。写入的一块数据,相当于被重复读出2次,所以FIFO1的读时钟频率设计为写时钟频率的2倍,而FIFOZ的读写时钟频率和FIFO1的读时钟频率相同。分帧以后的数据在图中按时间标号为1、2、2、3.··…,1、2为第一帧,2、3为第二帧,以此类推。

基于单片机的智能语音识别系统设计毕业设计论文

基于单片机的智能语音识别系统设计 (硬件部分) 系别: 专业班: 姓名: 学号: 指导教师:

基于单片机的智能语音识别系统设计 (硬件部分) The Design of Intelligent Speech Recognition System Based on Single-chip Computer (HardWare)

摘要 本文设计一个让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术的语音识别系统。本语音识别系统以LD3320语音识别芯片为核心部件,主控MCU选用STC10L08XE。主控MCU通过控制LD3320内部寄存器以及SPI flash实现语音识别和对话。通过麦克风将声音信息输入LD3320进行频谱分析,分析后将提取到的语音特征和关键词语列表中的关键词语进行对比匹配,找出得分最高的关键词语作为识别结果输出给MCU,MCU针对不同的语音输入情况通过继电器对语音命令所对应的电器实现控制。同时也可以通过对寄存器中语音片段的调用,实现人机对话。 设计中,电源模块采用3.3V供电,主要控制及识别部分采用LM1117-3.3稳压芯片,语音播放及继电器部分采用7812为其提供稳定的电流电压。寄存器采用一片华邦SPI flash芯片W25Q40AVSNIG,大小为512Kbyte。系统声音接收模块采用的传感器为一小型麦克风——驻极体话筒,在它接收到声音信号后会产生微弱的电压信号并送给MCU。另外系统还采用单片机产生不同的频率信号驱动蜂鸣器来完成声音提示,此方案能完成声音提示功能,给人以提示的可懂性不高,但在一定程度上能满足要求,而且易于实现,成本也不高。 关键词:语音识别 LD3320 STC10L08XE单片机频谱分析

语音识别研究的背景意义及现状

语音识别研究的背景意义及现状 研究的背景及意义 自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让各种机器能听懂人类的语言并能按人的口头命令来行动,从而实现人机的语言交流。随着科学技术的不断发展,语音识别(Speech Recognition)技术的出现,使人类的这一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机认交互应用中己经占到越来越大的比例。 音乐就是一种艺术。通常可以解释为一系列对于有声、无声具有时间性的组织,并含有不同音阶的节奏、旋律及和声。音乐与人的生活情趣、审美情趣、言语、行为、人际关系等等,有一定的关联。音乐是人们抒发感情、表现感情、寄托感情的艺术,不论是唱、奏或听,都内涵着关联人们千丝万缕情感的因素。特别对人的心理,会起着不能用言语所能形容的影响作用。 音乐可以通过几种途径来体验,而音乐播放器是现代生活中最便捷,最实用的一种。现如今社会在飞速发展,人们的生活节奏也在不断加快,工作压力也在日益增大,致使越来越多的人选择在闲暇时间放松自己。而听音乐就成了人们缓解生活压力的第一选择,医学表明音乐不仅可以对人们紧张的心情带来放松,还能有效的缓解高血压对心血管造成的压力。因此音乐播放器已经成为人们日常生活中至关重要的物品。 然而可惜的是,传统的音乐播放器通常上是通过两种方式实现人们对播放器的控制的:一是按键式控制(其中也包括线控式),通过直接按键改变电平发出指令;二是通过远程控制,通过红外线或者蓝牙等对播放器发布命令。这对于疲劳中的人们或者残障人士来说是不方便的。为了减少手动操作的繁琐,此次设计专门致力于研究一种方案通过语音控制来实现对音乐播放器的控制,使其更加方便、更加人性化,实现音乐播放器的全自动语音控制。这个设计不仅是为了解决人们日常使用传统音乐播放器不方便的烦恼,而且是为了研究语音识别技术在单片机中的应用,特别是在SPCE061A中实现语音识别的应用,设计出具有语音控制功能的音乐播放器。 国内外研究现状

基于单片机的语音识别系统研究开题报告

论文开题报告 一、毕业论文设计的目的及意义 随着人们生活水平不断提高。越来越多的人开始注意私人或工作场所的保密性以及安全性。为了满足人们的不同需求,设计者们开发了多种多样的门禁系统。它们被广泛应用于私人住宅,学校、医院、商店、企业,政府单位等各种场所。按照识别方式分类,有指纹识别式,人脸识别式,语音识别式等等。这些系统各有特点、各有优势。随着计算机功能越来越强大,微电子技术不断发展,即使简单的单片机也能够实现简单的人机对话。这就为语音识别门禁系统的设计提供了必要条件探究语音识别技术在嵌入式系统中的应用,通过嵌入式技术实现语音识别,扩展嵌入式系统的应用领域,将语音识别技术应用于门禁系统,为人们的生活提供便利。 二、结构和主要内容 本文分成五个部分. 第一部分是概述这部分主要论述本系统实现的技术基础,简要介绍了系统用到的嵌入式技术,主要介绍了嵌入式技术的核心-单片机;以及语音识别技术。通过论述语音识别技术的原理,分类,发展前景等,简单的介绍语音识别技术的特点、功能、应用。 第二部分是硬件系统设计。这部分分析硬件系统的组成结构,具体组成模块,具体电路设计,用到的主要的组成部件等。在这里我详细介绍了应用到的系统核心单片机,以及语音识别模块的核心,语音识别芯片。为具体直观的体现本系统的设计思路,将系统分为处理器核心部分、语音信号处理部分、门锁控制电机部分、门锁,一共四个模块。然后分别介绍每个模块的电路设计。 第三部分是软件系统设计,不同模块软件的实现。简要介绍了处理器核心部分的软件实现和门锁控制部分的软件实现。 第四部分是系统的仿真过程,因为软件的仿真更加方便快捷,所以本文选择的是通过软件进行仿真。 三、研究方法 1.收集和整理资料,参阅部分收集到的资料,对论文命题有了初步的认识。 2.完成开题报告,并透过指导老师和论文开题答辩小组审查。 3.查找与阅读论文相关的适宜的英文文献,对其进行翻译并完成。 4.寻找实习单位,进行为期一个月的实习,实习资料涉及社会实践和与论文相关的实地研究。 5.实习期间写下实习周记。 6.透过文献研究和实践研究,对论文命题有了较为全面的理解后,结合前人的研究成果,完成论文初稿的撰写 四、主要参考文献: [1]李建忠编著.单片机原理及应用.西安:西安电子科技大学出版社,2002 [2]李群芳,肖看编著.单片机原理、接口及应用.北京:清华大学出版社,2005

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

相关主题
文本预览
相关文档 最新文档