当前位置:文档之家› 语音信号采集与处理

语音信号采集与处理

语音信号采集与处理
语音信号采集与处理

目录

摘要: (1)

关键词: (1)

Abstract:. (1)

Key words: (1)

0 引言 (2)

1 绪论 (2)

1.1 课题的背景与意义 (2)

1.2 国内外研究现状 (2)

1.3 本文主要工作 (3)

1.4 本文的仿真软件Matlab (4)

2 语音信号的特点和采集 (4)

2.1 语音信号的特点 (4)

2.2 语音信号的采样原理 (5)

2.3 音频信号的采集 (7)

3 语音信号的分析 (8)

3.1 语音信号分析技术 (8)

3.2 语音信号的时域分析 (8)

3.2.1 短时能量及短时平均幅度分析 (9)

3.2.2 短时过零率分析 (9)

3.3 语音信号的频域分析 (10)

3.3.1 利用短时博里叶变换求语音的短时谱 (11)

3.4 语音信号的语谱图 (12)

4 语音信号的调制解调 (14)

5 语音增强 (16)

5.1 概述 (16)

5.1.1噪声特性 (16)

5.2 语音增强的一种算法-谱减法 (17)

5.3 谱减法语音增强的仿真实现 (18)

6结语 (20)

致谢 (21)

参考文献: (22)

基于声卡和MATLAB的音频信号采集与处理

电子信息科学与技术专业学生

指导教师

摘要:语音信号的采集与分析技术是一门涉及面很广的交叉科学。它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史,讨论了语音信号的特征、采集方法,分析了时域和频域的特性,最后完成了语音调制和语音增强的仿真。

关键词:语音信号;采集与分析;MATLAB

Collecting and Processing of Audio Signal with

MATLAB and Soundcard

Student majoring in Electronic Information Science and Technology

Tutor

Abstract:Audio signal acquisition and analysis technique is a interdisciplinary science. Its application and development is closely related to many subjects such as phonetics, voice metrology, electronic measuring technology and digital signal processing. The development of audio signal acquisition and analytical instruments’ miniaturization, intelligentize, digitization and multi-functionality is rapider. Also the analyzing speed is faster than previous. The history of audio signal acquisition and analysis is introduced in this paper. The feature and collecting methods of audio signal is discussed. Also the character of audio signal is analyzed in both time domain and frequency domain. At last, the simulation of speech modulation and speech enhancement was done.

Key words:audio signal; acquisition and analysis; MATLAB

0引言

音频是多媒体信息的一个重要组成部分,音频信号的频率范围大约是20Hz~20kHz。音频信号的采集与处理已经广泛应用于材料无损检测、语音识别、噪声抑制等工程领域。对采集音频信号并进行分析处理的技术和方法进行探讨,具有一定的意义。

1 绪论

1.1 课题的背景与意义

通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。

让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。作为高科技应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理。工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。

语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系.并且一起发展。语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号采集与分析的研究一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。

1.2 国内外研究现状

语音信号的采集与分析作为一个重要的研究领域,已经有很长的研究历史。但是它的快速发展可以说是从1940年前后Dudley的声码器(vocoder)和potter等人的可见语音Visible Speech)开始的[1]。1952年贝尔(Bell)实验室的Davis等人首次研制成功能识别十个英语数字的实验装置。1956年Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。20世纪60年代初由于Faut 和Steven的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。 20世纪60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速傅里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在方法上,随着电

子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的认识得到了加深,所以1969年美国贝尔研究所的Pierce感叹地说“语音识别向何处去?”。

到了1970年,好似反驳Pierce的批评,单词识别装置开始了实用化阶段,其后实用化的进程进一步高涨,实用机的生产销售也上了轨道[2]。此外社会上所宣传的声纹(Voice Print)识别,即说话人识别的研究也扎扎实实地开展起来,并很快达到了实用化的阶段。到了1971年,以美国ARPA(American Research Projects Agency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国国内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。历时五年的庞大的ARPA 研究计划,虽然在语音理解、语言统计模型等方面的研究积累了一些经验,取得了许多成果,但没能达到巨大投资应得的成果,在1976年停了下来,进入了深刻的反省阶段。但是,在整个20世纪70年代还是有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。这就是20世纪70年代初由板仓(Itakura)提出的动态时间规整(DTW)技术,使语音识别研究在匹配算法方面开辟了新思路;20世纪70年代中期线性预测技术(LPC)被用于语音信号处理,此后隐马尔可夫模型法(HNMM)也获得初步成功,该技术后来在语音信号处理的多个方面获得巨大成功;20世纪70年代未,Linda、Buzo、Gray 和Markel等人首次解决了矢量量化(VQ)码书生成的方法,并首先将矢量量化技术用于语音编码获得成功。从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许多领域。因此,20世纪80年代开始出现的语音信号处理技术产品化的热溯,与上述语音信号处理新技术的推动作用是分不开的。

20世纪80年代,由于矢量量化、隐马尔可夫模型和人工神经网络(ANN)等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展。其中,隐马尔可夫模型作为语音信号的一种统计模型,在语音信号处理的各个领域中获得了广泛的应用。其理论基础是1970年前后,由Baum等人建立起来的,随后,由美国卡内基梅隆大学 (CMU)的Baker和美国IBM公司的Jelinek等人将其应用到语音识别中。由于美国贝尔实验室的Babiner等人在20世纪80年代中期,对隐马尔可夫模型深人浅出的介绍,才使世界各国从事语音信号处理的研究人员了解和熟悉,进而成为一个公认的研究热点,也是目前语音识别等的主流研究途径[3]。

进入20世纪90年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工种经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。

1.3 本文主要工作

本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。第2章主要介绍语音信号的特点与采集,仿真主要是验证乃奎斯特定理。第3章主要是对语音信号进行时域、频域上的分析,如短时功率谱,短时能量,短时平均过零率,语谱图分析等等。第4章是对语音信号的综合和分析,包括语音信号的调制,叠加,和滤波。第五章主要是介绍了关于语音增强的一些概念,并完成了谱减法语音增强的仿真实现。

1.4 本文的仿真软件Matlab

MATLAB 是美国MathWorks 公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLA B 和Simulink 两大部分[4]。

MATLAB 是矩阵实验室(Matrix Laboratory )的简称,和Mathematica 、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATL AB 可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。

MATLAB 的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB 来解算问题要比用C ,FORTRAN 等语言完相同的事情简捷得多,并且mathworks 也吸收了像Maple 等软件的优点,使MATLAB 成为一个强大的数学软件。在新的版本中也加入了对C ,FORTRAN ,C++,JAVA 的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB 函数库中方便自己以后调用,此外许多的MATLAB 爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用[5]。

2 语音信号的特点和采集

2.1 语音信号的特点

通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:

(1) 在频域内,语音信号的频谱分量主要集中在300~3400Hz 的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按8kHz 的采样率对语音信号进行采样,就可以得到离散的语音信号[6]。

(2) 在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。

下面是一段语音信号的时域波形图(图2-1)和频域图(图2-2),由这两个图可以看出语音信号的两个特点。

00.51 1.52

2.5

3 3.5

4 4.55-0.8-0.6

-0.4

-0.2

0.2

0.4

0.6

Time(s)

图2-1 语音信号时域波形图

05001000

15002000250030003500400000.1

0.2

0.3

0.4

0.5

0.6

0.7

Frequency(Hz) 图2-2 语音信号功率谱图

2.2 语音信号的采样原理

在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:①抑制输入信号各领域分量中频率超出fs/2的所有分量(fs 为采样频率),以防止混叠干扰。②抑制50Hz 的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH 和fL ,则对于绝人多数语音编译码器,fH=3400Hz 、fL =60~100Hz 、采样率为fs =8kHz ;而对于语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用要求较高或很高的场合时fH =4500Hz 或8000Hz 、fL =60Hz 、fs =10kHz 或20kHz 。

为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号[7]。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔△t 在模拟信号x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率fs 必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建。它是通过采样脉冲和模拟信号相乘来实现的。下图是一段语音信号在采样频率44.1KHz 情况下的频谱图[8]。

由图可知,这段语音信号的频率主要集中在1KHz 左右,当采样频率为44.1KHz 时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。

对上述信号进行1/80采样频率抽取,即采样频率变为将近500Hz 时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。

在采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择△t 涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T )的信号,采集到过大的数据量(N=T/△t ),给计算机增加不必要的计算工作量和存储空间;若数据量(N )限定,则采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采

01234

5678x 104

-0.4-0.2

0.2

0.4

原始信号

Time(s)00.51 1.5

2 2.5x 1040100

200

300

Frequency(Hz)

图2-3 原始信号的时域和频域波形

01234

5678x 104

-0.4-0.2

0.2

0.4

抽取后的信号

Time(s)00.51 1.5

2 2.5x 104

02

4

6

Frequency(Hz)

图2-4 抽取后的信号的时域和频域的波形图

样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上[9]。

语音信号经过预滤波和采样后,由A/D变换器变换为二进制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。

2.3 音频信号的采集

Data Acquisition Toolbox是MATLAB中主要用于数据采集的工具箱,它提供了一套完整的工具集,用于对基于PC的数据采集硬件进行控制和与之通讯,并将采集的数据写入MATLAB工作区进行分析。Data Acquisition Toolbox通过MATLAB接口与硬件设备打交道,通过MATLAB编程来直接控制声卡进行数据采集。

采集方法主要有以下两种:

方法一:将声卡作为一个模拟输入对象来进行采集,分四个步骤进行:

(1)建立设备对象,进行初始化。MATLAB将声卡等设备都做对象处理,通过对对象的操作来作用于硬件设备,并同时建立起模拟信号采集的对象:

ai = analoginput ('winsound'); % 'winsound'为声卡的驱动程序

(2)给ai对象添加采集通道,设置音频采集的属性参数:

addchannel(ai,value); % 设置采集音频的通道

set(ai,'SampleRate',value); % 设置音频信号采集的采样频率

set(ai,'SamplesPerTrigger',value); % 设置采集音频信号的长度

set(ai,'TriggerRepeat',value); % 设置连续采集的次数

set(ai,'TriggerDelay',value); % 设置延长的时间长短

set(ai,'TriggerType',value); % 设置音频信号采集的触发方式

set(ai,'TriggerConditionValue',value); % 设置音频信号采集的触发临界值set(ai,'TimeOut',value); % 设置超时等待的时间长短

在进行数据采集时,可通过以上函数按照实际实验或工作要求来节制数据采集时的行为。其中采样频率是由声卡物理特性直接决定的参数,在对其进行设置时需根据采样定理选择声卡支撑的采样频率。

(3)启动设备对象,开始采集数据:

start(ai);

[data,time]=getdata(ai,ai.SamplesPerTrigger); % 获得采样值向量

当声卡被触发后,声卡设备会自动将采集的数据存入MATLAB data Engin中,利用函数 getdata即可从中提取所需数据,同时在data Engin中删除。也可以通过save 函数直接将包含数据的变量存成MAT文件保存于计算机中,并通过调用函数load进行数据加载,从而利用MATLAB中其他工具箱的函数做进一步数据分析和处理。

(4)停止采集并清除设备对象:

stop(ai) ;

delete(ai);

方法二:直接调用wavrecord功能函数采集音频信号。wavrecord是利用windows 音频输入设备

录制声音,函数调用方式为:

wavrecord(n,fs,ch,dtype);

n:采样点数,决定录音长度;

fs:采样频率,为8000Hz、11025Hz、22050Hz、44100Hz之一,默认值为11025Hz;

ch:样本采集通道,1为单声道,2为双声道,默认值为1;

dtype:采样数据存储格式,即每个样本的解析度。

方法三:在实际工作中,我们可以利用windows自带的录音机录制语音文件,图2-3是基于PC机的语音信号采集过程,声卡可以完成语音波形的A/D转换,获得WA VE 文件,为后续的处理储备原材料。调节录音机保存界面的“更改”选项,可以存储各种格式的W A VE文件。

声音麦克风声卡滤波采样A/D转换Wave

Windows自带的录音机

图2-3 基于PC机的语音信号采集过程

以上三种方法皆可很好的实现对音频信号的采集。

采集到语音信号之后,需要对语音信号进行分析,如语音信号的时域分析、频谱分析、语谱图分析以及加噪滤波等处理。

3 语音信号的分析

3.1 语音信号分析技术

语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理[8]。而且,语音合成的音质好坏,语音识别率的高低,也都取决于对语音信号分析的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位[10]。

贯穿于语音分析全过程的是“短时分析技术”。因为,语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在10~30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10~30ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列[11]。

根据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频域分析等;时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。本文将简要介绍时域分析、频域分析以及语谱图分析。

3.2 语音信号的时域分析

语音信号的域时分析就是分析和提取语音信号的时域参数。进行语音分析时,最

先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理等。这种分析方法的特点是:①表示语音信号比较直观、物理意义明确。②实现起来比较简单、运算量少。③可以得到语音的一些重要的参数。④只使用示波器等通用设备,使用较为简单等[12]。

语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都有应用[6]。在计算这些参数时使用的一般是方窗或汉明窗。

3.2.1 短时能量及短时平均幅度分析

设语音波形时域信号为X(l),加密分帧处理后得到的第n 帧语音信号为 Xn(m ),则Xn(m)满足下式:

()()()n x m w m x n m

=+ 01m N ≤≤- (3-1) 10~(1

(){m N m w m =-==, 0

, 其他值 (3-2) 其中,n =0,1T ,2T ,…,并且N 为帧长,T 为帧移长度。

设第n 帧语音信号Xn(m)的短时能量用En 表示,则其计算公式如下:

120()N n n m E x

m -==∑ (3-3)

En 是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn ,它定义为: 1

0()N M n n m x m -==∑

(3-4)

Mn 也是一帧语音信号能量大小的表征,它与En 的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。

短时能量和短时平均幅度函数的主要用途有:①可以区分浊音段与清音段,因为浊音时En 的值比清音时大的多。②可以用来区分声母与韵母的分界,无声与有声的分界,连字(指字之间无间隙)的分界等。③作为一种超音段信息,用于语音识别中[13]。

3.2.2短时过零率分析

短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号Xn (m )的短时过零率Zn 为:

[][]1

1s g n ()s g n (1

)2N n n n m Z x m x m -==--∑ (3-5) 式中,sgn[ ]是符号函数,即:

[]{1,(0)

1,(0)sgn x x x ≥-<= (3-6)

在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号中包含有50Hz 的工频干扰或者A/D 变换器的工作点有偏移(这等效于输入信号有直流偏移),往往会使计算的过零率参数很不准确[14]。为了解决前一个问题,A/D 变换器前的防混叠带通滤波器的低端截频应高于50Hz ,以有效地抑制电源干扰。对于后一个问题除了可以采用低直流漂移器件外,也可以在软件上加以解决,这就是算出每一帧的直流分量并予以滤除。

对语音信号进行分析,发现发浊音时,尽管声道有若干个共振峰,但由于声门波引起谱的高频跌落,所以其语音能量约集中在3kHz 以下。而发清音时,多数能量出现在较高频率上。高频就意味着高的平均过零率,低频意味着低的平均过零率,所以可以认为浊音时具有较低的过零率,而清音时具有较高的过零率。当然,这种高低仅是相对而言,并没方精确的数值关系[15]。

利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时,如当弱摩擦音 (如[f]、[h]等音素)、弱爆破音(如[p]、[t]、[k]等音素)为语音的开头或结尾;以鼻音(如[n]、 [m]等音素)为语音的结尾时。只用其中一个参量来判别语音的起点和终点是有困难的,必须同时使用这两个参数[16]。图3-1是用Mtalab 仿真一段语音信号时域波形的短时能量和短时平均过零率。

1234567

x 104

-10

1

s p e e c h 100200300400500600700800

50

e n e r g y 100200300400500600700800

20

z c r

图3-1 语音信号的短时能量和短时平均过零率

3.3 语音信号的频域分析

语音信号的频域分析就是分析语音信号的频域持征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线性预测法等几种。本章介绍的是语音信号的傅里

叶分析法。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。

3.3.1 利用短时博里叶变换求语音的短时谱

对第n 帧语音信号Xn(m)进行傅里叶变换(离散时域傅里叶变换,DTFT),可得到短时傅里叶变换,其定义如下:

1

0()()N j w j w n n n m X e x m e --==

(3-7)

由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里,窗w(n-m)是一个“滑动的”窗口,它随n 的变化而沿着序列X(m)滑动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。当然窗口函数不同,傅里叶变换的结果也将不同[17]。

我们还可以将式(3-7)写成另一种形式。设语音信号序列和窗口序列的标准傅里叶变换均存在。当n 取固定值时,w(n-m)的傅里叶变换为:

()()jw n jw n jw m w n m e e W e ∞

---=-∞-=?∑

(3-8)

根据卷积定理,有: ()()()jw jw jwn jw n X e X e e W e --??=???? (3-9)

因为上式右边两个卷积项均为关于角频率w 的以2π为周期的连续函数,所以也可将其写成以下的卷积积分形式:

()-1

()()()2jw j jn j w n X e W e e X e d θθθθπ∏

+∏????=?????? (3-10)

即,假设x(m)的DTFT 是

()jw X e ,且()w m 的DTFT 是()jw W e ,那么

()jw n X e 是()jw X e 和()jw W e 的的周期卷积。 根据信号的时宽带宽积为一常数这一基本性质,可知

)W(e jw 错误!未找到引用源。主瓣宽度与窗口宽度成反比,N 越大,

)(jw e W 错误!未找到引用源。的主瓣越窄。由式(3-10)可知,为了使()jw

n e X 忠实再现()jw n e X 的特性,()jw W e 相对于()jw X e 来说必须是

—个冲激函数。所以为了使()()jw jw n X e X e →,需N →∞;但是N 值太大时,信号的分

帧又失去了意义。尤其是N 大于语音的音素长度时,()jw n X e 已不能反映该语音音素的

频谱了。因此.应折衷选择窗的宽度N 。另外,窗的形状也对短时博氏频谱有影响,如矩形窗,虽然频率分辨率很高(即主辩狭窄尖锐),但由于第一旁瓣的衰减很小,有较大

的上下冲,采用矩形窗时求得的()jw n X e 与()jw

X e 的偏差较大,这就是Gibbs 效应,所

以不适合用于频谱成分很宽的语音分析中。而汉明窗在频率范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄漏少的优点.所以在求短时频谱时一般采用具有较小上下冲的汉明窗[18]。

与离散傅里叶变换和连续博里叶变换的关系一样,如令角频率w=2πk /N ,则得离散的短时博里叶变换(DFT).它实际上是()jw n X e 在频域的取样,如下所示:

2210()()()(01)k

km N j j N N n n n m X e X k x m e k N ∏∏--===≤≤-∑

(3-11)

在语音信号数字处理中,都是采用

的离散傅里叶变换(DFT)()n X k 来替代错误!未找到引用源。并且可以用高效的快速傅里叶变换(FFT)算法完成由()n x m 至()n X k 的转换。当然,这时窗长N 必须是2的倍数2L (L 是整数)。根据傅里叶变换的性质,实

数序列的傅里叶变换的频谱具有对称性,因此,全部频谱信息包含在长度为N/2+1个()n X k 里。另外,为了使()n X k 具有较高的频率分辨率,所取的DFT 以及相应的FFT 点数1N 应该足够多,但有时()n x m 的长度N 要受到采样率和短时性的限制,例如,在通常采样率为8kHz 且帧长为20ms 时,N=160。而1N 一般取256、512或1024,为了将()n x m 的点数从N 扩大力1N ,可以采用补0的办法,在扩大的部分添若干个0取样值,然后再对添0后的序列进行FFT 。例如、在10kHz 的范围内采样求频谱,并要求频率分辨率在30 Hz 以下。由10k z H /1N <30,得1N >333,所以1N =2L

要取比333大的值,这时可取1N =92=512点,不足的部分采用补0的办法解决,此时频率分辨率(即频率间隔)为10 Hz /512=19.53Hz ,采样后的该帧信号频率处在0~19.53Hz 之间,因此,原连续信号频率就处在0~1219.53L Hz -?之间(即m ax 5f kH z

=),所以我们要在0~5kHz 频率范围内求其频谱。FFT 的计算可以在通用计算机上由相应的算法软件来完成,这种方式一般只能实现非实时运算。为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用FFT 芯片。为了完成1024点的万FFT ,这些专用芯片所需的运算时间是几十毫秒至儿毫秒,甚至可以降至1ms 以下。

在语音信号数字处理中,功率谱具有重要意义,在一些语音应用系统中,往往都是利用语音信号的功率谱。根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系: 2()()()()jw jw jw jw n n n n S e X e X e X e *=?= (3-12)

或者: 2()()()()n n n n S k X k X k X k *=?= (3-13)

式中*表示复共轭运算。并且功率谱()jw n S e 是短时自相关函数的傅里叶变换。

121()()()

N j w j w j w k n n n k N S e X e R k e --=-+==∑

(3-14)

3.4 语音信号的语谱图

语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系:语音信号是时变信号,所以其频谱也是随时间变化的。但是由于语音信号的频谱随时间变化是很缓慢的,因而在一段短时间内(如10~30ms 之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性[19]。

把和时序相关的傅里叶分析的显示图形称为语谱图(Sonogram ,或者Spectrogram)。语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。用语谱图分析语音又称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱;记录这种频谱的仪器就是语谱仪。

语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通滤波器有两种带宽可供选择:窄带为45Hz ,宽带为300Hz 。窄带语谱图有良好的频率分辨率,有利于显示基音频率及其各次谐波,但它的时间分辨率较差,不利于观察共振峰(声道谐振)的变化;而宽带语谱图正相反,具有良好的时间分辨率及较差的频率分辨率。宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图里共振峰呈现为黑色的条纹。

可以利用语谱仪测量语谱图的方法来确定语音参数,例如共振峰频率及基音频率。语语图的实际应用是用于确定出讲话人的本性。语谱图上因其不同的黑白程度,形成了个同的纹路,称之为“声纹”,它因人而异,即不同讲话者语谱图的声纹是不同的。因而可以利用声纹鉴别不问的讲话人。这与不同的人有不同的指纹,根据指纹可以区别不同的人是一个道理。虽然对采用语谱图的讲活人识别技术的可靠性存在相当的怀疑,但目前这一技术已在司法法庭得到某些认可及采用[11]。

图3-2是用Matlab 绘制的一个宽带语谱图,其中横轴坐标为时间,纵轴坐标为频率,语句内容为 “南京农业大学工学院”,它的发音在图下方以音标表示。同时给出了相应的语音的时域波形。语谱图中的花纹有横扛(Bar)、乱纹和竖直条等。横杠是与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸出点,也就是共振峰。从横扛对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横扛出现是判断它是否是浊音的重要标志 。竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期,条纹越密表示语音频率越高。

0123456

7x 104

-0.4-0.2

0.2

0.4

"南京农业大学工学院"语谱

20406080100120140160180200220

20

40

60

80

100

120

图3-2 “南京农业大学工学院”语谱图

4 语音信号的调制解调

①录制一段自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的时域波形和频谱图。

0246

81012x 104-0.4-0.2

0.2

0.4

原始信号波形

00.20.40.60.81 1.2 1.4 1.6 1.8

2x 1040100

200

300

400

原始信号频谱

图4-1 原始语音信号

由图可知这段语音信号频率主要集中在1000hz 左右。

②对语音信号进行调制,为了减少在传输时的耗损,人们一般是先对传输信号进行特殊处理,然后再传递。把原始的待传信号调制到高频振荡的过程称为调制。我们知道音频信号的频率在我们的听觉范围内,音频信号在无线传输的过程中会受到各种声音的干扰而产生能量消耗,因此限制了传输的距离。所以在现实的传送过程中要对语音信号进行调制再发送出去。

下面是对一段语音信号的调制仿真图,载波频率为fc=20000Hz 。

0246

81012x 104-1-0.5

0.5

1

调制后信号波形

00.20.40.60.81 1.2 1.4 1.6 1.8

2x 1040200

400

600

800

调制后信号频谱

图4-2 调制后的语音信号

由图可知,经过调制后的语音信号频谱都搬移到fc=20000的频段。

③用经过调制的信号与原信号叠加。

024681012

x 10

4

-2-1

1

2

调制信号+原始信号波形

00.20.40.60.81 1.2 1.4 1.6 1.8

2x 104

0200

400

600

800

调制信号+原始信号频谱

图4-3 调制后的语音信号+原始语音信号

由图可知低频部分是原始信号,高频部分是经过调制后的信号。

④设计字数滤波器和画出频率响应

根据语音信号的特点给出有关滤波器的性能指标:

低通滤波器性能指标,fp=1000Hz ,fc=1200 Hz , As=100dB ,Ap=1dB ;

用双线性变换法设计的低通滤波器的程序如下:

fp=1000;fc=1200;As=100;Ap=1;fs=22050;

wc=2*fc/fs;wp=2*fp/fs;

[n,wn]=ellipord(wp,wc,Ap,As);

[b,a]=ellip(n,Ap,As,wn);

freqz(b,a,512,fs);

滤波器的频率响应

200040006000

800010000-1000-500

Frequency (Hz)P h a s e (d e g r e e s )02000

40006000

800010000

-150-100

-50

Frequency (Hz)M a g n i t u d e (d B )

图4-4 滤波器的频率响应

⑤进行低通滤波,比较滤波前后语音信号的波形及频谱。

024681012

x 10

4

-0.4-0.2

0.2

0.4

低通滤波后信号波形

00.20.40.60.81 1.2 1.4 1.6 1.8

2

x 1040100

200

300

400

低通滤波后信号频谱

图4-5 低通滤波后的信号 5 语音增强

5.1 概述

语音信号是人类传播信息和感情交流的重要媒介,是听觉器官对声音传媒介质的机械振动的感知,也是人类最重要、最有效、最常用、最方便的通信方式。然而,在通信过程中语音会不可避免地受到来自周围环境、传输媒介引入的噪声,通信设备内部电噪声、乃至其他讲话者的干扰,这些干扰最终将使接受到的语音信号并非纯净的原始语音信号,而是受噪声污染的带噪语音信号。这里的“噪声”定义为所需语音信号以外的所有干扰信号。干扰信号可以是窄带的或宽带的、白噪声的或有色噪声的、声学的或电学的、加性的或乘性的,甚至可以是其他无关的语音。由噪声导致的语音质量的下降会使许多语音处理系统的性能急剧恶化。例如,由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。再如,语音识别系统在实验室环境中可获得相当好的效果,但在噪声环境中,尤其是在强噪声环境使用时,系统的识别率将受到严重影响。在这些情况下,采用语音增强技术进行预处理,将有效地改善系统性能。

语音增强有着广泛的应用,因此寻求一种有效的算法对带噪语音信号进行处理以达到较高抗噪效果的研究意义很大。在一般情况下干扰信号是随机信号,要完全排除噪声是不现实的,语音增强的目标对收听人而言是改善语音质量,提高语音可懂度,减少疲劳感;对语音处理系统(识别器、声码器、手机)而言是提高系统的识别率和抗干扰能力[20]。

5.1.1 噪声特性

噪声来源取决于实际的应用环境,因而可以说噪声特性变化无穷。根据与输入语音信号的关系,噪声可分为加性噪声和非加性噪声两类。对某些非加性噪声而言,可以通

过一定的变换转换成加性噪声。例如乘性噪声可以通过同态变换转化为加性噪声。某些与信号相关的量化噪声也可以通过伪随机噪声扰动的方法转化成与信号独立的加性噪声。语音处理中的加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰等。

5.2 语音增强的一种算法-谱减法

谱减法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。这种方法没有使用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望值相等[13]。用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱,与含噪语音频谱相减,得到语音频谱的估计值。当上述差值得到负的幅度值时,将其置零。由于人耳对语音的感知主要是通过语音信号中各频谱分量幅度获得的,对各分量的相位不敏感。因此,此类语音增强方法将估计的对象放在短时谱幅度上。

假设带噪信号为

()()(),0y n s n d n n N =+≤≤- (5-1)

其中,s(n)为纯净语音,d(n)为平稳加性噪声。y(n)通常需要加窗处理来消除分帧时带来的截断效应。这里为方便依然使用y(n)表示加窗处理后的带噪信号。由于实际的分析帧长有限,傅里叶系数之间存在着一定的相关性。但为分析简便,我们仍假设傅里叶系数之间互不相关。设y(n)的傅里叶变换为Y k =|Y k |exp(j θk ),s(n)的傅里叶变换为S k =|S k |exp(j αk ),d(n)的傅里叶变换为N k ,则有

(5-2)

假设d(n)满足高斯分布,其傅里叶变换N k 相当于多个高斯样本的加权和,仍然可以认为满足高斯分布,均值为0,方差可以通过无语音期间的噪声分析得到。基于短时谱幅度估计的语音增强就是要利用已知的噪声功率谱信息,从Y k 中估计出S k 。由于人耳对相位不敏感,因此只要估计出S k ,然后利用带噪语音的相位,进行傅里叶反变换就可得到增强的语音。基于语音短时谱估计方法的一般原理如图5-1所示。根据实现估计的方法不同,可以分为谱减法、维纳滤波法和最小均方误差(MMSE)估计等,这里仅介绍谱减法。 FFT

幅度谱估值器IFFT y(n)=s(n)+d(n)Y k

S k

噪声特

?()s

n 相位θk

图5-1 基于语音短时谱估计的原理框图

谱减法的基本原理图如图所示。y(n)经FFT 变换后,有Y k =S k +N k ,由此可得:

(5-3)

由于s(n)和d(n)相互独立,所以S k 和N k 独立,而N k 为零均值的高斯分布,所以有

(5-4)

对于一个分析帧内的短时平稳过程,有

(5-5)

)(k n λ为无语音时|N k |2

的统计平均值,由此可得原始语音的估计值

(5-6) 这里是增强后的语音信号的幅度。

定义?||/||k k k G S Y =,及后验信噪比2||/()k k n Y k γλ=,式(5-6)可改写为

?||||k k k

S G Y = (5-7) 1/2(11/)k k G γ=- (5-8) FFT IFFT 相位恢复()()()

y i s i n i =+k

Y ||k Y ()

s i ()

n k λ-()k θ2||k Y 21/2?(||)k S 2

||k S 图5-2 谱减法原理图

式(5-8)中当k γ小于1时,将失去意义。因此,将式(5-8)改写为

1/2m ax(,(11/))k k G εγ=- (5-9)

其中,ε是个大于零的常数。

从式(5-7)中可以清楚地看出谱减法的物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数G k 。信噪比高时,含有语音的可能性大,衰减系数小。反之,则认为含有语音的可能性小,衰减系数大。

谱减法在频域将带噪语音的功率谱减去噪声的功率谱得到纯净语音功率谱估计,开方后就得到语音幅度谱估计,用带噪语音的相位来近似纯净语音的相位,再采用反傅里叶变换恢复时域信号。它的优点是比较简单,只需要进行正反傅里叶变换,而且实时实现较容易。但谱减法使用的信噪比范围较窄,在信噪比较低时对语音的可懂度损伤较大,这是因为信噪比主要代表了由浊音决定的大信号能量,而语音可懂度主要取决于元音和相对较小的代表辅音的信号。所以实际应用时除了要降低噪声外,还要兼顾语音的可懂度和自然度。另外,由于频谱直接相减会使增强后的语音产生“音乐噪声”,它具有一定节奏性,听上去类似音乐声,由此得名。

5.3 谱减法语音增强的仿真实现

谱减法流程图如图所示: 读入语音文件产生随机白噪声

带噪语音

加汉明窗,帧间重叠50%

短时FFT 短时相位谱

短时幅度谱频域中合成语音

短时IFFT 并各帧重叠相加去除汉明窗引起的增益

增强后的语音

将差值置为零短时噪声幅度谱估计

差值>0?

Y

N

-+

图5-3 谱减法流程图

基于dsp的语音信号采集与回放系统的设计--开题报告

HEFEI UNIVERSITY 课程设计开题报告 题目:《基于DSP系统的语音采集与回放系统》 专业:11 级电子信息工程 姓名:章健吴广岭何志刚 学号:1105011029 1105011030 1105011044 指导老师:汪济洲老师 完成时间:2014年12月1日

一、开题报告题目 基于DSP系统的语音采集与回放系统。 二、研究背景与意义 语音处理是数字信号处理最活跃的研究方向之一,它是信息高速公路、多媒体技术、办公自动化、现代通信及职能系统等新兴领域应用的核心技术之一。用数字化的方法进行语音的传送、存储、分析、识别、合成、增强等是整个数字化通信网中的最重要、最基本的组成部分之一。一个完备的语音信号处理系统不但要具有语音信号的采集和回放功能, 还要能够进行复杂的语音信号分析和处理。通常这些信号处理算法的运算量很大, 而且又要满足实时的快速高效处理要求, 随着DSP 技术的发展, 以DSP 为内核的 设备越来越多。为语音信号的处理提供了优质可靠的平台. 软件编程的灵活性给很多设备增加不同的功能提供了方便, 利用软件在已有的硬件平台上实现不同的功能已成为 一种趋势。近年来,随着DSP的功能日益增强,性能价格比不断上升,开发手段不断改进,DSP在数据采集系统的应用也在不断完善。 三、主要内容与目标 随着计算机多媒体技术,网络通信技术和DSP(Digital Signal Processor)技术的飞速发展,语音的数字通信得到越来越多的应用,语音信号的数字化一直是通信发展的主要方向之一,语音的数字通信和模拟通信相比,无疑有着更大的优越性,这主要体现在以下几个方面:数字语音比模拟语音具有更好的话音质量;具有更强的干扰性,并易于加密;可节省带宽,能更有效的利用网络资源;更加易于存储和处理。最简单的数字化就是直接对原始语音信号进行A/D 转换,但这样得到的语音的数据量非常大。为了减少语音信号所占用的带宽或存储空间,就必须对数字语音信号进行压缩编码。语音编码的目的就在于在保证语音音质和可懂度的条件下,采用尽可能少的比特数来表示语音,即尽可能的降低编码比特率,以便在有限的传输带宽内让出更多的信道来传输图像和其他数据流,从而达到传输资源的有效利用和网络容量的提高。在通信越来越发达的当今世界,尤其最近几十年,语音压缩编码技术在移动通信、IP 电话通信、保密通信、卫星通信以及语音存储等很多方面得到了广泛的应用。 语音信号处理在手持设备、移动设备和无线个人设备中的应用正在不断增加。今天的个人手持设备语音大多时候仅仅局限于语音拨号,但是已经出现了适用于更广泛开发语音识别和文本到语音应用的技术。语音功能为用户提供自然的输入和输出方式,它比其他形式的I/O更安全,尤其是当用户在开车期间。在大多数应用中,语音都是键盘和显示器的理想补充。其他潜在的语音应用包括如下几个方面。 (1)语音电子邮件。包括浏览邮箱、利用语音输入写电子邮件以及收听电子邮件的读出。 (2)信息检索。股票价格、标题新闻、航班信息、天气预报等都可以通过语音从互联网收听。例如,用户不用先进入某个网址并输入股票名字或者浏览预定义列表,可以通过语音命令实现。 (3)个人信息管理。允许用户通过语音指定预约、查看日历、添加联络信息等等。 (4)语音浏览。利用语音程序菜单,用户可以在网上冲浪、添加语音收藏夹并收听网页内容的读出。 (5)语音导航。在自动和人眼不够用的条件下获取导航的完全语音输入/输出驾驶

语音信号处理与及其MATLAB实现分析

目录 摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要 数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。 数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。 数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器(DSP)和专用集成电路(ASIC)等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。 数字信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT),FFT的出现大大减少了DFT的运算量,使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多,并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++ ,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。

基于matlab的语音信号的采集与处理

文档从互联网中收集,已重新修正排版,word格式支持编辑,如有帮助欢迎下载支持。 目录 第1章前言 ................................................................................................... 错误!未定义书签。第2章语音信号分析处理的目的和要求 ................................................... 错误!未定义书签。 2.1MATLAB软件功能简介................................................................. 错误!未定义书签。 2.2课程设计意义 .................................................................................. 错误!未定义书签。第3章语音信号的仿真原理..................................................................... 错误!未定义书签。第4章语音信号的具体实现..................................................................... 错误!未定义书签。 4.1语音信号的采集................................................................................ 错误!未定义书签。 4.2语音信号加噪与频谱分析................................................................ 错误!未定义书签。 4.3设计巴特沃斯低通滤波器................................................................ 错误!未定义书签。 4.4用滤波器对加噪语音滤波................................................................ 错误!未定义书签。 4.5比较滤波前后语音信号波形及频谱................................................ 错误!未定义书签。第5章总结................................................................................................... 错误!未定义书签。参考文献......................................................................................................... 错误!未定义书签。附录................................................................................................................. 错误!未定义书签。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

基于MATLAB的语音信号采集与处理

工程设计论文 题目:基于MATLAB的语音信号采集与处理 姓名: 班级: 学号: 指导老师:

一.选题背景 1、实践意义: 语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在于方便有效地提取并表示语音信号所携带的信息。所以理解并掌握语音信号的时域和频域特性是非常重要的。 通过语音相互传递信息是人类最重要的基本功能之一.语言是人类特有的功能.声音是人类常用工具,是相互传递信息的最重要的手段.虽然,人可以通过多种手段获得外界信息,但最重要,最精细的信息源只有语言,图像和文字三种.与用声音传递信息相比,显然用视觉和文字相互传递信息,其效果要差得多.这是因为语音中除包含实际发音容的话言信息外,还包括发音者是谁及喜怒哀乐等各种信息.所以,语音是人类最重要,最有效,最常用和最方便的交换信息的形式.另一方面,语言和语音与人的智力活动密切相关,与文化和社会的进步紧密相连,它具有最大的信息容量和最高的智能水平。 语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,处理的目的是用于得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音,辨识出讲话者,识别出讲话容,进行语音增强等. 语音信号处理是一门新兴的学科,同时又是综合性的多学科领域,

是一门涉及面很广的交叉学科.虽然从事达一领域研究的人员主要来自信息处理及计算机等学科.但是它与语音学,语言学,声学,认知科学,生理学,心理学及数理统计等许多学科也有非常密切的联系. 语音信号处理是许多信息领域应用的核心技术之一,是目前发展最为迅速的信息科学研究领域中的一个.语音处理是目前极为活跃和热门的研究领域,其研究涉及一系列前沿科研课题,巳处于迅速发展之中;其研究成果具有重要的学术及应用价值. 数字信号处理是利用计算机或专用处理设备,以数值计算的方法对信号进行采集、抽样、变换、综合、估值与识别等加工处理,借以达到提取信息和便于应用的目的。它在语音、雷达、图像、系统控制、通信、航空航天、生物医学等众多领域都获得了极其广泛的应用。具有灵活、精确、抗干扰强、度快等优点。 数字滤波器, 是数字信号处理中及其重要的一部分。随着信息时代和数字技术的发展,受到人们越来越多的重视。数字滤波器可以通过数值运算实现滤波,所以数字滤波器处理精度高、稳定、体积小、重量轻、灵活不存在阻抗匹配问题,可以实现模拟滤波器无法实现的特殊功能。数字滤波器种类很多,根据其实现的网络结构或者其冲激响应函数的时域特性,可分为两种,即有限冲激响应( FIR,Finite Impulse Response)滤波器和无限冲激响应( IIR,Infinite Impulse Response)滤波器。 FIR滤波器结构上主要是非递归结构,没有输出到输入的反馈,系统函数H (z)在处收敛,极点全部在z = 0处(因果系统),因而只能

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论.............................................................................................................. 错误!未定义书签。 1.1课题背景及意义................................................................................. 错误!未定义书签。 1.2国内外研究现状................................................................................. 错误!未定义书签。 1.3本课题的研究内容和方法................................................................. 错误!未定义书签。 1.3.1 研究内容................................................................................ 错误!未定义书签。 1.3.2 开发环境................................................................................ 错误!未定义书签。 2 语音信号处理的总体方案............................................................................ 错误!未定义书签。 2.1 系统基本概述.................................................................................... 错误!未定义书签。 2.2 系统基本要求与目的........................................................................ 错误!未定义书签。 2.3 系统框架及实现................................................................................ 错误!未定义书签。 2.3.1 语音信号的采样.................................................................... 错误!未定义书签。 2.3.2 语音信号的频谱分析............................................................ 错误!未定义书签。 2.3.3 音乐信号的抽取.................................................................... 错误!未定义书签。 2.3.4 音乐信号的AM调制.............................................................. 错误!未定义书签。 2.3.5 AM调制音乐信号的同步解调............................................... 错误!未定义书签。 2.4系统设计流程图................................................................................. 错误!未定义书签。 3 语音信号处理基本知识................................................................................ 错误!未定义书签。 3.1语音的录入与打开............................................................................. 错误!未定义书签。 3.2采样位数和采样频率......................................................................... 错误!未定义书签。 3.3时域信号的FFT分析......................................................................... 错误!未定义书签。 3.4切比雪夫滤波器................................................................................. 错误!未定义书签。 3.5数字滤波器设计原理......................................................................... 错误!未定义书签。 4 语音信号实例处理设计................................................................................ 错误!未定义书签。 4.1语音信号的采集................................................................................. 错误!未定义书签。

语音信号采集与回放系统设计

语音采集与回放系统设计
l 竞赛真题 l 总体方案选择 l 具体方案设计 l 设计阶段划分
一、竞赛真题
1999 年第四届 E 题 数字化语音存储与回放系统 一、题目:数字化语音存储与回放系统 二、任务 设计并制作一个数字化语音存储与回放系统,其示意图如下:
三、要求 1.基本要求 (1)放大器 1 的增益为 46dB,放大器 2 的增益为 40dB,增益均可调; (2)带通滤波器:通带为 300Hz~3.4kHz ; (3)ADC:采样频率 fs= 8kHz,字长= 8 位; (4)语音存储时间≥10 秒; (5)DAC:变换频率 fc= 8kHz,字长= 8 位; (6)回放语音质量良好。 2.发挥部分 在保证语音质量的前提下: (1)减少系统噪声电平,增加自动音量控制功能; (2)语音存储时间增加至 20 秒以上; (3)提高存储器的利用率(在原有存储容量不变的前提下,提高语音存储时间) ;

(4)其它(例如: 四、评分意见
校正等) 。


满 分 50 50 15 5 15 15
基 设计与总结报告: 方案设计与论证, 理论分析与计算, 电路图, 本 测试方法与数据,对测试结果的分析 要 实际制作完成情况 求 完成第一项 发 挥 完成第二项 部 完成第三项 分 完成第四项 五、说明 不能使用单片语音专用芯片实现本系统。
训练侧重点 l 题目中给出一些提示性设计参数,设计中应予以重点理解
1. 放大器 1 的增益,放大器 1 的增益为 46dB 2. 带通滤波器的频率范围通带为 300Hz~3.4kHz(方便测试) 3. AD 采样的字长和采样频率(保证公平竞争)
l
题目中部分非技术性指标在培训中可以适当简化
1. 语音存储与回放时间≥10 秒 2. 语音存储时间增加至 20 秒以上;
二、总体方案选择
1. 控制平台选择 2. 前级放大模块 3. 带通滤波器 4. 模数、数模转换部分 5. 存储器 6. 编码方案
1. 控制平台选择
供选平台: A. B. 单片机平台 FPGA 开发平台

基于Matlab语音信号的采集与分析

基于MATLAB 的语音信号分析和处理 【摘要】: 本文通过用三星手机系统自带录音机采集了一段语音,wav格式转换后再Matlab平台上对其进行了时域分析,频谱分析,分析语音信号的特性。利用函数对采样频率进行控制,比较其波形。通过对两段铃声(分别为男声、女声)进行分析初步找出男声女声的特点和区别。应用Matlab平台对录制的语音信号加入噪声,对比加噪前后的语音信号的时域和频域特性,回放加噪语音信号。 【关键词】: 语音信号;频域特性; 时域特性; 滤波器

目录 一、背景介绍 1.1 语音信号的概述 1.2 语音信号处理工具的选择 二、语音信号的录制采集和分析 2.1 语音信号的采集 2.2 语音信号的读入与打开 2.3 取不同采样频率得出的波形比较 三、对男声、女声语音信号特点的分析 3.1女声(vfemale.wav)男声(vmale.wav)的时域分析

3.2女声(vfemale.wav)男声(vmale.wav)的频域分析 四、加噪声与滤波处理分析 4.1 高斯白噪声(SNR=30) 4.2 单频正弦噪声 五、心得与体会 一、背景介绍 1.1语音信号的概述 语言是人类创造的,是人类区别于其他地球生命的本质特征之一。人类用语言交流的过程可以看成是一个复杂的通信过程,为了获取便于分析和处理的语音信源,必须将在空气中传播的声波转变为包含语音信息并且记载着声波物理性质的模拟(或数字)电信号,即语音信号,因此语音信号就成为语音的表现形式或载体。 1.2语音信号处理工具的选择 语音信号的进一步处理分析工作选用了Matlab平台。Matlab是一种科学计算软件,专门以矩阵的形式处理数据。Matlab将高性能的数值计算和可视化集成在一起,并提供了大量的内置函数,不断完善Matlab产品以提高产品自身的竞争能力Matlab的数据分析和处理功能十分强大,运用它来

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名: 实验一基于MATLAB的语音信号时域特征分析(2学时)

1)短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) ,legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128'); elseif(i==5) ,legend('N=256'); elseif(i==6) ,legend('N=512'); end end

00.51 1.52 2.5 3 x 10 4 -1 1 x 10 4 024 x 10 4 05 x 10 4 0510 x 10 4 01020 x 10 4 02040 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2), legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128');

语音信号处理实验报告实验一

通信工程学院12级1班罗恒2012101032 实验一语音信号的低通滤波和短时分析综合实验 一、实验要求 1、根据已有语音信号,设计一个低通滤波器,带宽为采样频率的四分之一,求输出信号; 2、辨别原始语音信号与滤波器输出信号有何区别,说明原因; 3、改变滤波器带宽,重复滤波实验,辨别语音信号的变化,说明原因; 4、利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期,分析两种窗函数对基音估计的影响; 5、改变窗口长度,重复上一步,说明窗口长度对基音估计的影响。 二、实验目的 1.在理论学习的基础上,进一步地理解和掌握语音信号低通滤波的意义,低通滤波分析的基本方法。 2.进一步理解和掌握语音信号不同的窗函数傅里叶变化对基音估计的影响。 三、实验设备 1.PC机; 2.MATLAB软件环境; 四、实验内容 1.上机前用Matlab语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5. 改变滤波带宽,辨别与原始信号的区别。 6.依据曲线对该语音段进行所需要的分析,并且作出结论。 7.改变窗的宽度(帧长),重复上面的分析内容。 五、实验原理及方法 利用双线性变换设计IIR滤波器(巴特沃斯数字低通滤波器的设计),首先要设计出满足指标要求的模拟滤波器的传递函数Ha(s),然后由Ha(s)通过双线性变换可得所要设计的IIR滤波器的系统函数H(z)。如果给定的指标为数字滤波器的指标,则首先要转换成模拟滤波器的技术指标,这里主要是边界频率Wp和Ws 的转换,对ap和as指标不作变化。边界频率的转换关系为∩=2/T tan(w/2)。接着,按照模拟低通滤波器的技术指标根据相应设计公式求出滤波器的阶数N和3dB截止频率∩c ;根据阶数N查巴特沃斯归一化低通滤波器参数表,得到归一化传输函数Ha(p);最后,将p=s/ ∩c 代入Ha(p)去归一,得到实际的模拟滤波器传输函数Ha(s)。之后,通过双线性变换法转换公式s=2/T((1-1/z)/(1+1/z))得到所要设计的IIR滤波器的系统函数H(z)。

语音信号采集与回放系统

电子与信息工程学院 综合实验课程报告 课题名称 语音采集及回放系统设计 专 业 电子信息工程 班 级 07电子2班 学生姓名 Y Y Y 学 号 07002 指导教师 X X X 2010年 7月 5日

1 总体设计方案介绍: 1.1语音编码方案: 人耳能听到的声音是一种频率范围为20 Hz~20000 Hz ,而一般语音频率最高为3400 Hz。语音的采集是指语音声波信号经麦克风和高频放大器转换成有一定幅度的模拟量电信号,然后再转换成数字量的全过程。根据“奈奎斯特采样定理”, 采样频率必须大于模拟信号最高频率的两倍,由于语音信号频率为300~3 400 Hz ,所以把语音采集的采样频率定为8 kHz。从语音的存储与压缩率来考虑,模型参数表示法明显优于信号波形表示法[4]。但要将之运用于单片机,显然信号波形表示法相对简单易实现。基于这种思路的算法,除了传统的一些脉冲编码调制外,目前已使用的有VQ技术及一些变换编码和神经网络技术,但是算法复杂,目前的单片机速度底,难以实现。结合实际情况,提出以下几种可实现的方案。 (1)短时平均跨零记数法该方案通过确定信号跨零数,将语音信号编码为数字信号,常用于语音识别中。但对于单片机,由于处理数据能力底,该方法不易实现。 (2)实时副值采样法采样过程如图2.1所示。 图2.1 采样过程 具体实现包括直存取法、欠抽样采样法、自相似增量调制法等三种基本方法。其中第三种实现方法最具特色,该方法可使数据压1:4.5,既有M ?调制的优点,又同时兼有PCM编码误差较小的优点,编码误差不向后扩散。 1.2 A/D、D/A及存储芯片的选择 单片机语音生成过程,可以看成是语音采集过程的逆过程,但又不是原封不动地恢复原来的语音,而是对原来语音的可控制、可重组的实时恢复。在放音时,只要依原先的采样直经D/ A 接口处理,便可使原音重现。 (1)A/D转换芯片的选择根据题目要求采样频率f s=8K H Z,字长=8位, 可选择转换时间不超过125s的八位A/D转换芯片。目前常用的A/D转换实现的

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

对语音信号进行分析及处理资料

一、设计目的 1.进一步巩固数字信号处理的基本概念、理论、分析方法和实现方法;使自身对信号的采集、处理、传输、显示和存储等有一个系统的掌握和理解; 2.增强应用Matlab语言编写数字信号处理的应用程序及分析、解决实际问题的能力; 3.培养自我学习的能力和对相关课程的兴趣; 二、设计过程 1、语音信号的采集 采样频率,也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。 采样位数可以理解为声卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实 采样定理又称奈奎斯特定理,在进行模拟/数字信号的转换过程中,当采样频率fs不小于信号中最高频率fm的2倍时,采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的5~10倍。 利用Windows下的录音机,录制了一段发出的声音,内容是“数字信号”,时间在3 s内。接着在D盘保存为WAV格式,然后在Matlab软件平台下.利用函数wavread对语音信号进行采样,并记录下了采样频率和采样点数,在这里我们还通过函数sound引入听到采样后自己所录的一段声音。 [x1,fs,bits]=wavread('E:\数字信号.wav'); %读取语音信号的数据,赋给变量x1,返回频率fs 44100Hz,比特率为16 。 2 、语音信号的频谱分析 (1)首先画出语音信号的时域波形; 程序段: x=x1(60001:1:120000); %截取原始信号60000个采样点

plot(x) %做截取原始信号的时域图形 title('原始语音采样后时域信号'); xlabel('时间轴 n'); ylabel('幅值 A'); (2)然后用函数fft 对语音号进行快速傅里叶变换,得到信号的频谱特性; y1=fft(x,6000); %对信号做N=6000点FFT 变换 figure(2) subplot(2,1,1),plot(k,abs(y1)); title('|X(k)|'); ylabel('幅度谱'); subplot(2,1,2),plot(k,angle(y1)); title('arg|X(k)|'); ylabel('相位谱'); (3)产生高斯白噪声,并且对噪声进行一定的衰减,然后把噪声加到信号中,再次对信号进行频谱特性分析,从而加深对频谱特性的理解; d=randn(1,60000); %产生高斯白噪声 d=d/100; %对噪声进行衰减 x2=x+d; %加入高斯白噪声 3、设计数字滤波器 (1)IIR 低通滤波器性能指标通带截止频Hz f c 1000=,阻带截止频率 Hz f st 1200=,通带最大衰减dB 11=δ,阻带最小衰减dB 1002=δ。 (2)FIR 低通滤波器性能指标通带截止频率Hz f c 1000=,阻带截止频率 Hz f st 1200=, 通带衰减1δ≤1dB ,阻带衰减 2δ≥ 100dB 。 (3)IIR 高通滤波器的设计指标,Hz f z 1000=,Hz f p 2000=,阻带最小衰减dB A s 30=,通带最大衰减dB A P 1=。 (4)(4)FIR 高通滤波器的设计指标,Hz f z 1000=,Hz f p 2000=,阻带最小衰减dB A s 50=,通带最大衰减dB A P 1=。 (5)用自己设计的各滤波器分别对采集的信号进行滤波,在Matlab 中,FIR 滤波器利用函数fftfilt 对信号进行滤波,IIR 滤波器利用函数filter 对信号进行滤波。比较滤波前后语音信号的波形及频谱,在一个窗口同时画出滤波前后

语音信号处理实验一采集和预处理

实验一语音信号的采集及预处理 一、实验目的 在理论学习的基础上,进一步地理解和掌握语音信号预处理及短时加窗的意义及基于matlab的实现方法。 二、实验原理 1.语音信号的录音、读入、放音等:练习matlab中几个音频处理函数,利用函数wavread 对语音信号进行采样,记住采样频率和采样点数,给出以下语音的波形图(2.wav)。利用wavplay或soundview放音。也可以利用wavrecord自己录制一段语音,并进行以上操作(需要话筒)。 2.语音信号的分帧:对语音信号进行分帧,可以利用voicebox工具箱中的函数enframe。 voicebox工具箱是基于GNU协议的自由软件,其中包含了很多语音信号相关的函数。3.语音信号的加窗:本步要求利用window函数设计窗口长度为256(N=256)的矩形窗(rectwin)、汉明窗(hamming)及汉宁窗(hann)),利用wvtool函数观察其时域波形图及频谱特性,比较得出结论。观察整个信号加矩形窗及汉明窗后的波形,利用subplot与reshape函数将分帧后波形、加矩形窗波形及加汉明窗波形画在一张图上比较。取出其中一帧,利用subplot与reshape函数将一帧语音的波形、加矩形窗波形及加汉明窗波形画在一张图上比较将得出结论。 4.预加重:即语音信号通过一个一阶高通滤波器1 9375 1- -z。 .0 三、实验步骤、实验程序、图形及结论 1.语音信号的录音、读入、放音等 程序: [x,fs,nbit]=wavread('D:\2.wav'); %fs=10000,nbit=16 y=soundview('D:\2.wav') 2.语音信号的分帧 程序: [x,fs,nbit]=wavread('D:\2.wav'); len=256; inc=128; y=enframe(x,len,inc); figure; subplot(2,1,1),plot(x) subplot(2,1,2),plot(y)

数字信号处理在语音信号分析中的应用

《数字信号处理》 课程设计报告 数字信号处理在语音信号分析中的应用 专业班级: 姓名: 学号:

目录 摘要 (3) 1、绪论 (3) 2、课程设计的具体容 (4) 2.1.1、读取语音信号的任务 (4) 2.1.2、任务分析和解决方案 (5) 2.1.4、运行结果和相应的分析 (5) 2.2、IIR滤波器设计和滤波处理 (6) 2.2.1、设计任务 (6) 2.2.2、任务分析和解决方案 (7) 2.2.3、编程得到的MATLAB代码 (7) 2.2.4、运行结果和相应的分析 (7) 2.3、FIR滤波器设计和滤波处理 (9) 2.3.1、设计任务 (9) 2.3.2、任务分析和解决方案 (9) 2.3.3、编程得到的MATLAB代码 (9) 2.3.4、运行结果和相应的分析 (11) 3、总结 (13) 4、存在的不足及建议 (13) 5、参考文献 (13)

数字信号处理设计任务书 摘要 语音信号滤波处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前 发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。本设计通过录制一段语音,对其进行了时域分析,频谱分析,分析语音信号的特性。并应用matlab平台对语音信号进行加噪然后再除去噪声,进一步设计两种种滤波器即高通滤波器、带通滤波器,基于这两种滤波器设计原理,对含加噪的语音信号进行滤波处理。最后对比滤波前后的语音信号的时域和频域特性,回放含噪语音信号和去噪语音信号。论文从理论和实践上比较了不同数字滤波器的滤波效果。 1.绪论 通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。 随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科鼓应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理.工业生产部门的语声控制,、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。数字滤波器是数字信号处理的基础,用来对信号

相关主题
文本预览
相关文档 最新文档