当前位置：文档之家› 数字语音处理作业

数字语音处理作业

姓名：郑咪班级：电子21002 学号:1014781053 课题一:数字语音信号的Matlab仿真实验

一、语音信号分析与处理

语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。

Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件，它可以将声音文件变换为离散的数据文件，然后利用其强大的矩阵运算能力处理数据，如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等，它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数，利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化，使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。

本文主要介绍的是的语音信号的简单处理。本文针对以上问题，运用数字信号学基本原理实现语音信号的处理，在matlab7.0环境下综合运用信号提取，幅频变换以及傅里叶变换、滤波等技术来进行语音信

二、语音信号处理的总体方案

2.1 系统实现

1）语音信号的采集

2）使用电脑的声卡设备采集一段语音信号，并将其保存在电脑中。

3）语音信号的处理

Ⅰ.语音信号的时域分析

提取：通过图形用户界面上的菜单功能按键采集电脑设备上的一段音频信号，完成音频信号的频率，幅度等信息的提取，并得到该语音信号的波形图。

Ⅱ.语音信号的频域分析

变换：在用户图形界面下对采集的语音信号进行Fourier等变换，并画出变换前后的频谱图和变换后的倒谱图。

三、语音信号处理实例分析

3.1 语音信号的提取

在Matlab中使用Wavread函数，可得出信号的采样频率为22500，并且声音是单声道的。利用Sound函数可以清晰的听到“主人，信息收到了”的语音。采集数据并画

出波形图。

其中声音的采样频率Fs=22050Hz，y为采样数据，NBITS表示量化阶数。

部分程序如下：

fn=input(' Enter WAV filename:','s'); %获取一个*.wav的文件[x,fs,nb]=wavread(fn);

ms2=floor(fs*0.002);

ms10=floor(fs*0.01);

ms20=floor(fs*0.02);

ms30=floor(fs*0.03);????

t=(0:length(x)-1)/fs; %计算样本时刻

subplot(2,1,1); %确定显示位置

plot(t,x); %画波形图

legend('Waveform');

xlabel( 'Time(s)');

ylabel('Amplitude');

运行后弹出语音信号处理系统的操作界面如图1：

图1 语音信号处理系统的操作界面

然后点击File菜单中的子菜单Input，回到Matlab软件的输入界面如图2：

图2 输入界面

输入要处理的语音信号的名称，便可得到语音语音的波形图如图3：

图3 语音语音的波形图

如图中提取的语音的波形图所示，整段音频数据中得声音高低起伏与录入的声音信号基本一致，并且可以观察到其中包含部分高频噪声。

3．1数字语音信号的采集举例

[y,fs,bits]=wavread();

fs = 22050 %采样频率

bits =16 %采样点数

图3-1数字语音信号的采集

3.1．2数字语音信号的频谱分析

实验程序：

[x1,Fs,bits]=wavread('C:\WINNT\Media\ding.wav');

%sound(y,Fs,bits);

figure(1);

plot(x1); %做原始语音信号的时域图形

title('原始语音信号');

xlabel('时间n');ylabel('音量n');

figure(2);

y1=fft(x1);%做length(x1)点的FFT

y1=fftshift(y1);%平移，是频率中心为0

derta_Fs = Fs/length(x1);%设置频谱的间隔，分辨率

plot([-Fs/2:derta_Fs: Fs/2-derta_Fs],abs(y1));%画出原始语音信号的频谱图

title('原始语音信号的频谱');grid on;

图3-2原始语音信号

图3-3原始语音信号的频谱

3.2 语音信号的频率调整

在设计中，可以将语音信号的采样频率提高或降低，来实现语音信号的调整，得到理想的语音信号。例如将采样频率提高一倍，即可得到语音信号频率为原频率2倍新的语音信号。运行Process→Adjust→Frequency，得到如图4的信号波形图，并试听调整后的效果。

图4频率调整后波形图

与原语音信号相比，经过调整后的信号周期变为原来的1/2，此时的语速明显变快，即实现了信号的2倍频功能

3.3语音信号的振幅调整

在设计中，可以将语音信号的幅度进行提高或降低操作，来实现语音信号的调整，得到声音音量大小不同的语音信号，例如将原语音信号的幅度提高一倍，得到如下图5的信号波形图，可以通过GUI操作界面的输出功能试听调整后的效果。

图5 幅度调整后波形图

此时听到的调整后声音声调变高，但不是很明显，可以将幅度的变化值设置的比较大，那样的话就可以得到效果相当明显的语音信号了。

3.4 语音信号的傅里叶变换

倒谱分析是指信号短时振幅谱的对数进行傅里叶反变换。它具有可近似地分离并提取出频谱包络信息和细微结构信息的特点。

对语音信号进行频谱分析，在Matlab中可以利用函数fft对信号行快速傅里叶变换，得到信号的频谱图，并进行倒谱分析，得到倒谱图。

傅里叶变换的部分程序如下：

x=y(44101:55050,1); %提取原语音信号的一部分

t=(0:length(x)-1)/fs; %计算样本时刻

subplot(3,1,1); %确定显示位置

plot(t,x); %画波形图

legend('波形图');

xlabel( 'Time(s)');

ylabel('Amplitude');

Y=fft(x,hamming(length(x))); %做加窗傅里叶变换

fm=5000*length(Y)/fs; %限定频率范围

f=(0:fm)*fs/length(Y); %确定频率刻度

subplot(3,1,2);

plot(f,20*log10(abs(Y(1:length(f)))+eps));

legend('频谱图'); %画频谱图

ylabel('幅度(db)');

xlabel('频率(Hz)');

c=fft(log(abs(x)+eps)); %倒频谱计算

ms1=fs/1000;

ms20=fs/50

q=(ms1:ms20)/fs; %确定倒频刻度

subplot(3,1,3);

plot(q,abs(c(ms1:ms20))); %画倒谱图

legend('倒谱图');

xlabel('倒频（s）');

ylabel('倒频谱幅度（Hz）');

运行Process Transform，对语音信号的一部分进行傅里叶变换，并进行倒谱分析，得到如图6

图6 声音样本波形图、频谱图和倒谱图

从上面的倒谱图可以看出．当读“主人，信息收到了”时，所对应的频率大概在200Hz左右。这与人的语音信号频率集中在200 Hz到4.5 kHz之间是相一致的。而在未发声的时间段内，相对的小高频部分(200500Hz)应该属于背景噪声。

3.5 语音信号的滤波

从图7中发现，语音信号中包含背景噪声，这些噪声的频率一般较高。所以可以利用MATLAB软件中的滤波器进行滤波处理，得到较为理想的语音信号。

3.6 语音信号的低通滤波

系统中设计了一个截止频率为200Hz切比雪夫—I型低通滤波器，它的幅频特性如下图7：

图7 低通滤波器的幅频特性

低通滤波器性能指标： wp=0．075pi，ws =0．125pi，Rp=0．25；As =50dB；

经过低通滤波器处理后，比较处理前后的波形图的变化，如下图8：

图8 低通滤波后波形和频谱的变化

低通滤波后，声音稍微有些发闷、低沉，原因是高频分量被低通滤波器衰减。但是很接近原来的声音。

五、总结

在这次课题中我不但对数字语音信号处理和Matlab这两门课有了更深的了解而且锻炼了自己的动手和自学能力，本文对语音信号处理系统的设计作了详细的介绍，采用一系列图像分析和处理技术，实现了语音信号的基本处理的功能，经过测试运行，本设计圆满的完成了对语音信号的读取与打开；较好的完成了对语音信号的频谱分析，通过fft变换，得出了语音信号的频谱图；在滤波这一块，课题主要是从数字滤波器入手来设计滤波器，基本实现了滤波，完成了各种滤波器的滤波效果比较，与课题的要求十分相符。

课题二：数字语音处理电路原理分析

一．数字语音信号处理介绍

通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能．声音是人类常用的工具，是相互传递信息的最主要的手段。因此，语音信号是人们构成思想疏通和感情交流的最主要的途径。并且，由于语言和语音与人的智力活动密切相关，与社会文化和进步紧密相连，所以它具有最大的信息容量和最高的智能水平。现在，人类已开始进入了信息化时代，用现代手段研究语音信号，使人们能更加有效地产生、传输、存储、获取和应用语音信息，这对于促进社会的发展具有十分重要的意义。

语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时，语言也是人与机器之间进行通信的重要工具，它是一种理想的人机通信方式，因而可为信息处理系统建立良好的人机交互环境，进一步推动计算机和其他智能机器的应用，提高社会的信息化程度。

二．数字语音信号处理理论基础

语音信号处理是一门新兴的学科，同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科，但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。

1、语音信号处理的目的：

得到某些语音特征参数以便高效地传输或存储；通过某种处理运算以达到某种用途的要求。

2、语音信息的交换大致上可以分为三大类：

（1）人与人之间的语言通信：包括语音压缩与编码、语音增强等。

（2）第一类人机语言通信问题：语音合成机器讲话、人听话的研究。

（3）第二类人机语言通信问题：语音识别和理解；语音识别和理解：人讲话、机器听话的情况。

3、语音信号处理的发展分为语音合成、语音编码、语音识别

三、数字语音处理的电路结构分析

1、语音信号处理过程的总体结构

信息加工和处理的一般流程如图1.1所示

图1.1 信号处理和加工的一般示意图

2、语音处理过程的结构框图

图1.2 语音处理过程的结构框图

3、整体设计思路

Matlab 语言是一种数据分析和处理功能十分强大的计算机应用软件 ,它可以将声音文件变换为离散的数据文件 , 然后利用其强大的矩阵运算能力处理数据 ,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等 , 信号处理是Matlab 重要应用的领域之一。本设计是用 Matlab对含噪的的语音信号同时在时域和频域进行滤波处理和分析。整个设计思路的设计原理示意图如图所示：

图3-1语音信号处理的工作流

图3-2语音信号的滤波示意图

4、语音信号的数字化

用可编程逻辑器件来设计数字语青电路，前提是先要把语音信号数字化，也就是语音的A/D变换。通常还要对A/D变换后的语音数据进行编码。PCM(脉冲编码调制)技术是一种本的语音数字化编解码技术，在语音通信中得到广泛的应用。我国采用的是A

律PCM码，即对A/D变换后的语音信号按照“A律”进行对数式压缩处理，使得8位的PCM码相当于压缩前的13位之线性码，符合G.711标准。还有一种提“μ律”的PCM码，方法略异，主要通行干北美等地。

PCM编码的特点是，对语音信号按8kHz的速率取样，每次取样得到8bit数据，1 路语音占用64kbit/s的带宽。PCM码的最高位是符号位，其余7位表示语·音振幅绝对值的：大小。为了避免在无语音时出现一长串的“0”。使数据通信难以同步，还要对偶数位进行“反转”处放，如把“00000000”的偶数位取反成为“01010101”来表示实际语音的零振幅，又如用“10101010”和“00101010”分别表示实际语音的正向和负向最大振幅。

（1）PCM编解码器件和信号时序

有很多专用集成电路能够完成PCM编解码，美国国家半导体公司的TP3094就是其中一种。TP3094是4路双向PCM编解码芯片，芯片内部的电原理见下图

PCM 取样时钟的频率是2048kHz。由于1路语音占用64k带宽，因此1个PCM

的基本信道能够容纳32路语音，称为1“帧”。这32路语音分时复用传输电路，每路数

据每次占用的时间称为 1 个“时隙”。容易算出，时隙的宽度是1÷32÷8000≈3.9 ( μ s)。

有了各自的时隙，32路信号就可以在 1 条信号线上互不影响地分时传输了。

(2) 用P扣设计数字语音电路

用PLD芯片和PCM编解码芯片设计的数字语音电路见下图。

来自电话送受话器(即电话手柄，用来试验通话)插座JO—J3的4路双向语音连

接到TP3094做编解码处理。TP3094的VXIO-VXI3是各路模拟语音输入踹，连接到电

话送话器，电阻R1-R8用来调节各路语音的输人增益。TP3094的VROO-VRO3是各路

模拟语音输出端，连接到电话受话器。

5、整体实现过程

采样器的作用是把连续信号变为脉冲或数字序列。图中示出了一个连续信号f(t)经采样器采样后变为离散信号的过程

图3-3连续信号f(t)经采样器采样后变为离散信号

图中f(t)为被采样的连续信号，S（t）为周期性窄脉冲信号，f s(t)为采样后的离散信号，它用下式来表征：fs(t)=f(t)s(t)

采样信号的频率特性为：

如果｜F*(jω)｜中各个波形不重复搭接，相互间有一定的距离(频率)即若

即采样定理可叙述如下：如果采样周期满足下列条件，即：

式中ωm ax为连续信号f(t)的最高次谐波的角频率。则采样信号f*(t)

就可以无失真地再恢复为原连续信号f(t)。需要指出的是，采样定理只是在理论上给出了信号准确复现的条件。

我们可以利用windows自带的录音机录制语音文件，进行数字信号的采集。（开始—程序—附件—娱乐—录音机，文件—属性—立即转换—8000KH z，8位，单声道）或其他软件，将话筒输入计算机的语音输入插口上,启动录音机，录制一段自己的话音。然后在MATLAB软件平台下，利用函数wavread对语音信号进行采样，记住采样频率和采样点数。通过wavread函数的使用进一步理解采样频率、采样位数等概念。

此电路由模拟语音信号产生电路、滤波器、功率放大电路、直流稳压电源组成。在试验中由模拟语音信号产生电路产生频率为50HZ~15KHZ的正弦波，然后经过低通滤波器和高通滤波器、最后产生300Hz ~3000Hz的波形，由于要求带宽范围很广，采用一级二阶高通滤波器和一级低通滤波器相极级联的方法，获得所要的波段，滤波器的带宽有两个滤波器的截止频率锁决定。最后经过功率放大器进行放大。

由模拟语音信号产生电路、滤波器、功率放大电路、直流稳压电源组成模拟语音信号产生电路。

四、总结

学习了数字语音处理，我对语音信号系统有了更进一步了解，本文对语音信号处理系统的设计作了详细的介绍，采用一系列图像分析和处理技术，实现了语音信号的基本处理的功能，经过测试运行，本设计圆满的完

成了对语音信号的读取和打开；较好的完成了对语音信号的频谱分析，通过FFT变换，得出了语音信号的频谱图；在滤波这一块，课题主要是从数字滤波器入手来设计滤波器，基本实现了滤波，完成了各种滤波器效果比较与课题的要求十分相符。通过这次课程设计，使我对语音信号有了全面的认识，对数字信号处理的知识又有了深刻的理解，在之前数字信号与处理的学习以及完成课后的作业的过程中，已经使用过MATLAB，对其有了一些基础的了解和认识。

通过这次练习是我进一步了解了信号的产生、采样及频谱分析的方法。以及其中产生信号和绘制信号的基本命令和一些基础编程语言。让我感受到只有在了解课本知识的前提下，才能更好的应用这个工具；并且熟练的应用MATLAB也可以很好的加深我对课程的理解，方便我的思维。这次设计使我了解了MATLAB的使用方法，学会分析滤波器的优劣和性能，提高了分析和动手实践能力。同时我相信，进一步加强对MATLAB的学习与研究对我今后的学习将会起到很大的帮助。

数字音频作业及其答案精品资料

数字音频作业及其答案

第一次作业： 1:、声音可分为两种：纯音和复合音，平常人们说话的声音属于哪一种？语音的频率范围是多少？音频通常包括哪几种声音信号？其频率范围是多少？ 2、请说明音频信号数字化的三个步骤？ 3、如何理解“量化是信号数字化过程中重要的一步，而这一过程又是引入噪声的主要根源”这句话的含义？通过哪些途径可以减小量化误差？ 4对双极性信号若采用均匀量化，则量化信噪比SNR与量化比特数之间的关系为：SNR=6.02xN+1.76dB，试分析此式对实际量化与编码的指导意义？ 5:、A/D、D/A转换器的技术指标有哪些？答：1:人们说话的声音为复合音，语言的频率范围为300HZ-3000HZ。音频暴多语音、音乐、效果声等声音信号，频率范围为20HZ-20KHZ。 2：1取样：对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为，只要取样频率大于等于信号中所包含的最高频率的两倍，则可以根据其取样完全恢复出原始信号，这相当于当信号是最高频率时，每一周期至少要采取两个点。但这只是理论上的定理，在实际操作中，人们用混叠波形，从而使取得的信号更接近原始信号。2量化：取样的离散音频要转化为计算机能够表示的数据范围，这个过程称为量化。量化的等级取决于量化精度，也就是用多少位二进制数来表示一个音频数据。一般有8位，12位或16位。量化精度越高，声音的保真度越高。以8位的举例稍微说明一下其中的原理。若一台计算机能够接收八位二进制数据，则相当于能够接受256个十进制的数，即有256个电平数，用这些数来代表模拟信号的电平，可以有256种，但是实际上采样后的某一时刻信号的电平不一定和256个电平某一个相等，此时只能用最接近的数字代码表

语音信号处理实验指导书

语音信号处理实验指导书实验一语音信号采集与简单处理一、实验目的、要求（1）掌握语音信号采集的方法（2）掌握一种语音信号基音周期提取方法（3）掌握短时过零率计算方法（4）了解Matlab 的编程方法二、实验原理基本概念：（a ）短时过零率：短时内，信号跨越横轴的情况，对于连续信号，观察语音时域波形通过横轴的情况；对于离散信号，相邻的采样值具有不同的代数符号，也就是样点改变符号的次数。对于语音信号，是宽带非平稳信号，应考察其短时平均过零率。其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音：浊音平均过零率低，集中在低频端；清音平均过零率高，集中在高频端。 2.从背景噪声中找出是否有语音，以及语音的起点。（b ）基音周期基音是发浊音时声带震动所引起的周期性，而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一，它描述语音激励源的一个重要特征，基音周期信息在多个领域有着广泛的应用，如语音识别、说话人识别、语音分析与综合以及低码率语音编码，发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言，基音的变化模式称为声调，它携带着非常重要的具有辨意作用的信息，有区别意义的功能，所以，基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异，而基音周期的范围又很宽，而同—个人在不同情态下发音的基音周期也不同，加之基音周期还受到单词发音音调的影响，因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在：①声门激励信号并不是一个完全周期的序列，在语音的头、尾部并不具有声带振动那样的周期性，有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构，所以，从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容易。③语音信号本身是准周期性的(即音调是有变化的)，而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大，从老年男性的50Hz 到儿童和女性的450Hz ，接近三个倍频程，给基音检测带来了一定的困难。由于这些困难，所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。尽管基音检测有许多困难，但因为它的重要性，基音的检测提取一直是一个研究的课题，为此提出了各种各样的基音检测算法，如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。三、使用仪器、材料微机（带声卡）、耳机，话筒。四、实验步骤（1）语音信号的采集利用Windows 语音采集工具采集语音信号，将数据保存wav 格式。采集一组浊音信号和一组清音信号，信号的长度大于3s 。（2）采用短时相关函数计算语音信号浊音基音周期，考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。（3）计算短时过零率，清音和浊音的短时过零率有何区别。五、实验过程原始记录（数据，图表，计算）短时过零率短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

数字音视频处理

实验报告课程名称数字音视频原理实验题目MATLAB音频文件处理专业电子信息工程班级3班学号09080323 学生姓名王志愿实验成绩指导教师吴娱 2012年3月一、实验目的 1、掌握录制语音信号的基本过程； 2、掌握MATLAB编程对语音信号进行简单处理的方法并分析结果。二、实验要求

上机完成实验题目，独立完成实验报告。三、实验内容 1、问题的提出：数字语音是信号的一种，我们处理数字语音信号，也就是对一种信号的处理，那信号是什么呢？信号是传递信息的函数。离散时间信号（序列）——可以用图形来表示。按信号特点的不同，信号可表示成一个或几个独立变量的函数。例如，图像信号就是空间位置（二元变量）的亮度函数。一维变量可以是时间，也可以是其他参量，习惯上将其看成时间。信号有以下几种：（1）连续时间信号：在连续时间范围内定义的信号，但信号的幅值可以是连续数值，也可以是离散数值。当幅值为连续这一特点情况下又常称为模拟信号。实际上连续时间信号与模拟信号常常通用，用以说明同一信号。（2）离散时间信号：时间为离散变量的信号，即独立变量时间被量化了。而幅度仍是连续变化的。（3）数字信号：时间离散而幅度量化的信号。语音信号是基于时间轴上的一维数字信号，在这里主要是对语音信号进行频域上的分析。在信号分析中，频域往往包含了更多的信息。对于频域来说，大概有8种波形可以让我们分析：矩形方波，锯齿波，梯形波，临界阻尼指数脉冲波形，三角波，余弦波，余弦平方波，高斯波。对于各种波形，我们都可以用一种方法来分析，就是傅立叶变换：将时域的波形转化到频域来分析。 2、设计方案：首先要对声音信号进行采集，Windows自带的录音机程序可驱动声卡来采集语音信号，并能保存成.WAV格式文件，供MATLAB相关函数直接读取、写入或播放。利用MATLAB中的wavread命令来读入（采集）语音信号，将它赋值给某一向量。再将该向量看作一个普通的信号，对其进行FFT变换实现频谱分析，再依据实际情况对它进行滤波。对于波形图与频谱图（包括滤波前后的对比图）都可以用MATLAB画出。我们还可以通过sound/wavplay命令来对语音信号进行回放，以便在听觉上来感受声音的变化。 3、主体部分：（1）语音的录入与打开： [x,fs,bits]=wavread('d:\1.wav');%用于读取语音，采样值放在向量x中，fs 表示采样频率(Hz)，bits表示量化位数。

数字信号处理期末实验-语音信号分析与处理

语音信号分析与处理摘要用MATLAB对语音信号进行分析与处理，采集语音信号后，在MATLAB软件平台进行频谱分析;并对所采集的语音信号加入干扰噪声，对加入噪声的信号进行频谱分析，设计合适的滤波器滤除噪声，恢复原信号。数字滤波器是数字信号处理的基础，用来对信号进行过滤、检测和参数估计等处理。IIR数字滤波器最大的优点是给定一组指标时，它的阶数要比相同组的FIR滤波器的低的多。信号处理中和频谱分析最为密切的理论基础是傅立叶变换（FT）。离散傅立叶变换（DFT）和数字滤波是数字信号处理的最基本内容。关键词：MATLAB;语音信号；加入噪声；滤波器；滤波 1. 设计目的与要求（1）待处理的语音信号是一个在20Hz~20kHz频段的低频信号。（2）要求MATLAB对语音信号进行分析和处理，采集语音信号后，在MATLAB平台进行频谱分析；并对所采集的语音信号加入干扰噪声，对加入噪声的信号进行频谱分析，设计合适的滤波器进行滤除噪声，恢复原信号。

2. 设计步骤（1）选择一个语音信号或者自己录制一段语音文件作为分析对象；（2）对语音信号进行采样，并对语音信号进行FFT频谱分析，画出信号的时域波形图和频谱图；（3）利用MATLAB自带的随机函数产生噪声加入到语音信号中，对语音信号进行回放，对其进行FFT频谱分析；（4）设计合适滤波器，对带有噪声的语音信号进行滤波，画出滤波前后的时域波形图和频谱图，比较加噪前后的语音信号，分析发生的变化；（5）对语音信号进行回放，感觉声音变化。 3. 设计原理及内容 3.1 理论依据（1）采样频率：采样频率（也称采样速度或者采样率）定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。采样频率只能用于周期性采样的采样器，对于非周期采样的采样器没有规则限制。通俗的讲，采样频率是指计算机每秒钟采集多少个声音样本，是描述声音文件的音质、音调，衡量声卡、声音文件的质量标准。采样频率越高，即采样的间隔时间越短，则在单位之间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确。（2）采样位数：即采样值或取样值，用来衡量声音波动变化的参数。（3）采样定理：在进行模拟/数字信号的的转换过程中，当采样频率f s.max大于信号中，最高频率f max的2倍时，即：f s.max>=2f max，则采样之后的数字信号完整的保留了原始信号中的信息，一般实际应用中保证采样频率为信号最高频率的5~10倍；采样频率又称乃奎斯特定理。（4）时域信号的FFT分析：信号的频谱分析就是计算信号的傅立叶变换。连续信号与系统的傅立叶分析显然不便于直接用计算机进行计算，使其应用受到限制。而FFT是一种时域和频域均离散化的变换，适合数值计算，成为用计算机分析离

数字信号处理作业DOC

成绩：《数字信号处理》作业与上机实验（第三四章）班级： 13-电信学号：姓名：任课老师：李宏民完成时间： 15.11.08 信息与通信工程学院 2015—2016学年第1学期

第3-4章离散傅里叶变换及快速算法与应用一、实验内容及要求： 1、对信号在x(n)={1,2,3,4,5,6,7,8}，n=0，1，2....7,求其N=8点的DFT 。要求采用基于时间抽取算法编写FFT 实现程序，画出DFT 幅度谱与相位谱,并将计算结果与用MATLAB 自带的FFT 函数计算结果进行比较。 2、一个由40Hz 和100 Hz 正弦信号构成的信号，受零均值随机噪声的干扰（噪声服从标准正态分布，由randn 函数产生，n(t)= randn(m,n) 返回一个m*n 的随机矩阵），即()sin(2100)sin(240)()s t t t n t ππ=++g g 。数据采样率为500Hz ，试用FFT 函数来分析其信号频率成分。 ① 求其幅度频谱，从频谱图（横坐标以HZ 为单位，用plot 函数画图）中能否观察出信号的2个频率分量？ ② 提高采样点数，再求该信号的幅度频谱图，此时幅度频谱发生了什么变化？信号的2个模拟频率和数字频率各为多少？FFT 频谱分析结果与理论上是否一致？ 3、研究高密度频谱与高分辨率频谱。频率分辨率是指所用的算法能将信号中两个靠得很近的谱峰分开的能力。信号末尾补零由于没有对原信号增加任何新的信息，因此不能提高频率分辨率，但可以减小栅栏效应，所得到的频谱称为高密度频谱。在维持采样频率不变的情况下，为提高分辨率只能增加采样点数N ，此时所得到的频谱称为高分辨率频谱。设有连续信号 ) 1092cos()1072cos()105.62cos()(333t t t t x a ??π+??π+??π=

数字语音处理(精华版)

1·语音信号处理的三大分支：语音合成（说），语音编码（压缩），语音识别（听），语音增强。2·语音是怎样生成的：空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，这就形成了语音。 3·浊音：发音时声带振动的音称为浊音，它能量高，过零率低。为周期性斜三角脉冲。清音：声带不振动，能量低过零率高非周期脉冲，可用随机白噪声激励。 4·掩蔽效应：一个声音的听感觉感受受同时存在的另一个声音的影响的现象。掩蔽效应的应用：它指人耳只对最明显的声音反应敏感，对于不敏感的反应较不敏感，应用此原理人们发明了MP3等压缩的数字音乐格式，只突出记录人耳较为敏感的中频段声音，大大压缩了存储空间。 5·听觉机理：（1）外耳：机械振动，（2）中耳：限幅放大，（3）内耳：耳蜗。 6·语音信号数字模型：1）激励模型、2）声道模型、3）辐射模型。 7·语音生成系统的传递函数： ) ( )z( ) ( ) (z R V z G z H= 8·模型局限性及解决办法：声道的传输函数具有全极点的性质，这对于元音和大多数辅音来说是比较符合实际的，但对于鼻音和阻塞音来说由于出现了零点，这种模型就不够准确了，一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化，另一种是适当提高阶数P，使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义：加入一阶高通滤波器。10·预加重处理目的：目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率11·预加重处理技术：一般通过传递函数为： z1 1 H(z)- - =α的一阶FIR高通数字滤波器来实现预加重。 12·短时平均能量主要用途： 1）可以作为区分浊音和清音的特征参数2）在信噪比较高的情况下短时能量还可以作为区分有声和无声的依据3) 可以作为辅助的特征参数用于语音识别中。 13常用的窗有两种：一种是矩形窗，窗函数如下： ? ? ?- ≤ ≤ = 其他 ,0 1 ,1 ) ( N n n ω 可简化为： ∑ - - = - - = n N n m n m x m x z )1 ( |)] 1 ( sgn[ )] ( sgn[ | 2 1 π 另一种是汉明窗，窗函数： ? ? ?≤ ≤ - - = 其他 ,0 )] 1 /( 2[ cos 46 .0 54 .0N n N nπ ω 14·过零率：单位时间内过零的次数。浊音：过零率低能量高，清音：过零率高能量高。 15·端点检测目的：从包含语音的一段信号中确定出语音的起点及结束点。 16·自相关函数：时域离散确定信号： ∑+∞ -∞ = + = m k m x M x) ( ) ( ) R(k 时域离散随机信号： ∑ - = + + = N N m k m x m x N ) ( ) ( 1 2 1 ) R(k 自相关函数性质：1)对称性： R（K）=R（-K）2）在K=0处为最大值，即对于所有K来说 )0( |) ( |R K R≤3）对于确定信号，R（0）对应于能量对于随机信号R （0）对应于平均功率。 17·浊音和清音的短时自相关函数有以下特点:1)短时自相关函数可以很明显的反映出浊音信号的周期性 2）清音的短时自相关函数没有周期性，也不具有明显突出的峰值，其性质类似于噪声。3）不同的窗对短时自相关函数结果有一定影响。 18·短时自相关函数（求峰值）两个峰值之间的距离为周期。短时平均幅度差函数（求谷值）两个谷值之间的距离为周期。 19·采用双限门比较的两极判决法：第一级判决:1)先根据语音短时能量的轮廓选取一个较高的门限T1进行一次粗判：语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。 2）根据背景噪声的平均能量确定一个较低的门限T2，并从A点往左、从B 点往右搜索，分别找到短时能量包络与门限T2相交的两个点C和D，于是CD 段就是双门限方法根据短时能量所判定的语音段。第二级判决：以短时平均过零率为标准，从C点往左和D点往右搜索，找到短时平均过零率低于某个门限T3的两点E和F，这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。 20·当n固定时，它们就是序列））（m x( m - n ω的傅里叶变换或离散傅里叶变换。当ω或K固定时，它们就是一个卷积，相当于滤波器的运算。 21·基音周期估值的两种方法:第一种方法：先对语音信号进行低通滤波，在进行自相关计算。第二种方法，先对语音信号进行中心削波处理，在进行自相关计算。判别基音周期的方法：1·短时自相关函数法。2·短时平均幅度差函数。 22·线性预测编码就是利用过去的样值对新样值进行预测，然后将样值的实际值与预测值相减，得到一个误差信号，显然误差信号的动态范围远小于原始语音信号的动态范围，对误差信号的进行量化编码，可大大减少量化所需的比特数，使编码速率降低。

多媒体音频视频处理大作业范文

实验三：音频处理技术实验目的：学会使用“超级解霸”的音频播放器实现简单的音频处理。学会使用“超级解霸”的音频格式转换功能,完成几个文件的转换工作实验内容：一、用音频解霸将影碟中的伴音单独分离出来存为W A VE格式文件二、实现声音片段的任意截取并保存为MP3格式三、将W A VE格式文件转换为MP3格式、将MP3格式转换为W A VE格式四、将CD碟中的歌曲转换成MP3格式实验要求：完成一个声音片段的转换实验步骤：一、将影碟中的伴音单独分离出打开“超级解霸”中的声音播放器“音频解霸”其界面如下：通过下拉菜单：文件/打开一个(多个)文件可以进入“打开文件”窗口在这里找到要打开的影音文件。

点击“打开”按钮后返回播放界面，这时只要点击播放按钮就可以实现当前影音文件的声音播放。由于在VCD影碟上的歌曲和音乐都是采用MPEG格式压缩当我们要使用 WA VE格式的时候就要进行转换，能实现这种功能的软件很多，如果是要转换的文件不多的情况下用直接用“音频解霸”来转换还是很方便的。操作过程是这样的先找到要转换的开始点然后点击“波形录音”按钮就可以进入到保存波形文件对话框，选择好保存路径、输入保存文件名，点击“保存”按钮就可以开始转换保存。当声音播放到需要结束的位置时点击“停止”按钮就完成了文件转换工作。二、实现声音片段的任意截取并保存为MP3格式点击播放模式转换钮将“音频解霸”播放模式转换为“循环/选择录取区域”模式，此时该按钮旁边的设定“开始点”、“结束点”、“压缩录音”按钮变为有效。移动播放器在时间轴上的滑块分别设定开始点和结束点然后点击“压缩录音”按钮，进入保存对话框输入保存的文件名，就可以按照设定将选取的区域转换为MP3格式的声音文件。三将W AVE格式文件转换成MP3格式将W A VE格式文件转换成MP3格式或者将MP3转换成W A VE格式的软件有很多，我们这里用“超级解霸”中的附带功能就可以很方便的实现。实验步骤：少量的文件转换时可以采用实验二中介绍的方法，但是如果要转换的文件很多再用这种方法就太慢了，我们可以使用“超级解霸”软件包内里的音频工具“MP3格式转换器“来实现，其界面如下：

数字语音处理_作业

说明：平时作业写在作业本上，注意每次作业之间保持一定空白间距。期末随堂考试写在打印纸上。记得抄题目。最后成绩按作业质量与出勤率评定。谢谢合作！第1次作业(第1章) 1.语音信号处理的目的是什么？ 2.语音信息的交换大致可以分为哪三类？ 3.语音信号处理的三个主要分支是什么？ 4.画出语音处理过程的结构框图。第2次作业(第2章) 1.人的发声器官由哪3部分组成？ 2.浊音和清音的发声机理是什么？ 3.画出语音信号产生的二元激励模型。第3次作业(第3章) 1.语音信号时域分析提取的特征参数主要有哪些？ 2.对语音信号进行预加重的目的是什么？实现预加重的数字滤波器的传递函数是什么？ 3.什么是语音信号的短时平稳性？用图和公式说明语音信号的分帧加窗过程。 4.短时平均能量的定义式？窗长对短时平均能量计算的影响？短时平均能量的主要用途？ 5.短时平均过零率的定义式？短时平均过零率的用途？第4次作业(第3章) 1.短时自相关函数及其修正型的定义式？对比浊音和清音的短时自相关函数特点。 2.什么叫端点检测？阐述利用能量和过零率进行语音端点检测的两级判决法的实现步骤。 3.基于短时自相关法的基音周期估值中，常用的两种削波函数公式是什么？

第5次作业(第4章) 1.写出一帧语音信号的短时傅里叶变换公式()j X eω。观察矩形窗和汉明窗两种窗函数下 n 的短时频谱图有哪些特点？关于短时谱和移动窗可以得出哪些结论？ 2.画出滤波器组相加法实现短时综合的程序流程图。画出短时综合叠接相加法实现流程图。第6次作业(第5章) 1.什么叫卷积同态系统？写出信号() x n复倒谱和倒谱的定义式。 2.给出倒谱法求基音周期的实现框图。第7次作业 1.语音编码的目的是什么？按编码方式可分为三种，它们各自特点是什么？(第8章) 2.阐述语音合成的三种方法,并予以比较。(第9章) 3.语音识别系统的分类？语音识别系统的典型组成框图。(第10章) 期末随堂考试 1.语音信号处理主要研究哪几方面的内容？ 2.语音信号的清/浊音有什么区别？清/浊音的AMDF有什么区别？ 3.解释端点检测、基音、共振峰、语谱图 4.短时分析如何“分帧”？画图表示帧长、帧移。 5.简述时间窗长与频率分辨率的关系。 6.简述中心削波自相关法基音检测的原理及优点。为什么要进行后处理？如何后处理？ 7.论述共振峰合成的原理及其在语音合成中的应用。 8.简述同态信号处理在共振峰估计中的作用。 9.语音识别的目的是什么？如何分类？有哪些方法？ 10.列举5 种语音信号处理应用技术或产品。简述其工作原理？

基于MATLAB的语音信号采集与处理

工程设计论文题目：基于MATLAB的语音信号采集与处理姓名：班级：学号：指导老师：

一.选题背景 1、实践意义：语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在于方便有效地提取并表示语音信号所携带的信息。所以理解并掌握语音信号的时域和频域特性是非常重要的。通过语音相互传递信息是人类最重要的基本功能之一.语言是人类特有的功能.声音是人类常用工具,是相互传递信息的最重要的手段.虽然,人可以通过多种手段获得外界信息,但最重要,最精细的信息源只有语言,图像和文字三种.与用声音传递信息相比,显然用视觉和文字相互传递信息,其效果要差得多.这是因为语音中除包含实际发音容的话言信息外,还包括发音者是谁及喜怒哀乐等各种信息.所以,语音是人类最重要,最有效,最常用和最方便的交换信息的形式.另一方面,语言和语音与人的智力活动密切相关,与文化和社会的进步紧密相连,它具有最大的信息容量和最高的智能水平。语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,处理的目的是用于得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音,辨识出讲话者,识别出讲话容,进行语音增强等. 语音信号处理是一门新兴的学科,同时又是综合性的多学科领域,

是一门涉及面很广的交叉学科.虽然从事达一领域研究的人员主要来自信息处理及计算机等学科.但是它与语音学,语言学,声学,认知科学,生理学,心理学及数理统计等许多学科也有非常密切的联系. 语音信号处理是许多信息领域应用的核心技术之一,是目前发展最为迅速的信息科学研究领域中的一个.语音处理是目前极为活跃和热门的研究领域,其研究涉及一系列前沿科研课题,巳处于迅速发展之中;其研究成果具有重要的学术及应用价值. 数字信号处理是利用计算机或专用处理设备，以数值计算的方法对信号进行采集、抽样、变换、综合、估值与识别等加工处理，借以达到提取信息和便于应用的目的。它在语音、雷达、图像、系统控制、通信、航空航天、生物医学等众多领域都获得了极其广泛的应用。具有灵活、精确、抗干扰强、度快等优点。数字滤波器, 是数字信号处理中及其重要的一部分。随着信息时代和数字技术的发展，受到人们越来越多的重视。数字滤波器可以通过数值运算实现滤波，所以数字滤波器处理精度高、稳定、体积小、重量轻、灵活不存在阻抗匹配问题，可以实现模拟滤波器无法实现的特殊功能。数字滤波器种类很多，根据其实现的网络结构或者其冲激响应函数的时域特性，可分为两种，即有限冲激响应( FIR，Finite Impulse Response)滤波器和无限冲激响应( IIR，Infinite Impulse Response)滤波器。 FIR滤波器结构上主要是非递归结构，没有输出到输入的反馈，系统函数H (z)在处收敛，极点全部在z = 0处（因果系统），因而只能

语音信号处理实验报告

通信与信息工程学院信息处理综合实验报告班级：电子信息工程1502班指导教师：设计时间：2018/10/22-2018/11/23 评语：通信与信息工程学院二〇一八年实验题目：语音信号分析与处理一、实验内容 1. 设计内容利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析，使用窗函数法设计滤波器滤除噪声、并恢复信号。 2．设计任务与要求 1. 基本部分

（1）录制语音信号并对其进行采样；画出采样后语音信号的时域波形和频谱图。（2）对所录制的语音信号加入干扰噪声，并对加入噪声的信号进行频谱分析；画出加噪后信号的时域波形和频谱图。（3）分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声，并画出各种函数所设计的滤波器的频率响应。（4）画出使用几种滤波器滤波后信号时域波形和频谱，对滤波前后的信号、几种滤波器滤波后的信号进行对比，分析信号处理前后及使用不同滤波器的变化；回放语音信号。 2. 提高部分（5）录制一段音乐信号并对其进行采样；画出采样后语音信号的时域波形和频谱图。（6）利用MATLAB产生一个不同于以上频段的信号；画出信号频谱图。（7）将上述两段信号叠加，并加入干扰噪声，尝试多次逐渐加大噪声功率，对加入噪声的信号进行频谱分析；画出加噪后信号的时域波形和频谱图。（8）选用一种合适的窗函数设计数字滤波器，画出滤波后音乐信号时域波形和频谱，对滤波前后的信号进行对比，回放音乐信号。二、实验原理 1.设计原理分析本设计主要是对语音信号的时频进行分析，并对语音信号加噪后设计滤波器对其进行滤波处理，对语音信号加噪声前后的频谱进行比较分析，对合成语音信号滤波前后进行频谱的分析比较。首先用PC机WINDOWS下的录音机录制一段语音信号，并保存入MATLAB软件的根目录下，再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中，输入命令对语音信号进行时域，频谱变换。对该段合成的语音信号，分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理，滤波后用命令可以绘制出其频谱图，回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

数字语音处理课程实验报告

数字语音处理课程报告

语音信号的采集与分析摘要语音信号的采集与分析技术是一门涉及面很广的交叉科学，它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快，分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法，并通过PC机录制自己的一段声音，运用Matlab进行仿真分析，最后加入噪声进行滤波处理，比较滤波前后的变化。关键词：语音信号，采集与分析，时域，频域 0 引言通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能．声音是人类常用的工具，是相互传递信息的最主要的手段。因此，语音信号是人们构成思想疏通和感情交流的最主要的途径。并且，由于语言和语音与人的智力活动密切相关，与社会文化和进步紧密相连，所以它具有最大的信息容量和最高的智能水平。现在，人类已开始进入了信息化时代，用现代手段研究语音信号，使人们能更加有效地产生、传输、存储、获取和应用语音信息，这对于促进社会的发展具有十分重要的意义。让计算机能听懂人类的语言，是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展，随着计算环境的日趋复杂化，人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科技应用领域的研究热点，语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理．工业生产部门的语声控制，电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨，并且有望成为下一代操作系统和应用程序的用户界面。可见，语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中，并不断朝更高目标而努力。语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨，除了它的实用性之外，另一个重要原因是，它始终与当时信息科学中最活跃的前沿学科保持密切的联系．并且一起发展。语音信号采集与分析是以语音语言学和数字

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义时间：2011-12

目录实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一语音信号生成模型分析一、实验目的 1、了解语音信号的生成机理，了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱，与理论值进行比较。 3、编程实现已知语音信号的语谱图，区分浊音信号和清音信号在语谱图上的差别。二、实验原理语音生成系统包含三部分：由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成，即 ()()()()H z G z V z R z = 1、激励模型发浊音时，由于声门不断开启和关闭，产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说，这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数，T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘： 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型，v A 是一个幅值因子。 2、声道模型当声波通过声道时，受到声腔共振的影响，在某些频率附近形成谐振。反映在信号频谱图上，在谐振频率处其谱线包络产生峰值，把它称为共振峰。一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明，用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型从声道模型输出的是速度波，而语音信号是声压波。二者倒比称为辐射阻抗，它表征了

语音信号处理作业7

语音识别技术发展历程及趋势学号： 201105021 姓名：指导教师：

语音识别技术发展历程及趋势摘要：本文回顾了语音识别技术的发展历史，描述了语音识别系统的基本原理,介绍了语音识别的几种基本方法,并对语音识别技术面临的问题和发展前景进行了讨论。关键词：语音识别；特征提取；人机交互引言通过语音传递信息是人类最重要、最有效、最常用的和最方便的交换信息形式。语言是人类特有的功能，声音是人类常用的工具，是相互传递信息的最重要的手段。因此，语音信号是人们构成思想疏通和感情交流的最主要的途径，他具有最大的信息容量和最高的智力水平。让计算机能听懂人类语言，是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展，以及计算环境的日趋复杂化，人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。 1 语音识别技术概述语音识别（Speech Recognition）主要指让机器听懂人说话，即在各种情况下，准确地识别出语音的内容，从而根据其信息，执行人的各种意图。。作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向, 是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,甚至还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。随着计算机技术、模式识别和信号处理技术及声学技术等的发展，使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来，语音识别在工业、军事、交通、医学、民用诸多方面，特别是在计算机、信息处理、通信与电子系统、自动控制等以语音识别技术开发出的产品应用领域非常广泛，如声控电话交

《语音信号处理》实验报告材料

实用中南大学信息科学与工程学院语音信号处理实验报告指导老师：覃爱娜学生班级：信息0704 学生名称：阮光武学生学好：0903070430 提交日期：2010年6月18日

实验一语音波形文件的分析和读取一、实验的任务、性质与目的本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验：（1）掌握语音信号的基本特性理论：随机性，时变特性，短时平稳性，相关性等；（2）掌握语音信号的录入方式和*.WAV音波文件的存储结构；（3）使学生初步掌握语音信号处理的一般实验方法。二、实验原理和步骤： WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一，它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成，其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种，分别对应于单声道（11.025KHz采样率、8Bit的采样值）和双声道（44.1KHz采样率、16Bit的采样值）。采样率是指声音信号在“模拟→数字”转换过程中，单位时间内采样的次数；采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件，采样数据为8位的短整数（short int 00H-FFH）；而对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制（PCM）格式表示的样本。在单声道WAV文件中，道0代表左声道，声道1代表右声道；在多声道WAV文件中，样本是交替出现的。WAV文件的格式见表1。

广州大学数字语音处理复习题

第一章绪论 1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d3 2.语音信号处理的应用技术列举：语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏（语音信息伪装、语音数字水印技术）、语音增强等p4d3 3.当前语音信号处理应用的3个主流技术：矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3 第二章语音信号处理基础知识 1.语音是组成语言的声音，是声音（Acoustic）和语言（Language）的组合体。p5d2 2.语音的基本声学特性包括音色，音调，音强、音长。p7d2 音色：也叫音质，是一种声音区别于另一种声音的基本特征。音调：是指声音的高低，它取决于声波的频率。音强：声音的强弱，它由声波的振动幅度决定。音长：声音的长短，它取决于发音时间的长短。 3. 说话时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段叫音节（Syllable）。一个音节可以由一个音素（Phoneme）构成，也可以由几个音素构成。音素是语音发音的最小单位。p7d3 4.任何语言都有语音的元音（V owel）和辅音（Consonant）两种音素。p7d3 8.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，这些声腔完全开放，气流顺利通过，这种音称为元音。p7d3 9.呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为辅音。p7d3 7.发辅音时由声带是否振动引起浊音和清音的区别，声带振动的是浊音，声带不振动的是清音。p7d3 8.元音构成音节的主干（因为无论从长度还是能量看，元音在音节中都占主要部分。）p7d3 9.元音的一个重要声学特性是共振峰（Formant）。共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（Formant Frequency）的位置和频带宽度（Formant Bandwidth）。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管，声道管的谐振频率称为共振峰频率（共振峰）。p7d5 10.汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字，每个汉字是一个音节。p10d6 10. 发浊音时，气流通过声门时使声带发生振动，产生准周期激励脉冲串，这个脉冲串的周期就称为基音周期（pitch），其倒数成为基音频率。 11.汉语是一种声调语言，声调的变化就是浊音基音周期（或基音频率）的变化。p14d5 13. 无论是单音节语音还是连续语音，其中浊音段的基因频率是随时间而变化的，基因频率的不同轨迹成为声调。p9d11 14. 当两个响度不同的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象成为掩蔽效应。 15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成，三者是串联（串联/并联）的关系。p21-26 16.语音信号激励模型一般分为浊音激励和清音激励，发浊音时激励模型为脉冲波。p21d6 17.语音信号激励模型一般分为浊音激励和清音激励，发清音时激励信号通常被模拟为随机白噪声。p22d2

语音信号处理实验报告实验二

通信工程学院12级1班罗恒 2012101032 实验二基于MATLAB 的语音信号频域特征分析一、实验要求要求根据已有语音信号，自己设计程序，给出其倒谱、语谱图的分析结果，并根据频域分析方法检测所分析语音信号的基音周期或共振峰。二、实验目的信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说，可以很方便地确定其对正弦或复指数和的响应，所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外，傅立叶表示使信号的某些特性变得更明显，因此，它能更深入地说明信号的各项红物理现象。由于语音信号是随着时间变化的，通常认为，语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的，因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示，但不能直接用于语音信号。由于语音信号可以认为在短时间内，近似不变，因而可以采用短时分析法。三、实验设备 1.PC 机； 2.MATLAB 软件环境；四、实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗（分帧）、绘制曲线等功能。 3.上机实验时先调试程序，通过后进行信号处理。 4.对录入的语音数据进行处理，并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。五、实验原理及方法 1、短时傅立叶变换由于语音信号是短时平稳的随机信号，某一语音信号帧的短时傅立叶变换的定义为：其中w(n -m)是实窗口函数序列，n 表示某一语音信号帧。令n -m=k'，则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

(完整版)语音信号分析与处理系统设计

语音信号分析与处理系统设计

语音信号分析与处理系统设计摘要语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件，它可以将声音文件变换为离散的数据文件，然后利用其强大的矩阵运算能力处理数据，如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等，它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数，利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化，使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。本设计针对现在大部分语音处理软件内容繁多、操作不便等问题，采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波，程序界面简练，操作简便，具有一定的实际应用意义。最后，本文对语音信号处理的进一步发展方向提出了自己的看法。关键字：Matlab；语音信号；傅里叶变换；信号处理；

目录 1 绪论 (1) 1.1课题背景及意义 (1) 1.2国内外研究现状 (1) 1. 3本课题的研究内容和方法 (2) 1.3.1 研究内容 (2) 1.3.2 运行环境 (2) 1.3.3 开发环境 (2) 2 语音信号处理的总体方案 (3) 2.1 系统基本概述 (3) 2.2 系统基本要求 (3) 2.3 系统框架及实现 (3) 2.4系统初步流程图 (4) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6) 3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (6) 3.4数字滤波器设计原理 (7) 3.5倒谱的概念 (7) 4 语音信号处理实例分析 (8) 4.1图形用户界面设计 (8) 4.2信号的采集 (8) 4.3语音信号的处理设计 (8) 4.3.1 语音信号的提取 (8) 4.3.2 语音信号的调整 (10)

文档之家