低速声码器的发展概况
- 格式:doc
- 大小:58.50 KB
- 文档页数:13
一种基于EEMD域统计模型的话音激活检测算法1吴其前2张雄伟1解放军理工大学通信工程学院南京2100072解放军理工大学指挥自动化学院南京210007摘要:该文提出了一种基于EEMD域统计模型的话音激活检测算法。
算法首先利用总体平均经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)对带噪语音进行分解,得到信号的本征模式函数(Intrinsic Mode Function,IMF)分量,选择与原信号的相关性最高的两个分量相加组成主分量;然后对主分量进行频域分解,引入统计模型,求出EEMD 域特征参数;最后利用噪声与语音的EEMD域特征参数的不同来进行语音激活检测。
实验结果表明,在不同信噪比情况下,本文算法性能优于目前常用的V AD算法,特别在噪声强度大时体现出明显的优势。
关键词:话音激活检测;经验模式分解;总体平均经验模式分解;EEMD域统计模型中图分类号:TN 912.3 文献标示码:文章编号:A V oice Activity Detection Algorithm Based on EnsembleEmpirical Mode Decomposition Domain Statistical Model1Wu Qi-qian, 2Zhang Xiong-wei1Institute of Communication Engineering, PLA Univ. of Sci. & Tech., Nanjing, 210007 2Institute of Command Automation, PLA Univ. of Sci. & Tech., Nanjing, 210007 Abstract: A Voice Activity Detection algorithm based on ensemble empirical mode decomposition domain statistical model is presented in this paper.The noisy speech is decomposed into Intrinsic Mode Function (IMF) components by using EEMD method. Two IMF components with the higher correlation with original speech are added to calculate statistical model characteristic parameter.The decision of the speech/noise is made by comparing characteristic parameter with threshold. The proposed V AD algorithm is tested on speech signals under various noise conditions with several SNRs. The results of experiments show that the proposed V AD algorithm outperforms some standard V AD algorithms, especially under low SNR noisy condition.Key words: Voice Activity Detection (V AD); Empirical Mode Decomposition (EMD); Ensemble Empirical Mode Decomposition (EEMD); EEMD domain statistical model引言话音激活检测(V oice Activity Detection, V AD)是一种重要的语音信号处理技术,其有效性直接影响语音处理系统的性能,如语音编码中编码速率控制、语音识别系统的识别率等。
pdt对讲机声码器对于PDT(专业数字通信技术)对讲机声码器的功能和特点,这篇文章将从以下几个方面进行讨论。
一、什么是PDT对讲机声码器?PDT对讲机声码器是一种专门用于PDT对讲机的重要部件。
它负责将声音信号转化为数字信号,并通过数字通信网络进行传输。
声码器的主要作用是将人声转化为可压缩、可传输的数字音频数据,确保语音信息的高效传输和保真。
二、PDT对讲机声码器的特点1. 高效传输:PDT对讲机声码器采用高效的音频压缩算法,能够将声音信号压缩至最小,并保持语音质量的同时进行传输。
这种特点使得PDT对讲机在有限的网络带宽下实现清晰、稳定的语音通信。
2. 抗干扰能力强:PDT对讲机声码器采用先进的数字信号处理技术,能够对环境噪声进行降噪处理,并抑制背景杂音,从而提高语音信号的清晰度和可辨度。
即使在嘈杂的环境中,对讲机用户仍然能够清晰地传递语音信息。
3. 低功耗设计:PDT对讲机声码器采用了低功耗的设计方案,能够在相对较低的电量下保持长时间的通信。
这使得PDT对讲机在工作时间上得到有效延长,提高了用户的使用体验。
4. 多功能支持:PDT对讲机声码器还支持多种功能,如语音激活(VOX)功能、组呼/单呼功能、低功耗模式等。
这些功能丰富了对讲机的使用方式,能够满足不同领域和场景的通信需求。
三、PDT对讲机声码器的应用领域1. 公共安全领域:PDT对讲机声码器在公安、消防、交通等领域有广泛的应用。
其高效的语音传输和抗干扰能力,确保了紧急情况下的高效通信和指挥。
2. 企事业单位:PDT对讲机声码器在企事业单位的工作通信中也得到应用。
员工可以通过对讲机进行实时语音交流,提高工作效率和协作能力。
3. 物流、运输行业:PDT对讲机声码器可以在物流、运输行业中用于车队调度、货物追踪等方面的通信需求。
其高效稳定的语音传输能力为企业提供了便利和效益。
4. 建筑工地、工矿企业:PDT对讲机声码器在建筑工地和工矿企业的安全监控中起到了重要作用。
语音编码技术的应用与发展语音编码技术的应用与发展隐匿 2001/08/01语音数字化的技术基本可以分为两大类:第一类方法是在尽可能遵循波形的前提下,将模拟波形进行数字化编码;第二类方法是对模拟波形进行一定处理,但仅对语音和收听过程中能时候到的语音进行编码。
其中语音编码的三种最常用的技术是脉冲编码调制(PCM)、差分PCM(DPCM)和增量调制(DM)。
通常,公共交换电话网中的数字电话都采用这三种技术。
第二类语音数字化方法主要与用于窄带传输系统或有限容量的数字设备的语音编码器有关。
采用该数字化技术的设备一般被称为声码器,声码器技术现在开始展开应用,特别是用于帧中继和IP上的语音。
除压缩编码技术外,人们还应用许多其它节省带宽的技术来减少语音所占带宽,优化网络资源。
ATM和帧中继网中的静音抑制技术可将连接中的静音数据消除,但并不影响其它信息数据的发送。
语音活动检测(SAD)技术可以用来动态的跟踪噪音电平,并为这个噪音电平设置一个享用的语音检测阀值,这样就使得语音/静音检测器可以动态匹配用户的背景噪声环境,并将静音抑制的可听度降到最小。
为了置换掉网络中的音频信号,这些信号不再穿过网络,舒适的背景声音在网络的任一端被集成到信道中,以确保话路两端的语音质量和自然声音的连接。
语音编码技术的类别语音编码方法归纳起来可以分成三大类:波形编码、信源编码、混合编码。
1.波形编码波形编码比较简单,编码前采样定理对模拟语音信号进行量化,然后进行幅度量化,再进行二进制编码。
解码器作数/模变换后再由低通滤波器恢复出现原始的模拟语音波形,这就是最简单的脉冲编码调制(PCM),也称为线性PCM。
可以通过非线性量化,前后样值的差分、自适应预测等方法实现数据压缩。
波形编码的目标是让解码器恢复出的模拟信号在波形上尽量与编码前原始波形相一致,也即失真要最小。
波形编码的方法简单,数码率较高,在64kbit/s至32kbit/s 之间音质优良,当数码率低于32kbit/s的时候音质明显降低,16 kbit/s时音质非常差。
一种基于MELP模型600bps声码器的设计石乔林;韦凯;吴辉【摘要】The paper describes a 600bps speech coder based on MELP (enhanced mixed excitation linear prediction) algorithm. Consecutive three speech frames are grouped into super-frame and are jointly quantized by utilizing inter-frame redundancy in coder. The LSF vector is quantized with multi-mode predictive and multistage matrix quantization that handle mode transition by predictive coefficient and different mode in super-frames. The efficiency of the quantization is improved by joint quantization of pitch and gain. All of that make the quality of the synthetic voice better ever at 600bps.% 基于增强型混合激励线性预测(MELPe)模型,设计了一款600bps低速率语音编码器。
该编码器在保持MELPe算法特征的同时,利用相邻帧的帧间冗余,把连续的三帧构成一个超帧,对超帧采用多模式预测和多级矩阵量化技术进行联合量化。
同时针对超帧的不同模式,通过预测系数对相邻超帧的模式转换进行处理,实现线谱对参数(LSF)的矢量量化。
最后对基音周期与增益参数进行联合量化,进一步提高量化效率,完成一款在600bps下仍具有较好合成语音质量的语音编码器的设计。
2.4kbps低速率编解码方法的发展和现状刘俊(武汉科技大学信息科学与工程学院)摘要:低速率(2.4kbps)的编解码算法自1976年问世以来至今先后经过了LPC-10声码器、LPC-10e 声码器与MELP声码器。
从前者到后者无论是从算法还是语音的合成质量上都有了很明显的改进。
本文就是具体着手于这三种声码器的改进入手的。
关键词:语音编码;声码器;线性预测;混合激励;The Development of Low Bit Rate Speech Coding methodsLIU JUN(Information science and Engineering academe in Wuhan University of Science and Technology)Abstract:Low bit rate speech coding methods has come through LPC-10 V ocoder, LPC-10e V ocoder and MELP Vocoder since 1976. From the former to the latter, there are very obvious improvements in the algorithm and the pronunciation synthesis quality. This article focuses on these three V ocoders’ improvements. Key words: speech coding; V ocoder; Linear Prediction; Mixed Excitation;1 引言随着我国通信市场发展步伐的加快,语音传输这一通信传输服务得到了迅速的发展。
低速率的语音传输能够降低价格、维持高品质,同时能够提供保密功能。
按语音编码的类型可以分为波形编码与参数编码,其中语音波形编码的编码质量较好,其技术实现也较为简单,因而是最早得到广泛应用的语音编码技术。
语音信号处理的发展历程及发展趋势201105028摘要:文章简要介绍了语音信号处理这一分支学科形成和发展的历史过程.指出了它在现代信息科学技术中的地位和作用.介绍了语音信号处理在应用领域的一些重要课题,如语音的低速率编码,语音的规则合成和文-语转换系统,语音识别和人-机语音对话等,这些仍然是当前研究的热点.文章最后展望了语音信号处理的发展前景,指出在这个领域还有很多难题等待人们去研究探索.关键词语音信号处理,语音低速编码,语音识别发展历程声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科.它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等),听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音的清晰度和可懂度等.当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础.语言声学的发展和电子学、计算机科学有着非常密切的关系.在它发展的过程中,有过几次飞跃.第一次飞跃是1907年电子管的发明和1920年无线电广播的出现.因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量.从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门.第二次飞跃应该是在20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为数字信号后,能够送进计算机.这样就可以用数字计算方法,对语音信号进行处理和加工.例如频谱分析可以用傅里叶变换或快速傅里叶变换(FFT)实现,数字滤波器可以用差分方程实现.在这个基础上,逐渐形成了一门新学科)))语音信号处理.它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题.在信息科学中占有很重要的地位.语音信号处理在信息科学中的地位和作用众所周知,语音在人类社会中起了非常重要的作用.在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字.近年来,普通电话、移动电话和互联网已经普及到家庭.在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献.再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了.人们早就希望用语音指挥机器,机器的执行情况也能用语音回答.这在某些领域已经部分地实现了.目前计算机芯片的集成度和运算能力,每18个月就提高一倍,而成本又不断降低,因此,它已经广泛地应用于在社会生产和生活的各个方面.然而计算机接收信息的外围设备和主机相比,要逊色得多.能说能听的计算机还不能普遍使用.也就是说:语音识别、语音理解和语音合成等课题,还有很多理论问题和技术问题没有解决,需要继续深入研究.科学家们深入研究后认为,要解决人-机语音对话这样的难题,做出真正实用的语音机器,必须开展跨学科的研究,如声学、语言学、语音学、生理学、数字信号处理、人工智能和计算机科学等.要真正赋予微电脑以语言功能,必须彻底了解语言是如何产生、感知,以及人类的语言通信是如何进行的?图1给出了从语言产生到语音感知全过程中的几个重要环节.从图1可以看到,要使这个问题得到满意的解决,需要深入研究人类发声器官和听觉器官机理,建立能反映客观真实情况的物理模型和数学模型.图1人类语音通信的过程语音信号所包含的信息量[1,2]语音信号中到底包含了多少信息量,需要多少比特才能够无失真地表示它们,这对于语音编码、语音合成和语音识别的研究都是很有用的.但是这也是一个很复杂的问题,它涉及到对于信号失真的评价.下面列举了三种评价,其中两种是由弗累雷格(F lanagan)给出的,另一种是由约翰斯登(Johnston)提出的.它们是建立在下面三种不同的失真评价上:(1)语音信号的信噪比;(2)接收语音信号时,信号由听觉外围处理以后,人们在主观上能够感觉到的失真;(3)人在接收语音信号时,不正确接收音素的数目和正确接收音素数目的比值.在所有的三种情况下,所得到的比特率是首先选择能够接受的失真等级,然后,计算该失真等级所需的比特率.在测量音素失真的情况下(第三种),可以把接受的失真级设置为零.如果所有的音素都能正确传送,就是所期望的最好性能.假设相邻的音素之间不出现相关,则平均信息速率很容易计算.按照仙农(Shannon)的信息理论,每一个符号需要的平均比特数为I=-2()log i ii p p (1)式中pi 为每一个符号i 的概率,英语有42个音素(符号),汉语的音素有48个,其中辅音22个,单元音13个,复元音13个.在正常情况下,谈话速率大约是每秒钟10个音素.使用音素出现的相对概率表,能够计算出每一个符号的信息量大约是5bit,得到的全部信息速率大约是50bit/s.请注意,自然的静寂也包含在这个比特速率内.而系统仅仅传送音素序列,缺少发音人声音的个性特征(也就是声带的形状和对声道的描述).在另一方面,相邻音素之间的相关也被忽视了.考虑到这些音素后,把这一估计作为语音信息所需要的比特率低限,或者人们感知语音信号的最低要求,还是有一些道理的.其次,把语音信号的信噪比作为失真评价(第一种),在不考虑编码器结构的情况下,可以得到语音信号信息速率的高限.在具有电话带宽的信号中,估计最大信息速率时,必须要考虑合理的噪声等级.令P是信号的平均功率,W是信号的带宽,G是附加的噪声信号功率,假设附加的噪声信号是高斯白噪声,令C表示最大的信息速率,由仙农的理论,对于包含了附加噪声G的信号,C可由下式计算.2(1)log pc wG=+ (2) 在上式中,如果语音信号的带宽为3.5kHz,信噪比(SNR)为30dB,则它所包含的最大信息速率为35kb/s.这是语音所需要的信息速率的上限.在上面的公式中,对于语音信号所存在的短期相关和长期相关,都没有考虑.而信号中所存在的结构性相关,就意味着冗余度.它能够在传输之前除去,从而降低信息速率.下面所讨论的估计,要包括人的感知和理解.声音信号由人的听觉器官处理以后,它的信息率就降低了.声音信号的某些特点,会由于人听觉系统的掩蔽效应而不能被注意到.例如在一个特有频率上的低幅度纯音,可以被一个靠近该频率更响的纯音掩蔽.在除去了人们在感觉上不能区分的特点以后,再来考虑信号的信息速率是恰当的.如果把理解失真评价的阈值也设置到零(不能听到失真).则首先计算语音信号的傅里叶变换,然后按频带进行计算,要求的量化器步长应该使量化噪声在掩蔽阈值以下.掩蔽阈值和频带宽度都是建立在听觉系统知识的基础上,所得到的信息速率估计称为理解熵.对于电话带宽的语音,理解熵估计大约为10kb/s.这是对于连续语音的,相当于执行透明的语音编码所需的平均速率.上面讨论表明,人的感知和理解在语音处理中有很重要的作用.语音信号的中、低速率编码[1,5,6]按照语音产生的简化模型,可以构成低速率的语音编码器(又称声码器).最早的模拟声码器和以后的数字声码器LPC-10、LPC-10e都是根据这个模型设计的.激励源使用二元激励,在同一时间只能用一种激励方式,即白噪声或脉冲串.声道传输函数可用一组带通滤波器模拟,在更多的情况下,是把声门脉冲形状、嘴辐射和声道等因素结合起来,用一个全极点滤波器模拟.因为人的发声器官是机械系统,运动缓慢,传送这些慢变化的控制参量,可以用速率比较低的数码.它和传送波形所需要的数码相比,能够压缩许多倍,不但节约了频带,而且有利于保密.在第二次世界大战中,美国和德国都使用过这种保密电话.随着电子技术的进步,这种声码器经过精心设计和不断优化,在 2.4kbit/s的速率下,可以产生完全可懂的语音.美国军方和北大西洋公约组织一直用作保密电话.但音质和自然度很差,其原因是二元激励模型有局限性,不符合客观实际情况.科学家们经过深入研究,提出了合成-分析法(AbS),比较满意地解决了这个问题.AbS方法并不是惟一的用于语音编码,而是估计和验证领域的通用技术.它的基本概念如下:首先,假设产生信号模型的方式如图3所示.这个模型受一些参量控制,改变这些参量就能够产生不同的观测信号.要使所表示的模型和真正的信号模型有同样的形式,能够使用一个试探程序或误差程序,采用有规则的方法改变模型参量,从而可以找到一组参量,它所产生的合成信号,能够以最小误差与真正的信号相匹配(假设模型开始就是有效的).因此,当计算到这样的匹配时,模型的参量就可以认为是真正信号的参量.图2使用合成-分析法的语音编码方框图(采用AbS-LPC编码方案)AbS-LPC方案(使用合成―分析法的线性预测编码)的基本操作如下:(1)将LPC和音调滤波器(时-变滤波器)的内容,初始化到预定的值(通常是置到零或低量级无规噪声).(2)缓冲一帧语音样品,在该帧上使用LPC分析算法,计算出一组LPC系数.(3)使用计算得到的LPC系数,构成一个反滤波器,计算非量化的残差信号.(4)为了有效地分析激励信号,把分析帧再分为整数子帧.对于每一个子帧:(i)计算音调滤波器(长期预测器)的参量,也就是延迟S和与它联系的标量因子 .(ii)按照图2中的级联滤波器,则最优的辅助激励可以按照合成语音和原始语音之间的最小误差方法确定.(5)最后的合成语音,是由最优辅助激励通过具有初始存储内容的级联滤波器产生的(初始存储内容是从以前子帧合成过程中残留下来的).这种方案运算量很大,但话音质量好,数码率也可以做得很低(16k)4.8kbit/s).它有多种类型.例如多脉冲激励线性预测编码器(MPE-LPC)、规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性预测编码器(CELP)等.多带激励线性预测编码器,也使用合成-分析法(AbS),改进了二元激励.它能够在2.4kbit/s的速率下,得到较好的语音质量.所有这些语音编码器都能够在单一DSP(数字信号处理器)芯片上实现.由于DSP芯片的运算能力不断增强,而价格又逐年降低,它不仅用于保密通信,而且广泛用于卫星通信、移动通信、短波通信和网络电话等很多方面.语音的规则合成和文-语转换系统[3,7]语音的规则合成是通过语音学规则产生语音的机器.该系统内存储了较小的语音单位(如音素、双音素、半音节和音节)的声学参数,以及由音素组成音节,再由音节组成词和句子的各种规则.当输入文字时,该系统利用规则自动地将它们转换为连续的语音.目前,汉语合成技术大体上可以分为两类:时域合成或称语音的波形合成这种方案通常以音节为合成单位.汉语共有1280多个单音节,可以从引导句中截取,经过适当的数据压缩后,构成一个汉语合成音节库.使用时,根据要求的信息,从语音库中取出音节的波形数据,串接或编辑到一起,再经过重音、韵律、持续时间等修正,就可以输出连续的合成语音.20世纪80年代末,提出了基音同步叠加算法(PSOLA算法),使得在波形数据的编辑过程中,能够方便地改变音调、重音、持续时间等物理特征,从而在组成词和句子时,能够方便地加入相应的规则,并转换为自然的、连续的语音.这种语音合成技术,占用计算机的存储量较大,但合成语音清晰自然,目前使用比较广泛.频域合成或语音的参量合成仍以单音节、半音节为基本合成单元,首先从引导句中截取这些单音节、半音节的波形,并进行分析,计算出它们的物理特征参数.主要的特征参数有:控制音强的幅度、控制音高(音调)的基频、控制音色的频谱(可以使用短时傅里叶变换或线性预测系数等).线性预测系数也可以转换为共振峰频率和带宽,这样从语音学的观点考虑,更为直观.这些参数经过编码压缩后,组成语音合成的参数库.使用时,根据要求的信息,从参数库中取出相应的特征参数,经过编辑和连接,并加入语音合成所需要的规则,顺序送入到语音合成器.在合成器里,这些参数控制着电子发声器官的相应部分,能够产生连续的语音.这种合成技术所需要的存储器容量较小,但运算比较复杂.为了改进合成语音的质量,也可以使用音调同步重叠相加的方法.由于可以控制的参数比较多,而且和实验语音学联系紧密,也有很好的发展前景.目前的语音质量正在不断地得到改善.文-语转换系统是上述语音合成系统的进一步发展.它输入的文字串是通常的文本字串,系统中的文本分析器根据发音词典,将输入的文字串分解为带有属性标记的词和相应的读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级、语句结构、语调、以及各种停顿等.这样,文字串就转换为发出声音的代码串,合成系统就可以据此合成出具有抑、扬、顿、挫和不同语气的语句.目前,这种系统已经被广泛地应用于社会生活的各个方面.例如自动报时、自动报气象、电话咨询系统,以及用电话转发电子邮件等.然而,人类的语音交流是涉及语言学、社会学、心理学、生理学等领域的复杂处理过程.要使文-语转换系统能和播音员一样,具有情感并有很高的自然度,仍然是非常困难的问题.它要求计算机对所朗读的文本,要有正确的理解.这就要求计算机内要有一个丰富的知识库,还要有相当强的智能.这是目前还没有解决的问题,有待今后深入研究.语音识别和人-机语音对话[6]语音识别包括发音人识别和语音识别两大类:发音人识别要从一群发音人中,找出预知他(她)声音的某一特定人.它又分为与文本有关和与文本无关两种,前者要求发音人所说的文本是预先指定的,而后者要求文本是任意的和不受任何限制的,很显然,后者的难度更大.语音识别有多种分类方法:按照词汇量的大小可划分为:小词汇语音识别(词数通常小于100);中等词汇语音识别(词数在100到500之间);大词汇语音识别(词数在500以上).目前已经做到好几万词汇.按照发音的方式,可分为孤立词语音识别和连续语音识别.孤立词识别是指发音者每次只说一个词或一条命令,它在词汇表中作为一个独立的识别单元,由识别系统来识别.连续语音识别是指发音人按照正常自然的发音方式发音,由识别系统来识别.按照服务对象可划分为:依赖于发音人和不依赖于发音人两种,即特定人工作方式和非特定人工作方式.凡识别系统只针对一个用户,即按照某一个特定发音人的特征而设计的,称为特定人工作方式.识别系统是根据很多发音人的共有特征设计的,允许任何人使用,则称为非特定人工作方式.这些分类方法也可组合起来,形成多种语音识别系统.很显然,特定人、小词汇、孤立词语音识别系统是最简单的方式,比较容易实现.而非特定人、大词汇、连续语音识别则很复杂,虽然,目前国内有很多大学和研究所开发了可供表演的样机,美国IBM公司还推出了汉语连续语音识别软件.但是都还存在很多问题,没有得到推广和普及,未取得商业上的成功.特定人、小词汇、孤立词语音识别系统大都采用简单的模板匹配原理.在训练阶段,用户将词汇表中的每一个词依次说一遍,并将它的特征矢量序列存入模板库中.识别时,将输入语音的特征矢量,依次与模板库中的每一个模板作相似度比较,相似度最高者就是识别的结果.但由于发音人在训练时和识别时,他们的说话速度不会完全一致,使得识别率难以提高,而使用动态时间伸缩算法(简称DTW算法),可以动态调整说话速度,从而找到最佳的模式匹配,使识别率提高.这种系统的识别率能达到98%以上,目前已经在一些自控装置、机器人等领域中应用.非特定人、大词汇、连续语音识别系统的原理如图3所示.在预处理单元中,除了反混叠滤波器、模数转换器、自动增益控制外,还包括自动分段和识别基元选择.对于汉语,识别基元可用音素即声母-韵母,或者使用考虑了受前后发音影响的声母-韵母变体.一般地说,有限词汇量的识别基元应该选得大一些,而无限词汇量的识别基元应该选得小一些.声学参数可用倒谱系数,或者使用模拟人耳听觉特性的MEL谱,还需要加上能量、过零率、音调等特征.测度估计通常使用隐马尔柯夫模型(HMM).连续发音时,每一个音节甚至每一个音素都会受前后发音的影响,使得它的物理特征发生很大变化.再者,人们的发声器官都会有一些差异,不同音人发出同一声音的物理特征,会有一些不同.这对于人的听觉器官来说,分辨语音信号的共性和个性,听懂和理解都能满意解决.但对计算机来说,却是很难的课题.目前最广泛使用的算法是隐马尔柯夫模型(HMM).马尔柯夫过程是一个双重的随机过程,人的语言过程就是这样一种双重随机过程.语言本身是一个可观察的随机序列,它是由大脑(不可观察的)根据语言需要和语法知识(状态选择)所发音素(或音节、词、句)的参数流.所以语音信号的模型可以用马尔柯夫模型来描述.马尔柯夫模型定义为K=F(A,B,P).在这三个模型参数中,P是事件(语音的参数流,可表示为矢量序列)的初始概率分布,B是某状态下事件的概率分布,它就是外界观察到的事件符号的概率,A是状态转移概率的分布.图3非特定人、大词汇、连续语音识别系统的原理图使用HMM作语音识别时,假设要识别的音素(或音节、词)有V个,为每一个音素(或音节、词)设计一个HMM模型.先用VQ技术设计一个尺寸为M(M为观察的符号数)的码本,然后用该音素(或音节、词)多次发音的语音数据,对它进行训练,得到最优的模型参数.与此同时,用最佳准则得到状态数为N的状态转移序列.最后,对实际要识别的语音信号用上面训练所得到的模型进行评估,吻合概率最大的那个音素(或音节、词)就是识别的结果.结论和展望本文简要介绍了‘语音信号处理’这一分支学科的形成过程.并指出了它在现代信息科学中的地位.有一些基础的理论问题和技术问题还在继续研究和发展中.在信息科学的应用领域,例如语音的低速率编码,语音的规则合成和文-语转换系统,语音识别和人-机语音对话等,仍然是当前研究的热点.有的已经解决了,有的只是部分解决了,还有很多难题等待我们去研究探索.这些难题是:(1)听觉器官的物理模型和数学表示,目前还没有一套权威的理论和成熟算法.虽然有多种设计,但实验结果都不够充分.特别是从听觉前端处理器所得到的波形特征,经过更高一级的处理,最后的信息速率只有50 bit/s,这是人们理解和感知语音信号的最低限度.而这一过程在人脑中是怎样完成的?目前还不太清楚.它是一个非常复杂的问题,需要进一步研究探索.(2)语音识别的子课题很多,其中最难的是非特定人、大词汇量、连续语音识别.近年来这个课题已经取得很大的进展.世界上有很多权威实验室推出了可供表演的识别系统,有些公司还推出了商品.但是由于不同人的发音差别很大,再加上环境噪声等影响,系统的正确识别率和顽健性离实际使用还有很大距离.目前,人们所期望的口呼打字机或听写机还没有得到推广.(3)语音的规则合成和文-语转换系统,已经取得了一批可以实用的成果.然而要使它能和优秀的播音员一样,具有不同风格、情感、很高的自然度,仍然是非常困难的问题.关键技术是如何根据一段文章的语境和语义,自动生成计算机可以识别的韵律符号.这涉及到机器对自然语音的理解,目前还在研究中.(4)语音增强包括从强噪声中提取语音信号,或者从几个人同时说话的混合波形中,分离出各自的语音信号,这类研究虽然理论上有一些算法,但效果均不理想,还没有达到可以实用的水平。
语音频编码标准及发展趋势黎家力1 概述本文首先介绍了语音编码和音频编码的基本概念及其之间的关系。
然后详细介绍了当前国内外各标准化组织开展语音频编码标准研究的最新进展,其中重点分析了ITU-T和MPEG两个标准化组织在该领域的标准化情况。
最后通过总结展望了语音频编码标准的发展趋势。
语音频编码标准是指对语音和音频信号进行信源压缩所采用的标准算法,压缩的目的是为了节省传输带宽或者存储空间。
从信源的角度来分,分为语音和音频。
通常将人耳可以听到的频率在20Hz到20kHz的声波称为音频信号。
音频包括音乐、自然产生的声音(如风声、雨声、鸟叫声、机器声等)、彩铃声等。
人的发音器官发出的声音频段在80Hz到3400Hz之间,人说话的信号频率在300Hz到3000Hz,人们通常将该频段的信号称为语音信号。
语音编码标准只针对语音信号,目的在于用很高的压缩率来高效地处理语音信号;音频编码标准只针对音频信号,目的在于保持音频信号在一定的码率下尽量不失真。
语音和音频的编码标准有融合的趋势。
最新的语音编码标准可以保持对语音的高效编码,同时采用带宽扩展的方法在高码率下可以接近音频的编码质量;最新的音频编码标准使用频带复制等技术,大大降低了压缩码率,使得中低码率下的编码效率接近传统的语音编码标准。
表1 数字音频等级12 标准化组织2.1 ITU-T国际电信联盟(ITU)是世界各国政府的电信主管部门之间协调电信事务方面的一个国际组织,ITU-T是其属下的电信标准部门,负责通信相关标准的制定。
ITU-T已经标准化的语音频标准有:G.711、G.722、G.728、G.726、G.723.1、G.729、G.722.1、G.729.1等。
目前ITU-T的第16研究组(SG16)负责语音频编码相关标准的制定,其中与语音频编码相关的有Q9、Q10两个研究课题。
下面分别详细介绍:2.1.1 Q9课题组Q9课题主要讨论G.VBR的标准化。
G.VBR标准的开发分为两个部分,一个针对窄带、宽带部分的开发,另一个是针对超宽带部分的开发。
低速率声码器芯片设计郭从征*,王 沁(北京科技大学 北京 100083)摘 要:本文针对清华大学研制的SELP 低速率语音编解码算法设计出一款声码器芯片)))TR600,TR600声码器芯片的核心部件是它的语音编解码处理器。
该处理器采用软件和硬件协同设计的方法使芯片面积和运算速度达到最佳平衡点,在20MH z 低主频下实现了即时语音通信。
关键词:声码器;SELP ;语音编码;语音解码;处理器中图分类号:TP368.1文献标识码:A 文章编号:1008-911X(2005)04-0021-04Low Velocity Vocoder Chi p D esignGUO C ong -zheng ,W ANG Q i n(U n i vers it y of Sci en ce and T echnol ogy Be iji ng ,Be iji ng 100083,Ch i na)Abstract :Th is paper a i m ed at the SELP lo w -ve l o c ity vocoder arith m etic developed by Tsi n ghua u -n i v ersity designed a vocoder ship na m ed TR600.The core co m ponen t ofTR600is its speech vocederprocessor .Th is processor is designed w ith t h e so ft w are and hard w are ba lance-design -m ethod tom ake the area o f chip and opera tion speed reach the opti m al co m b i n ation .A t the lo w frequency of20MH z t h e c h ip realized the speech rea l ti m e correspondi n g .K eyw ords :vocoder chip ;SELP ;speech encoder ;speech decoder ;processor前言语音传输是目前最主要也是最普遍的通信传输服务。
低速率语音编码的实现与仿真摘要:近年来,随着通信与计算机网络的飞速发展,低速率语音编码以其低速率且良好的编码质量等特点,在数字通信中越来越受到重视。
低速率语音编码方案主要是基于LPC-10,混合激励线性预测(MELP),多带激励编码(MBE),正弦变换编码(SCI)等。
它们大都能够工作在2.4kbps速率下。
本文对LPC-10进行了研究,以LPC模型为原型,通过联合帧、矢量量化及参数内插等技术,实现了一种低速率语音编码算法。
归一化互相关函数基音检测算法(NCCFPDA)的引入,提高了清浊音判决的准确率;线谱对(LSP)参数的量化特性,降低了误差率,提高了算法的稳健性;固定矢量量化码本(LSPVQ码本)提高了量化精度并降低了传输码率;联合帧的应用,较好的平衡了低码率与语音质量严重恶化的矛盾,而与参数内插技术的结合更加降低了传输码率。
通过该算法获得了比较满意的合成语音,并在MATLAB中得到实现,验证了算法的可行性。
关键词:语音编码,基音检测,LSP,MATLAB目录第一章绪论 (4)1.1引言 (4)1.2低速率语音编码研究现状 (4)1.3常用低速率语音编码算法 (5)1.3本文主要研究内容及章节安排 (6)第二章 LPC-10编码算法 (7)2.1LPC-10编码算法的理论依据 (7)2.1.1 语音信号的产生模型 (7)2.1.2语音信号的线性预测分析[8] (7)2.2LPC-10编解码算法的分析[9] (8)2.2.1 LPC-10编码算法分析 (8)2.2.2 计算声道滤波参数RC (9)2.2.3 计算增益RMS (10)2.2.4 提取基音周期和检测清/浊音 (10)2.2.5 参数编码与解码 (10)2.2.6 LPC-10解码算法分析 (10)2.3LPC-10声码器存在的问题[9] (11)第三章 900BIT/S极低速率编码算法 (12)3.1算法概述 (12)3.2编码原理 (13)3.2.1预处理 (13)3.2.2线性预测分析 (14)3.2.3 NCCFPDA算法[12] (16)3.2.4 矢量量化[9] (19)3.2.5参数编码 (20)3.3解码原理 (20)3.3.1参数解码 (21)3.3.2合成语音 (21)3.4本章小节 (22)第四章低速率语音编解码算法的仿真实现 (23)4.1仿真实验平台 (23)4.2编解码器的工作流程 (23)4.2语音编码仿真结果 (24)第五章结论与展望 (25)5.1结论 (25)5.2展望 (25)参考文献 (26)第一章绪论1.1引言语音通信是一种非常重要且普遍的通信方式。
声码器技术的发展学院:班级:姓名:学号:指导教师:摘要语音编解码技术的迅速发展,使中低速率语音编码技术广泛应用于现代移动通信。
声码器特别适用于以低比特率为首要条件的通信场合,较典型的应用包括标准电话信道上的保密语言传输和小型化数字存贮器中的语言存贮。
在某些长距离无线通信中,人们宁可使用声码器而不愿意用目前音质低劣的模拟传输系统。
目前,质量令人满意的实用语言编码器的比特率下限为2400bps,这个比特率是由线性预测编码和通道话音编码获得的。
现在正在进行大量的研究工作,其目的是要获得低于2400bps的比特率而乂要使语言质量不下降或下降很少。
这个研究课题是一个既基本乂具有实用价值的课题。
声码器正向着速率更低、语音质量更好,延时更短,算法更复杂,抗干扰能力更强,带宽要求更小的方向发展。
本文主要介绍国外声码器的发展概况、若干种低速声码器的技术原理和结果,并推测未來的工作。
关键字:声码器发展、线性预测编码、低比特率—、引言自首次成功地尝试建造一台能够模拟人声的机器以来,己经大约有两百年了。
两百年中中人们曾建造了各种各样的这类机器,成功的情况也各不相同,年轻时的贝尔和他的兄弟就曾致力于建造一台这样的机器,但取得实质性的进展却是电子系统问世之后的事。
1939年纽约世界博览会上,一项叫做“语言合成器”(Voder)的发明引起了轰动。
这个语言合成器实质上是一台电子器件,它通过完全的电子方式分析人类的语言,然后乂把它综合出来。
该系统后來称之为“声码器”(话音编码器),声码器标志了语言编码新纪元的开始,声码器这个名词也一直沿用至今而作为一大类系统的属名o近年来,声码器的研究变得日益重要了,这在很大程度上取决于数字化技术和语言编码的大规模应用。
语言数字化有两种根本不同的途径,一种称之为波形编码,另一种称之为参数编码。
实现参数编码的硬件就是声码器。
目前,降低比特率是一个有重大意义的研究课题,为降低声码器的比特率而釆取的所有方式都是利用了如下三个基本思想中的一个、两个或三个。
一种低速可编程的声码器设计与实现
荆涛;刘恩涛;王沁
【期刊名称】《小型微型计算机系统》
【年(卷),期】2008(29)11
【摘要】为增强数字语音通信的安全性,提高传输带宽的利用率,基于低速率SELP 算法,设计了一种具有可编程、高并行度、可重构、安全性等特点的声码器.采用四级ALU单元、可变长VLIW专用指令集等设计,优化了复杂度高的功能模块,显著提高指令级并行度.仿真结果表明,该声码器在20MHz主频下完成0.6kbps的SELP 算法的平均功耗为200mW,完成编解码的运算复杂度为12.5MIPS,低于相同工艺水平的通用DSP的40MIPS.
【总页数】4页(P2137-2140)
【作者】荆涛;刘恩涛;王沁
【作者单位】北京科技大学,信息工程学院,北京,100083;北京科技大学,图书馆,北京,100083;北京科技大学,信息工程学院,北京,100083
【正文语种】中文
【中图分类】TP331
【相关文献】
1.基于MELP改进算法的低速率声码器设计与实现 [J], 马金全;高世海;张连海
2.一种600 bps声码器及其与典型中低速语音编码器的音质对比 [J], 吴江滨;丛键;苏旸
3.一种采用混合激励的超低速率分段声码器 [J], 闵刚;张雄伟;杨吉斌;安云峰
4.低速率声码器的设计与实现 [J], 汪平;李军;刘嘉勇;方勇;欧阳志勇
5.基于AMBE-2000的低速声码器设计与实现 [J], 蒋旭平;韩雪
因版权原因,仅展示原文概要,查看原文内容请购买。
语音信号处理技术发展历程和发展趋势学号:姓名:语音信号处理技术发展历程和发展趋势摘要:本文简要介绍了语音信号处理技术的发展历史,所采用的关键技术以及所面临的困难与挑战,最后谈谈语音信号处理技术中的几个核心技术的发展趋势。
语音是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信中最重要、最基本的组成部分之一。
数字电话、高音质的窄带语音通信系统、语音学习机、声控打字机、自动翻译机、智能机器人、新一代计算机语音智能终端及许多军事上的应用等,都要用到语音信号处理技术,随着集成电路和微电子技术的飞速发展,语音信号处理系统逐步走向实用化。
语音信号处理是一门新兴的边缘学科,它是语音学和数字信号处理两个学科相结合的产物。
它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。
语音信号处理的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些领域的进步。
语音信号处理的目的就是要得到某些语音特征参数以便高效地传输或储存;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内容等。
随着现代科学和计算机技术的发展,除了人与人之间的自然语言的通信方式之外,人机对话及智能机器等领域也开始使用语言。
这些人工语言同样有词汇、语法、语法结构和语义内容等。
控制论创始人维纳在1950年就曾指出过:“通常,我们把语音仅仅看做人与人之间的通信手段,但是,要使人向机器、机器向人及机器向机器讲话,那也是完全办得到的”。
通常认为,语音信息的交换大致可以分为三大类:➢人与人之间的语言通信:包括语音压缩与编码、语音增强等。
➢第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成。
➢第二类人机语言通信问题,指的是人讲话、机器听话的情况,即语音识别和理解。
上述这些应用领域构成了语音信号处理技术的主要研究内容。
世界声码器参数-回复声码器是一种先进的音频处理技术,具有模拟能力,可以将一段人类语音转换为计算机生成的语音。
声码器的参数对于实现高质量的语音合成至关重要。
本文将以"[世界声码器参数]"为主题,详细介绍声码器的参数及其作用。
声码器参数是指在音频处理过程中使用的各种参数。
这些参数主要用于调整声音的音质、音调、语速等方面,从而使声音更加生动、自然。
下面将介绍一些常用的声码器参数及其作用:1. 采样率:采样率是指在一秒内采样的次数。
采样率越高,音频的质量越好,声音的细节也更加清晰。
一般常用的采样率有8kHz、16kHz、44.1kHz等。
不同的应用场景可根据需要选择不同的采样率。
2. 帧长:帧长是指声音信号在时间上被分解的长度。
帧长一般为10ms 至30ms之间。
较长的帧长能提供更好的频域分辨率,但声音的时域分辨率会降低。
相反,较短的帧长能提供更好的时域分辨率,但频域分辨率会降低。
实际应用中,需要根据具体情况选择合适的帧长。
3. 帧移:帧移是指相邻帧之间的时间间隔。
帧移一般为帧长的一半或三分之一。
较大的帧移可以提高声音的时域分辨率,但可能损失一些频域信息。
较小的帧移可以提高频域分辨率,但可能导致时域分辨率降低。
根据具体需求,可以选择相应的帧移大小。
4. 频域分析方法:频域分析方法决定了声音信号在频域上的表示形式。
常用的频域分析方法有傅立叶变换、离散余弦变换等。
这些方法在声音信号分析和合成中起着重要作用。
不同的分析方法会对声音信号的特征有不同的影响,因此需要根据实际情况选择合适的频域分析方法。
5. 声码器类型:声码器类型决定了声音信号的合成方式。
常见的声码器类型包括线性预测编码(LPC)、自回归声码器(AR)、混合法声码器(HM)、矢量量化声码器(VQ)等。
不同的声码器类型有不同的合成效果和计算复杂度。
在实际应用中,需要根据具体需求选择适合的声码器类型。
6. 特征提取:特征提取是指从声音信号中提取出有效的声音特征。
低速语音编码的通信终端实现以及传输方案
李蓉
【期刊名称】《移动通信》
【年(卷),期】2004(0)S2
【摘要】本文介绍在通信终端中利用一种新型可变速率声码器芯片AMBE-2000进行低速声码话编解码,并在信道中进行无误传输的实现方案。
此方案主要应用于多时隙收发数据的通信系统中,具有语音编码速率可变、音质优、性价比高、功耗小等优点。
【总页数】3页(P129-131)
【关键词】声码器;话音编码
【作者】李蓉
【作者单位】中国电子科技集团公司第七研究所
【正文语种】中文
【中图分类】TN929.5
【相关文献】
1.井下数字移动通信语音编码的选择和语音通信的设计实现 [J], 田子建
2.低速率终端设备的语音信号数字编码 [J], 李文华;许刚;郑普亮
3.一种低速率语音编码技术在测量船语音通信中的应用 [J], 陈松;胡剑凌;周朝猛
4.基于CVSD编码的无线语音通信协议方案及实现 [J], 罗雪松;陈向东;陈永鹮;丘
春辉;沈冰
5.调度通信系统中双音频编码随路信令传输方案的研究及实现 [J], 水生军
因版权原因,仅展示原文概要,查看原文内容请购买。