低速声码器的发展概况
- 格式:docx
- 大小:24.09 KB
- 文档页数:12
军用信息技术与软件标准精选(最新)GJZ102A《GJB/Z 102A-2012 军用软件安全性设计指南》GJ117《GJB/T117-1999 军用软件验证和确认计划指南》GJ136Z《GJB/Z 136-2003 Z 通用信息处理平台集成与运行指南》GJ140Z《GJB/Z140-2004 Z 电子对抗装备现场维修数据收集指南》GJ141Z《GJB/Z141-2004 Z 军用软件测试指南》GJ142Z《GJB/Z142-2004 Z 军用软件安全性分析指南》GJ143Z《GJB/Z143-2004 Z 军用智能辅助决策开发工具》GJ156Z《GJB/Z156-2011 Z 军事电子信息系统体系结构设计指南》GJ157Z《GJB/Z157-2011 Z 军用软件安全保证指南》GJZ161《GJB/Z 161-2012 军用软件可靠性评估指南》GJ229A《GJB 229A-2000 军用微波接力通信系统接口》GJ238A《GJB238A-1997 战术调频电台测量方法》GJ318《GJB318A-1997 战术调频电台通用规范》GJ322A《GJB322A-1998 军用计算机通用规范》GJ367A《GJB367A-2001 军用通信设备通用规范》GJ438B《GJB438B-2009 Z 军用软件开发文档通用要求》GJ662《GJB662A-1997 野战数字无线电接力设备的频繁段和容量系列》GJ663A《GJB 663A-2012 军用通信系统安全通用要求》GJ883A《GJB883A-2003 对流层散射通信系统通用规范》GJ915《GJB915A-1997 纤维光学试验方法》GJ1127《GJB 1127A-2003 机载短波单边带通信设备通用规范》GJ1128A《GJB 1128A-2002 机载超波电台通用规范》GJ1142.4《GJB 1142.4A-2004 野战地域通信系统通用要求第:回路群》GJ1142.5《GJB 1142.5A-2004 野战地域通信系统通用要求:单路有线入口》 GJ1145A《GJB1145A-2010 Z 通信和指挥自动化军工产品定型试验规程》GJ1211A《GJB 1211A-2007 野战用户电话交换机通用规范》GJ1268A《GJB1268A-2004 军用软件验收要求》GJ1427A《GJB1427A-1999 光纤总规范》GJ1428A《GJB1428A-1999 光缆总规范》GJ1567.2《GJB1567.2-1992 话音频带调制解调器的差错控制方法 用于带有异步至同步转换DCE的差错校正方法》GJ1659《GJB1659-1993 光纤光缆接头总规范》GJ1783《GJB1783-1993 硬波导组件总规范》GJ1901《GJB 1901A-2003 军用巨型计算机通用规范》GJ2077A《GJB 2077A-2007 短波自适应通信系统自动线路建立规程》GJ2088A《GJB 2088A-2002 压制性雷达干扰机通用规范》GJ2089A《GJB 2089A-2003 通信对抗监测分析接收机通用规范》GJ2090A《GJB 2090A-2003 瞄准式通信干扰机通用规范》GJ2101《GJB 2101A-2002 超短波对空指挥电台通用规范》GJ2242《GJB2242-1994 时统设备通用规范》GJ2434《GJB2434A-2004 军用软件产品评价》GJ2436《GJB2436-1995 天线术语》GJ2454《GJB 2454A-2003 军用光缆填充膏规范》GJ2763《GJB2763-1996 通信设备话音质量等级标准与评测方法》GJ2786A《GJB2786A-2009 Z 军用软件开发通用要求》GJ2824《GJB 2824-1997 军用数据安全要求》GJ2928A《GJB 2928A-2012 战术超短波跳频电台通用规范》GJ2929《GJB2929-1997 战术短波跳频电台通用规范》GJ2991A《GJB2991A-2008 Z B时间码接口终端通用规范》GJ3012A《GJB 3012A-2007 军用无线双工移动通信系统中心台信道机通用规范》GJ3083A《GJB 3083A-2007 军用无线双工移动通信系统移动用户台通用规范》 GJ3084A《GJB 3084A-2007 军用无线双工移动通信系统交换机通用规范》GJ3180《GJB 3180-1998 军用计算机容错要求与测评》GJ3181《GJB3181-1998 军用软件支持环境选用要求》GJ3629《GJB3629-1999 军用通信装备使用手册编写规定》GJ4072A《GJB4072A-2006 军用软件质量监督要求》GJ4195《GJB4195-2001 外设部件互连(PCI)总线》GJ4210.1《GJB4210.1-2001 军用无线电通信设备通用检验验收规程超短波电台》GJ4210.2《GJB4210.2-2001 军用无线电通信设备通用检验验收规程短波电台》 GJ4211《GJB4211-2001 军用通信台站通信电源系统通用要求》GJ4353《GJB4353-2002 关系数据库管理系统功能与性能测试要求》GJ4354《GJB4354-2002 关系数据库管理系统功能通用要求》GJ4371《GJB4371-2002 通信设备诊断知识数据结构》GJ4411《GJB 4411-2002 光缆组件通用规范》GJ4897《GJB 4897-2003 军用计算机病毒防治要求》GJ4951《GJB 4951-2003 军用通信装备维修手册编写规定》GJ4952《GJB 4952-2003 战术互联网通用要求》GJ5000A《GJB5000A-2008 Z 军用软件研制能力成熟度模型》GJ5024《GJB 5024-2003 军用光缆阻水纱规范》GJ5080Z《GJB 5080-2004 Z 军用通信设施雷电防护设计与使用要求》GJ5081Z《GJB 5081-2004 Z 军用ATM层信元传送性能测试通用要求》GJ5082Z《GJB 5082-2004 Z 战术无线通信系统软件通信体系结构》GJ5083Z《GJB 5083-2004 Z 核爆炸冲击波对地面野战通信装备的破坏等级及防护要求》GJ5084Z《GJB 5084-2004 Z 光纤通用数字通道故障检测》GJ5085Z《GJB 5085-2004 Z 军事综合信息网多协议标记交换互通技术要求》 GJ5086Z《GJB 5086-2004 Z 军事综合信息网路由交换设备通用技术要求》GJ5087Z《GJB 5087-2004 Z 指挥自动化网无线接入模式》GJ5088Z《GJB 5088-2004 Z 军用建筑物网络布线系统工程设计通用要求》GJ5095《GJB5095-2002 信息技术安全通用要求》GJ5169《GJB5169-2004 高性能计算机磁盘阵列通用规范》GJ5174《GJB5174-2004 短波/超短波有源测向天线参数系列》GJ5175《GJB5175-2004 合成孔径雷达数据处理系统通用要求》GJ5177《GJB5177-2004 军用通信器材出口包装要求》GJ5185《GJB5185-2004 雷达对抗数字瞬时测频接收机模块规范》GJ5187《GJB5187-2004 有源相控阵通信干扰天线通用规范》GJ5196《GJB5196-2004 短波通信对抗搜索分析接收机通用规范》GJ5234《GJB5234-2004 军用软件验证和确认》GJ5235《GJB5235-2004 军用软件配置管理》GJ5236《GJB5236-2004 军用软件质量度量》GJ5241《GJB5241-2004 概念建模语言IDEF1X的句法和语义》GJ5301《GJB5301-2004 军用无线双工移动通信系统网络管理和控制设备通用规范》GJ5368《GJB 5368-2005 计算机病毒防治系统技术要求》GJ5301《GJB5301-2004 军用无线双工移动通信系统网络管理和控制设备通用规范》GJ5371《GJB 5371.1-2005 信息技术安全评估准则:简介和一般模型》GJ5793《GJB5793-2006 Z 网络安全漏洞扫描分析产品测评方法》GJ5454Z《GJB5454-2005 Z 短波数字化抗干扰系列电台操作显示要求》GJ5455Z《GJB5455-2005 Z 无线综合接入系统通用规范》GJ5462Z《GJB5462-2005 Z 军用通信装备技术说明书编写规定》GJ5463Z《GJB5463-2005 Z 军用通信装备随机文件配发和使用要求》GJ5672《GJB5672-2006 Z 车载式通信对抗测向站通用规范》GJ5716《GJB5716-2006 Z 军用软件开发库、受控库和产品库通用要求》GJ5793《GJB5793-2006 Z 网络安全漏洞扫描分析产品测评方法》GJ5794.1《GJB5794.1-2006 Z 网络入侵检测产品测评方法第1部分:网络型产品》GJ5794.2《GJB5794.2-2006 Z 网络入侵检测产品测评方法第2部分:主机型产品》GJ5806Z《GJB5806-2006 Z 智能密钥卡通用规范》GJ5865K《GJB 5865-2006 K 线性令牌传递多路数据总线有效性测试方法》GJ5866K《GJB 5867-2006 K 航空单芯多模光纤光缆连接器规范》GJ5880K《GJB 5880-2006 K 软件配置管理》GJ5927K《GJB 5927-2007 军用无线双工移动通信系统合路器通用规范》GJ5928K《GJB 5928-2007 军用无线双工移动通信系统信道控制器通用规范》 GJ5930Z《GJB 5930-2007 军用电台配套设备品种系列》GJ5931Z《GJB 5931-2007 军用有中继海底光缆通信系统通用要求》GJ5932Z《GJB 5932-2007 军用搬移式全光中继设备规范》GJ5933Z《GJB5933-2007 Z 军用搬移式同步数字传送网设备规范》GJ5934Z《GJB 5934-2007 军用微波接力通信设备测试接口》GJ5935Z《GJB 5935-2007 军用低速声码器接口通用要求》GJ5942K《GJB 5942-2007 军用光接入网通用要求》GJ5950《GJB 5950-2007 战略卫星通信支线网Ku频段车载站通用规范》GJ5951《GJB 5951-2007 呼入军用电话网主叫标识传送要求》GJ5952《GJB 5952-2007 装甲综合通信车通用要求》GJ5954K《GJB 5954-2007 通信靶场通用试验规程 中长波电台》GJ5955K《GJB 5955-2007 通信靶场通用试验规程 化学电源》GJ5956K《GJB 5956-2007 通信靶场通用试验规程 通信车》GJ5957K《GJB 5957-2007 通信靶场通用试验规程 卫星通信系统地球站》GJ5958K《GJB 5958-2007 战场通信频率管理系统干扰频谱监测仪通用规范》 GJ5959K《GJB 5959-2007 战场通信频率管理系统频率管理终端通用规范》GJ5958K《GJB 5958-2007 战场通信频率管理系统干扰频谱监测仪通用规范》 GJ5959K《GJB 5959-2007 战场通信频率管理系统频率管理终端通用规范》GJ6321Z《GJB6321-2008 Z 军用计算机电磁泄漏干扰器通用规范》GJ6363Z《GJB6363-2008 Z 地空通信干扰设备定型试验规程》GJ6389Z《GJB6389-2008 Z 军用软件评审》GJ6411K《GJB6411-2008 K 光纤通道航空电子环境》GJ6741Z《GJB6741-2009 Z 数字通信干扰效果评定准则》GJ6919Z《GJB6919-2009 Z 导电纤维丝束性能测试评价方法》GJ6921Z《GJB6921-2009 Z 军用软件定性测评大纲编制要求》GJ6922Z《GJB6922-2009 Z 军用软件定性测评报告编制要求》GJ7082Z《GJB7082-2010 Z 卫星通信机载站天线分系统通用规范》GJ7093Z《GJB7093-2010 Z 软件通信体系结构中间件接口》GJ7094Z《GJB7094-2010 Z 软件通信体系结构波形装配与部署要求》GJ7095Z《GJB7095-2010 Z 软件通信系统结构硬件抽象层应用程序接口》GJ7096.1Z《GJB7096.1-2010 Z 软件通信体系结构标准符合性测试方法第1部分:通则》GJ7096.2Z《GJB7096.2-2010 Z 软件通信体系结构标准符合性测试方法第2部分:核心框架》GJ7096.3Z《GJB7096.3-2010 Z 软件通信体系结构标准符合性测试方法第3部分:资源组件》GJ7096.4Z《GJB7096.4-2010 Z 软件通信体系结构标准符合性测试方法第4部分:设备组件》GJ7096.5Z《GJB7096.5-2010 Z 软件通信体系结构标准符合性测试方法第5部分:波形》GJ7151Z《GJB7151-2011 Z 可信计算平台通用要求》GJ7170Z《GJB7170-2011 Z 网络安全管理类产品测评方法》GJ7174Z《GJB7174-2011 Z 抗拒绝服务类产品测评方法》GJ7249Z《GJB7249-2011 Z 信息安全管理体系要求》GJ7250Z《GJB7250-2011 Z 信息安全保障体系框架》GJ7562《GJB 7562-2012 军用计算机信息系统局域网防护通用要求》GJ7563《GJB 7563-2012 无线通信综合测试仪检定规程》GJ7700Z《GJB7700-2012 Z 军用数据库管理系统安全测评要求》H244《HB/Z244-1993 软件支持环境》H7691《HB7691-2001 三十二位计算机指令系统结构》H7692《HB7692-2001 三十二位机载计算机内总线》QJ3126A《QJ3126A-2008 航天软件产品保证要求》QJ3262《QJ 3262-2005 高可靠性实时嵌入式软件设计指南》SJ10367《SJ/T10367-1993 计算机过程控制软件开发规程》SJ10663《SJ/T10663-1995 光纤设备与部件测量方法》SJ10711《SJ/T10711-1996 移动通信设备标准试验条件》SJ10721《SJ/T10721-1996 公用移动通讯系统移动台技术要求和测量方法》 SJ11116《SJ/T11116-1997 光纤预制棒总规范》SJ11118《SJ/T11118-1997 8GHz数字微波通信设备通用技术条件》SJ11193《SJ/T11193-1998 微型数字电子计算机多媒体性能要求》SJ11201《SJ/T11201-1999 2000年符合性测试规范》SJ11228《SJ/T11228-2000 数字集群移动通信系统体制》SJ11229《SJ/T11229-2001 手持式个人信息处理设备中文应用程序接口规范》 SJ11240《SJ11240-2001 信息技术:汉字编码字符集(基本集)12点阵字型》 SJ11241《SJ11241-2001 信息技术:汉字编码字符集(基本集)14点阵字型》 SJ11242.1《SJ11242.1-2001 信息技术:通用多八位编码字符集(Ⅰ区)汉字64点阵字型:宋体》SJ11242.2《SJ11242.2-2001 信息技术:通用多八位编码字符集(Ⅰ区)汉字64点阵字型:黑体》SJ11242.3《SJ11242.3-2001 信息技术:通用多八位编码字符集(Ⅰ区)汉字64点阵字型:楷体》SJ11242.4《SJ11242.4-2001 信息技术:通用多八位编码字符集(Ⅰ区)汉字64点阵字型:仿宋体》SJ11243《SJ/T11243-2001触摸查询一体机通用规范》SJ11262《SJ/T11262-2002 互联网机顶盒通用规范》SJ11270《SJ/T11270-2002 信息技术鼠标器通用规范》SJ11271《SJ/T11271-2002 数字域名规范》SJ11289《SJ/Z11289-2003 面向对象领域工程指南》SJ20657《SJ 20657-1998 特警通信系统通用规范》SJ20682《SJ 20682-1998 Lx波段固态脉冲功率模块通用规范》SJ20686《SJ 20686-1998 中继信令处理模块通用规范》SJ20723《SJ20723-1998 GG6001型脉冲信号光电隔离组件详细规范》SJ20724《SJ20724-1998 GG240型多路高速数据光电隔离组件详细规范》SJ20726《SJ 20726-1999 GPS定时接收设备通用规范》SJ20727《SJ 20727-1999 舰载数字光接收机通用规范》SJ20728《SJ 20728-1999 低频/甚低频发射机通用规范》SJ20771《SJ20771-2000 军用通信系统音质的MOS评价法》SJ20772《SJ20772-2000 军用激光大气通信机规范》SJ20773《SJ20773-2000 野战光缆开口引接系统通用规范》SJ20775《SJ20775-2000 军用磁光盘通用规范》SJ20822《SJ20822-2002 信息技术:软件维护》SJ20823《SJ20823-2002 信息技术:软件生存周期过程配置管理》SJ20839《SJ20839-2002 长波地波传输道计算方法》SJ20840《SJ20840-2002 三军协同无线电通信系统与相关网系互连互通要求》 SJ20841《SJ20841-2002 II型无线双工移动通信系统保密设备接口要求》SJ20849《SJ20849-2002 军用通信网络管理系统通用安全要求》SJ20850《SJ20850-2002 军用UHF移动通信系统数字加密体制》SJ20851《SJ20851-2002 军用数字保密自动电话网密钥管理中心通用规范》 SJ20852《SJ20852-2002 军用通信系统音质MOS评价测试语音数据库》SJ20854《SJ20854-2002 数字视频光纤传输系统通用规范》SJ20855《SJ20855-2002 波分复及光纤通信系统通用规范》SJ20856《SJ20856-2002 高频串行调制解调器互操作性和性能要求》SJ20860《SJ 20860-2003 军用光缆引接设备通用规范》SJ20861《SJ 20861-2003 军用SDHB传送网技术规范》SJ20862《SJ 20862-2003 中长波战术电台通用规范》SJ20863《SJ 20863-2003 数字车内通话器通用规范》SJ20864《SJ 20864-2003 有源抗噪声送受话器组通用规范》SJ20876《SJ 20876-2003 军用测试接收机通用规范》SJ20880《SJ 20880-2003 军用信息传送安全标记》SJ20881《SJ 20881-2003 安全证书管理系统技术要求》SJ20932《SJ 20932-2005 超短波定向机通用规范》WJ431《WJ/Z431-2005 单兵综合作战信息系统安全设计要求》GA216.1《GA 216.1-1999 计算机信息系统安全产品部件:安全功能检测》GA243《GA243-2000 计算机病毒防治产品评级准则》GA715《GA/T 715-2007 公安信息系统应用开发管理规范》GA387《GA/T387-2002 计算机信息系统安全等级保护 网络技术要求》GA388《GA/T388-2002 计算机信息系统安全等级保护 操作系统技术要求》GA389《GA/T389-2002 计算机信息系统安全等级保护 数据库管理系统技术要求》GA390《GA/T390-2002 计算机信息系统安全等级保护 通用技术条件》GA391《GA/T391-2002 计算机信息系统安全等级保护 管理要求》GA609《GA/T 609-2006 互联网信息服务系统 安全保护技术措施 信息代码》 GA610《GA/T 610-2006 互联网信息服务系统 安全保护技术措施 数据格式》 GA611《GA/T 611-2006 互联网信息服务系统 安全保护技术措施技术要求》 GA612《GA/T 612-2006 互联网信息服务系统 安全保护技术措施通讯标准》 GA658《GA 658.1~10-2006 互联网公共上网服务场所信息安全管理系统 信息代码》GA659《GA 659.1~659.9-2006 互联网公共上网服务场所 信息安全管理系统 数据交换格式》GA660《GA 660-2006 互联网公共上网服务场所信息安全管理系统 上网服务场所端功能要求》GA661《GA 661-2006 互联网公共上网服务场所信息安全管理系统 远程通讯端功能要求》GA662《GA 662-2006 互联网公共上网服务场所信息安全管理系统上网服务场所端接口技术要求》GA663《GA 663-2006 互联网公共上网服务场所信息安全管理系统远程通讯端接口技术要求》GA671《GA/T 671-2006 信息安全技术 终端计算机系统安全等级技术要求》 GA672《GA/T 672-2006 信息安全技术 终端计算机系统安全等级评估准则》 GA681《GA/T 681-2007 信息安全技术 网关安全技术要求》GA682《GA/T 682-2006 信息安全技术 路由器安全技术要求》GA683《GA/T 683-2007 信息安全技术 防火墙安全技术要求》GA684《GA/T 684-2007 信息安全技术 交换器安全技术要求》GA685《GA/T 685-2007 信息安全技术 交换器安全评估准则》GA686《GA/T 686-2007 信息安全技术 虚拟专用网安全技术要求》GA687《GA/T 687-2007 信息安全技术 公钥基础设施安全技术要求》GA695《GA/T 695-2007 信息安全技术 网络通讯安全审计数据留存功能要求》 GA696《GA/T 696-2007 信息安全技术 单机防入侵产品安全功能要求》GA697《GA/T 697-2007 信息安全技术 静态网页恢复产品安全功能要求》GA698《GA/T 698-2007 信息安全技术 信息过滤产品安全功能要求》GA699《GA/T 699-2007 信息安全技术 计算机网络入侵报警通讯交换技术要求》GA700《GA/T 700-2007 信息安全技术 计算机网络入侵分级要求》GA708《GA/T 708-2007 信息安全技术 信息系统安全等级保护体系框架》GA709《GA/T 709-2007 信息安全技术 信息系统安全等级保护基本模型》GA710《GA/T 710-2007 信息安全技术 信息系统安全等级保护基本配置》GA711《GA/T 711-2007 信息安全技术 应用软件系统安全等级保护通用技术指南》GA712《GA/T 712-2007 信息安全技术 应用软件系统安全等级保护通用测试指南》GA713《GA/T 713-2007 信息安全技术 信息系统安全管理测评》GA849《GA 849-2009 移动终端病毒防治产品评级准则》GA855《GA/T 855-2009 公安信息网络课件制作规范》GA986《GA/T 986-2012 信息安全技术 反垃圾邮件产品安全技术要求》GA987《GA/T 987-2012 信息安全技术 USB移动储存管理系统安全技术要求》 GA988《GA/T 988-2012 信息安全技术 文件加密产品安全技术要求》。
一种基于AMBE-2000芯片的低速声码器设计李振国1,李 鑫2,牛占冀3(1.中国电子科技集团公司第五十四研究所,河北石家庄050081;2.驻5460厂军事代表室,河北石家庄050081;31河北省信息产业厅,河北石家庄050051)摘 要 AMBE-2000是一款性能优良的低速话音编解码芯片。
论述了一种基于AMBE-2000芯片的低速声码器的设计方法。
简要介绍了AMBE-2000的组成、功能特点和通信格式,分析了声码器的设计要点,阐述了声码器的工作原理,并给出了声码器的硬件、软件设计及实现方法。
该声码器在实际应用中获得了满意效果。
关键词 声码器;AMBE-2000;语音压缩中图分类号 TN912 文献标识码 A 文章编号 1003-3106(2008)01-0055-03The Design of a Low Data Rate Vocoder Based on AMBE-2000ChipLI Zhen -guo 1,LI Xin 2,NI U Zhan -ji 3(1.The 54th Resea rch Institute o f CETC,Shijia z huang H ebei 050081,China;itary Delegate Chamber o f 5460Factory ,Shi j iazhuang H ebei 050081,China;3.De p artment of In f ormation Industry o f Hebei Pr ovince,Shijiazhuang Hebei 050051,China)Abstract AMBE-2000vocoder chip is a high -performance speech compression coder in low data rate.T he design of a low data rate vocoder based on AMBE-2000chip is introduced.The components 、features 、com municational format about AMBE -2000chip is briefly introduced.The key points to desi gn vocoder are described.And the theory of operation is expounded.Finally the design and i mplementationmethods of hardware and software are presen ted.This vocoder has achieved satisfactory results in practical application.Key words vocoder;AMBE-2000;speech compression收稿日期:2007-05-200 引言在数字通信系统中,语音通信很重要,其性能直接关系到整个通信系统的工作质量。
一种基于EEMD域统计模型的话音激活检测算法1吴其前2张雄伟1解放军理工大学通信工程学院南京2100072解放军理工大学指挥自动化学院南京210007摘要:该文提出了一种基于EEMD域统计模型的话音激活检测算法。
算法首先利用总体平均经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)对带噪语音进行分解,得到信号的本征模式函数(Intrinsic Mode Function,IMF)分量,选择与原信号的相关性最高的两个分量相加组成主分量;然后对主分量进行频域分解,引入统计模型,求出EEMD 域特征参数;最后利用噪声与语音的EEMD域特征参数的不同来进行语音激活检测。
实验结果表明,在不同信噪比情况下,本文算法性能优于目前常用的V AD算法,特别在噪声强度大时体现出明显的优势。
关键词:话音激活检测;经验模式分解;总体平均经验模式分解;EEMD域统计模型中图分类号:TN 912.3 文献标示码:文章编号:A V oice Activity Detection Algorithm Based on EnsembleEmpirical Mode Decomposition Domain Statistical Model1Wu Qi-qian, 2Zhang Xiong-wei1Institute of Communication Engineering, PLA Univ. of Sci. & Tech., Nanjing, 210007 2Institute of Command Automation, PLA Univ. of Sci. & Tech., Nanjing, 210007 Abstract: A Voice Activity Detection algorithm based on ensemble empirical mode decomposition domain statistical model is presented in this paper.The noisy speech is decomposed into Intrinsic Mode Function (IMF) components by using EEMD method. Two IMF components with the higher correlation with original speech are added to calculate statistical model characteristic parameter.The decision of the speech/noise is made by comparing characteristic parameter with threshold. The proposed V AD algorithm is tested on speech signals under various noise conditions with several SNRs. The results of experiments show that the proposed V AD algorithm outperforms some standard V AD algorithms, especially under low SNR noisy condition.Key words: Voice Activity Detection (V AD); Empirical Mode Decomposition (EMD); Ensemble Empirical Mode Decomposition (EEMD); EEMD domain statistical model引言话音激活检测(V oice Activity Detection, V AD)是一种重要的语音信号处理技术,其有效性直接影响语音处理系统的性能,如语音编码中编码速率控制、语音识别系统的识别率等。
pdt对讲机声码器对于PDT(专业数字通信技术)对讲机声码器的功能和特点,这篇文章将从以下几个方面进行讨论。
一、什么是PDT对讲机声码器?PDT对讲机声码器是一种专门用于PDT对讲机的重要部件。
它负责将声音信号转化为数字信号,并通过数字通信网络进行传输。
声码器的主要作用是将人声转化为可压缩、可传输的数字音频数据,确保语音信息的高效传输和保真。
二、PDT对讲机声码器的特点1. 高效传输:PDT对讲机声码器采用高效的音频压缩算法,能够将声音信号压缩至最小,并保持语音质量的同时进行传输。
这种特点使得PDT对讲机在有限的网络带宽下实现清晰、稳定的语音通信。
2. 抗干扰能力强:PDT对讲机声码器采用先进的数字信号处理技术,能够对环境噪声进行降噪处理,并抑制背景杂音,从而提高语音信号的清晰度和可辨度。
即使在嘈杂的环境中,对讲机用户仍然能够清晰地传递语音信息。
3. 低功耗设计:PDT对讲机声码器采用了低功耗的设计方案,能够在相对较低的电量下保持长时间的通信。
这使得PDT对讲机在工作时间上得到有效延长,提高了用户的使用体验。
4. 多功能支持:PDT对讲机声码器还支持多种功能,如语音激活(VOX)功能、组呼/单呼功能、低功耗模式等。
这些功能丰富了对讲机的使用方式,能够满足不同领域和场景的通信需求。
三、PDT对讲机声码器的应用领域1. 公共安全领域:PDT对讲机声码器在公安、消防、交通等领域有广泛的应用。
其高效的语音传输和抗干扰能力,确保了紧急情况下的高效通信和指挥。
2. 企事业单位:PDT对讲机声码器在企事业单位的工作通信中也得到应用。
员工可以通过对讲机进行实时语音交流,提高工作效率和协作能力。
3. 物流、运输行业:PDT对讲机声码器可以在物流、运输行业中用于车队调度、货物追踪等方面的通信需求。
其高效稳定的语音传输能力为企业提供了便利和效益。
4. 建筑工地、工矿企业:PDT对讲机声码器在建筑工地和工矿企业的安全监控中起到了重要作用。
语音信号处理的发展历程及发展趋势201105028摘要:文章简要介绍了语音信号处理这一分支学科形成和发展的历史过程.指出了它在现代信息科学技术中的地位和作用.介绍了语音信号处理在应用领域的一些重要课题,如语音的低速率编码,语音的规则合成和文-语转换系统,语音识别和人-机语音对话等,这些仍然是当前研究的热点.文章最后展望了语音信号处理的发展前景,指出在这个领域还有很多难题等待人们去研究探索.关键词语音信号处理,语音低速编码,语音识别发展历程声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科.它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等),听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音的清晰度和可懂度等.当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础.语言声学的发展和电子学、计算机科学有着非常密切的关系.在它发展的过程中,有过几次飞跃.第一次飞跃是1907年电子管的发明和1920年无线电广播的出现.因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量.从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门.第二次飞跃应该是在20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为数字信号后,能够送进计算机.这样就可以用数字计算方法,对语音信号进行处理和加工.例如频谱分析可以用傅里叶变换或快速傅里叶变换(FFT)实现,数字滤波器可以用差分方程实现.在这个基础上,逐渐形成了一门新学科)))语音信号处理.它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题.在信息科学中占有很重要的地位.语音信号处理在信息科学中的地位和作用众所周知,语音在人类社会中起了非常重要的作用.在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字.近年来,普通电话、移动电话和互联网已经普及到家庭.在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献.再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了.人们早就希望用语音指挥机器,机器的执行情况也能用语音回答.这在某些领域已经部分地实现了.目前计算机芯片的集成度和运算能力,每18个月就提高一倍,而成本又不断降低,因此,它已经广泛地应用于在社会生产和生活的各个方面.然而计算机接收信息的外围设备和主机相比,要逊色得多.能说能听的计算机还不能普遍使用.也就是说:语音识别、语音理解和语音合成等课题,还有很多理论问题和技术问题没有解决,需要继续深入研究.科学家们深入研究后认为,要解决人-机语音对话这样的难题,做出真正实用的语音机器,必须开展跨学科的研究,如声学、语言学、语音学、生理学、数字信号处理、人工智能和计算机科学等.要真正赋予微电脑以语言功能,必须彻底了解语言是如何产生、感知,以及人类的语言通信是如何进行的?图1给出了从语言产生到语音感知全过程中的几个重要环节.从图1可以看到,要使这个问题得到满意的解决,需要深入研究人类发声器官和听觉器官机理,建立能反映客观真实情况的物理模型和数学模型.图1人类语音通信的过程语音信号所包含的信息量[1,2]语音信号中到底包含了多少信息量,需要多少比特才能够无失真地表示它们,这对于语音编码、语音合成和语音识别的研究都是很有用的.但是这也是一个很复杂的问题,它涉及到对于信号失真的评价.下面列举了三种评价,其中两种是由弗累雷格(F lanagan)给出的,另一种是由约翰斯登(Johnston)提出的.它们是建立在下面三种不同的失真评价上:(1)语音信号的信噪比;(2)接收语音信号时,信号由听觉外围处理以后,人们在主观上能够感觉到的失真;(3)人在接收语音信号时,不正确接收音素的数目和正确接收音素数目的比值.在所有的三种情况下,所得到的比特率是首先选择能够接受的失真等级,然后,计算该失真等级所需的比特率.在测量音素失真的情况下(第三种),可以把接受的失真级设置为零.如果所有的音素都能正确传送,就是所期望的最好性能.假设相邻的音素之间不出现相关,则平均信息速率很容易计算.按照仙农(Shannon)的信息理论,每一个符号需要的平均比特数为I=-2()log i ii p p (1)式中pi 为每一个符号i 的概率,英语有42个音素(符号),汉语的音素有48个,其中辅音22个,单元音13个,复元音13个.在正常情况下,谈话速率大约是每秒钟10个音素.使用音素出现的相对概率表,能够计算出每一个符号的信息量大约是5bit,得到的全部信息速率大约是50bit/s.请注意,自然的静寂也包含在这个比特速率内.而系统仅仅传送音素序列,缺少发音人声音的个性特征(也就是声带的形状和对声道的描述).在另一方面,相邻音素之间的相关也被忽视了.考虑到这些音素后,把这一估计作为语音信息所需要的比特率低限,或者人们感知语音信号的最低要求,还是有一些道理的.其次,把语音信号的信噪比作为失真评价(第一种),在不考虑编码器结构的情况下,可以得到语音信号信息速率的高限.在具有电话带宽的信号中,估计最大信息速率时,必须要考虑合理的噪声等级.令P是信号的平均功率,W是信号的带宽,G是附加的噪声信号功率,假设附加的噪声信号是高斯白噪声,令C表示最大的信息速率,由仙农的理论,对于包含了附加噪声G的信号,C可由下式计算.2(1)log pc wG=+ (2) 在上式中,如果语音信号的带宽为3.5kHz,信噪比(SNR)为30dB,则它所包含的最大信息速率为35kb/s.这是语音所需要的信息速率的上限.在上面的公式中,对于语音信号所存在的短期相关和长期相关,都没有考虑.而信号中所存在的结构性相关,就意味着冗余度.它能够在传输之前除去,从而降低信息速率.下面所讨论的估计,要包括人的感知和理解.声音信号由人的听觉器官处理以后,它的信息率就降低了.声音信号的某些特点,会由于人听觉系统的掩蔽效应而不能被注意到.例如在一个特有频率上的低幅度纯音,可以被一个靠近该频率更响的纯音掩蔽.在除去了人们在感觉上不能区分的特点以后,再来考虑信号的信息速率是恰当的.如果把理解失真评价的阈值也设置到零(不能听到失真).则首先计算语音信号的傅里叶变换,然后按频带进行计算,要求的量化器步长应该使量化噪声在掩蔽阈值以下.掩蔽阈值和频带宽度都是建立在听觉系统知识的基础上,所得到的信息速率估计称为理解熵.对于电话带宽的语音,理解熵估计大约为10kb/s.这是对于连续语音的,相当于执行透明的语音编码所需的平均速率.上面讨论表明,人的感知和理解在语音处理中有很重要的作用.语音信号的中、低速率编码[1,5,6]按照语音产生的简化模型,可以构成低速率的语音编码器(又称声码器).最早的模拟声码器和以后的数字声码器LPC-10、LPC-10e都是根据这个模型设计的.激励源使用二元激励,在同一时间只能用一种激励方式,即白噪声或脉冲串.声道传输函数可用一组带通滤波器模拟,在更多的情况下,是把声门脉冲形状、嘴辐射和声道等因素结合起来,用一个全极点滤波器模拟.因为人的发声器官是机械系统,运动缓慢,传送这些慢变化的控制参量,可以用速率比较低的数码.它和传送波形所需要的数码相比,能够压缩许多倍,不但节约了频带,而且有利于保密.在第二次世界大战中,美国和德国都使用过这种保密电话.随着电子技术的进步,这种声码器经过精心设计和不断优化,在 2.4kbit/s的速率下,可以产生完全可懂的语音.美国军方和北大西洋公约组织一直用作保密电话.但音质和自然度很差,其原因是二元激励模型有局限性,不符合客观实际情况.科学家们经过深入研究,提出了合成-分析法(AbS),比较满意地解决了这个问题.AbS方法并不是惟一的用于语音编码,而是估计和验证领域的通用技术.它的基本概念如下:首先,假设产生信号模型的方式如图3所示.这个模型受一些参量控制,改变这些参量就能够产生不同的观测信号.要使所表示的模型和真正的信号模型有同样的形式,能够使用一个试探程序或误差程序,采用有规则的方法改变模型参量,从而可以找到一组参量,它所产生的合成信号,能够以最小误差与真正的信号相匹配(假设模型开始就是有效的).因此,当计算到这样的匹配时,模型的参量就可以认为是真正信号的参量.图2使用合成-分析法的语音编码方框图(采用AbS-LPC编码方案)AbS-LPC方案(使用合成―分析法的线性预测编码)的基本操作如下:(1)将LPC和音调滤波器(时-变滤波器)的内容,初始化到预定的值(通常是置到零或低量级无规噪声).(2)缓冲一帧语音样品,在该帧上使用LPC分析算法,计算出一组LPC系数.(3)使用计算得到的LPC系数,构成一个反滤波器,计算非量化的残差信号.(4)为了有效地分析激励信号,把分析帧再分为整数子帧.对于每一个子帧:(i)计算音调滤波器(长期预测器)的参量,也就是延迟S和与它联系的标量因子 .(ii)按照图2中的级联滤波器,则最优的辅助激励可以按照合成语音和原始语音之间的最小误差方法确定.(5)最后的合成语音,是由最优辅助激励通过具有初始存储内容的级联滤波器产生的(初始存储内容是从以前子帧合成过程中残留下来的).这种方案运算量很大,但话音质量好,数码率也可以做得很低(16k)4.8kbit/s).它有多种类型.例如多脉冲激励线性预测编码器(MPE-LPC)、规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性预测编码器(CELP)等.多带激励线性预测编码器,也使用合成-分析法(AbS),改进了二元激励.它能够在2.4kbit/s的速率下,得到较好的语音质量.所有这些语音编码器都能够在单一DSP(数字信号处理器)芯片上实现.由于DSP芯片的运算能力不断增强,而价格又逐年降低,它不仅用于保密通信,而且广泛用于卫星通信、移动通信、短波通信和网络电话等很多方面.语音的规则合成和文-语转换系统[3,7]语音的规则合成是通过语音学规则产生语音的机器.该系统内存储了较小的语音单位(如音素、双音素、半音节和音节)的声学参数,以及由音素组成音节,再由音节组成词和句子的各种规则.当输入文字时,该系统利用规则自动地将它们转换为连续的语音.目前,汉语合成技术大体上可以分为两类:时域合成或称语音的波形合成这种方案通常以音节为合成单位.汉语共有1280多个单音节,可以从引导句中截取,经过适当的数据压缩后,构成一个汉语合成音节库.使用时,根据要求的信息,从语音库中取出音节的波形数据,串接或编辑到一起,再经过重音、韵律、持续时间等修正,就可以输出连续的合成语音.20世纪80年代末,提出了基音同步叠加算法(PSOLA算法),使得在波形数据的编辑过程中,能够方便地改变音调、重音、持续时间等物理特征,从而在组成词和句子时,能够方便地加入相应的规则,并转换为自然的、连续的语音.这种语音合成技术,占用计算机的存储量较大,但合成语音清晰自然,目前使用比较广泛.频域合成或语音的参量合成仍以单音节、半音节为基本合成单元,首先从引导句中截取这些单音节、半音节的波形,并进行分析,计算出它们的物理特征参数.主要的特征参数有:控制音强的幅度、控制音高(音调)的基频、控制音色的频谱(可以使用短时傅里叶变换或线性预测系数等).线性预测系数也可以转换为共振峰频率和带宽,这样从语音学的观点考虑,更为直观.这些参数经过编码压缩后,组成语音合成的参数库.使用时,根据要求的信息,从参数库中取出相应的特征参数,经过编辑和连接,并加入语音合成所需要的规则,顺序送入到语音合成器.在合成器里,这些参数控制着电子发声器官的相应部分,能够产生连续的语音.这种合成技术所需要的存储器容量较小,但运算比较复杂.为了改进合成语音的质量,也可以使用音调同步重叠相加的方法.由于可以控制的参数比较多,而且和实验语音学联系紧密,也有很好的发展前景.目前的语音质量正在不断地得到改善.文-语转换系统是上述语音合成系统的进一步发展.它输入的文字串是通常的文本字串,系统中的文本分析器根据发音词典,将输入的文字串分解为带有属性标记的词和相应的读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级、语句结构、语调、以及各种停顿等.这样,文字串就转换为发出声音的代码串,合成系统就可以据此合成出具有抑、扬、顿、挫和不同语气的语句.目前,这种系统已经被广泛地应用于社会生活的各个方面.例如自动报时、自动报气象、电话咨询系统,以及用电话转发电子邮件等.然而,人类的语音交流是涉及语言学、社会学、心理学、生理学等领域的复杂处理过程.要使文-语转换系统能和播音员一样,具有情感并有很高的自然度,仍然是非常困难的问题.它要求计算机对所朗读的文本,要有正确的理解.这就要求计算机内要有一个丰富的知识库,还要有相当强的智能.这是目前还没有解决的问题,有待今后深入研究.语音识别和人-机语音对话[6]语音识别包括发音人识别和语音识别两大类:发音人识别要从一群发音人中,找出预知他(她)声音的某一特定人.它又分为与文本有关和与文本无关两种,前者要求发音人所说的文本是预先指定的,而后者要求文本是任意的和不受任何限制的,很显然,后者的难度更大.语音识别有多种分类方法:按照词汇量的大小可划分为:小词汇语音识别(词数通常小于100);中等词汇语音识别(词数在100到500之间);大词汇语音识别(词数在500以上).目前已经做到好几万词汇.按照发音的方式,可分为孤立词语音识别和连续语音识别.孤立词识别是指发音者每次只说一个词或一条命令,它在词汇表中作为一个独立的识别单元,由识别系统来识别.连续语音识别是指发音人按照正常自然的发音方式发音,由识别系统来识别.按照服务对象可划分为:依赖于发音人和不依赖于发音人两种,即特定人工作方式和非特定人工作方式.凡识别系统只针对一个用户,即按照某一个特定发音人的特征而设计的,称为特定人工作方式.识别系统是根据很多发音人的共有特征设计的,允许任何人使用,则称为非特定人工作方式.这些分类方法也可组合起来,形成多种语音识别系统.很显然,特定人、小词汇、孤立词语音识别系统是最简单的方式,比较容易实现.而非特定人、大词汇、连续语音识别则很复杂,虽然,目前国内有很多大学和研究所开发了可供表演的样机,美国IBM公司还推出了汉语连续语音识别软件.但是都还存在很多问题,没有得到推广和普及,未取得商业上的成功.特定人、小词汇、孤立词语音识别系统大都采用简单的模板匹配原理.在训练阶段,用户将词汇表中的每一个词依次说一遍,并将它的特征矢量序列存入模板库中.识别时,将输入语音的特征矢量,依次与模板库中的每一个模板作相似度比较,相似度最高者就是识别的结果.但由于发音人在训练时和识别时,他们的说话速度不会完全一致,使得识别率难以提高,而使用动态时间伸缩算法(简称DTW算法),可以动态调整说话速度,从而找到最佳的模式匹配,使识别率提高.这种系统的识别率能达到98%以上,目前已经在一些自控装置、机器人等领域中应用.非特定人、大词汇、连续语音识别系统的原理如图3所示.在预处理单元中,除了反混叠滤波器、模数转换器、自动增益控制外,还包括自动分段和识别基元选择.对于汉语,识别基元可用音素即声母-韵母,或者使用考虑了受前后发音影响的声母-韵母变体.一般地说,有限词汇量的识别基元应该选得大一些,而无限词汇量的识别基元应该选得小一些.声学参数可用倒谱系数,或者使用模拟人耳听觉特性的MEL谱,还需要加上能量、过零率、音调等特征.测度估计通常使用隐马尔柯夫模型(HMM).连续发音时,每一个音节甚至每一个音素都会受前后发音的影响,使得它的物理特征发生很大变化.再者,人们的发声器官都会有一些差异,不同音人发出同一声音的物理特征,会有一些不同.这对于人的听觉器官来说,分辨语音信号的共性和个性,听懂和理解都能满意解决.但对计算机来说,却是很难的课题.目前最广泛使用的算法是隐马尔柯夫模型(HMM).马尔柯夫过程是一个双重的随机过程,人的语言过程就是这样一种双重随机过程.语言本身是一个可观察的随机序列,它是由大脑(不可观察的)根据语言需要和语法知识(状态选择)所发音素(或音节、词、句)的参数流.所以语音信号的模型可以用马尔柯夫模型来描述.马尔柯夫模型定义为K=F(A,B,P).在这三个模型参数中,P是事件(语音的参数流,可表示为矢量序列)的初始概率分布,B是某状态下事件的概率分布,它就是外界观察到的事件符号的概率,A是状态转移概率的分布.图3非特定人、大词汇、连续语音识别系统的原理图使用HMM作语音识别时,假设要识别的音素(或音节、词)有V个,为每一个音素(或音节、词)设计一个HMM模型.先用VQ技术设计一个尺寸为M(M为观察的符号数)的码本,然后用该音素(或音节、词)多次发音的语音数据,对它进行训练,得到最优的模型参数.与此同时,用最佳准则得到状态数为N的状态转移序列.最后,对实际要识别的语音信号用上面训练所得到的模型进行评估,吻合概率最大的那个音素(或音节、词)就是识别的结果.结论和展望本文简要介绍了‘语音信号处理’这一分支学科的形成过程.并指出了它在现代信息科学中的地位.有一些基础的理论问题和技术问题还在继续研究和发展中.在信息科学的应用领域,例如语音的低速率编码,语音的规则合成和文-语转换系统,语音识别和人-机语音对话等,仍然是当前研究的热点.有的已经解决了,有的只是部分解决了,还有很多难题等待我们去研究探索.这些难题是:(1)听觉器官的物理模型和数学表示,目前还没有一套权威的理论和成熟算法.虽然有多种设计,但实验结果都不够充分.特别是从听觉前端处理器所得到的波形特征,经过更高一级的处理,最后的信息速率只有50 bit/s,这是人们理解和感知语音信号的最低限度.而这一过程在人脑中是怎样完成的?目前还不太清楚.它是一个非常复杂的问题,需要进一步研究探索.(2)语音识别的子课题很多,其中最难的是非特定人、大词汇量、连续语音识别.近年来这个课题已经取得很大的进展.世界上有很多权威实验室推出了可供表演的识别系统,有些公司还推出了商品.但是由于不同人的发音差别很大,再加上环境噪声等影响,系统的正确识别率和顽健性离实际使用还有很大距离.目前,人们所期望的口呼打字机或听写机还没有得到推广.(3)语音的规则合成和文-语转换系统,已经取得了一批可以实用的成果.然而要使它能和优秀的播音员一样,具有不同风格、情感、很高的自然度,仍然是非常困难的问题.关键技术是如何根据一段文章的语境和语义,自动生成计算机可以识别的韵律符号.这涉及到机器对自然语音的理解,目前还在研究中.(4)语音增强包括从强噪声中提取语音信号,或者从几个人同时说话的混合波形中,分离出各自的语音信号,这类研究虽然理论上有一些算法,但效果均不理想,还没有达到可以实用的水平。
音频编码标准发展历程及压缩技术优化音频编码是指将模拟音频信号转换为数字音频信号的过程,并将该信号压缩以减小存储空间或传输带宽的技术。
随着数字音频技术的快速发展,音频编码标准也不断演进和优化。
本文将介绍音频编码标准的发展历程以及针对压缩技术的优化方法。
1. 音频编码标准发展历程1.1 PCM编码PCM(脉冲编码调制)是最早应用于音频编码的技术之一。
它将每一秒钟的音频信号切分成多个等间隔的时刻,然后将每个时刻的音频幅度量化成一个数字数值。
PCM编码简单可靠,但由于其较高的数据量,无法满足对存储空间和传输带宽的要求。
1.2 MPEG音频编码标准MPEG(Moving Picture Experts Group)是一个制定视频和音频编码标准的国际组织。
MPEG音频编码标准包括MPEG-1、MPEG-2和MPEG-4。
MPEG-1音频编码标准于1992年发布,它利用了感知编码原理,剔除了人耳听不到的音频信号,从而实现了高压缩比。
MPEG-2音频编码标准在MPEG-1的基础上进行了改进,增加了多通道音频编码功能。
MPEG-4音频编码标准则引入了更先进的压缩算法和多媒体功能。
1.3 其他音频编码标准除了MPEG音频编码标准,还有许多其他标准应用于不同领域,如AC-3(Dolby Digital)用于DVD和电视广播,AAC(Advanced Audio Coding)用于多媒体应用,FLAC(Free Lossless Audio Codec)用于无损音频压缩等。
2. 音频编码压缩技术优化2.1 感知编码感知编码是音频编码中常用的一种方法,它利用人耳对不同音频信号的听觉敏感度的不同,对音频信号进行剔除和量化,从而达到更高的压缩率。
感知编码技术基于声学模型,通过分析和模拟人耳对音频信号的感知特性,确定哪些信号对于人耳是不可察觉的,然后将这些信号从编码中排除。
2.2 预测编码预测编码是音频编码中的一种常见技术,它利用音频信号中的统计规律进行压缩。
低速率语音编码的实现与仿真摘要:近年来,随着通信与计算机网络的飞速发展,低速率语音编码以其低速率且良好的编码质量等特点,在数字通信中越来越受到重视。
低速率语音编码方案主要是基于LPC-10,混合激励线性预测(MELP),多带激励编码(MBE),正弦变换编码(SCI)等。
它们大都能够工作在2.4kbps速率下。
本文对LPC-10进行了研究,以LPC模型为原型,通过联合帧、矢量量化及参数内插等技术,实现了一种低速率语音编码算法。
归一化互相关函数基音检测算法(NCCFPDA)的引入,提高了清浊音判决的准确率;线谱对(LSP)参数的量化特性,降低了误差率,提高了算法的稳健性;固定矢量量化码本(LSPVQ码本)提高了量化精度并降低了传输码率;联合帧的应用,较好的平衡了低码率与语音质量严重恶化的矛盾,而与参数内插技术的结合更加降低了传输码率。
通过该算法获得了比较满意的合成语音,并在MATLAB中得到实现,验证了算法的可行性。
关键词:语音编码,基音检测,LSP,MATLAB目录第一章绪论 (4)1.1引言 (4)1.2低速率语音编码研究现状 (4)1.3常用低速率语音编码算法 (5)1.3本文主要研究内容及章节安排 (6)第二章 LPC-10编码算法 (7)2.1LPC-10编码算法的理论依据 (7)2.1.1 语音信号的产生模型 (7)2.1.2语音信号的线性预测分析[8] (7)2.2LPC-10编解码算法的分析[9] (8)2.2.1 LPC-10编码算法分析 (8)2.2.2 计算声道滤波参数RC (9)2.2.3 计算增益RMS (10)2.2.4 提取基音周期和检测清/浊音 (10)2.2.5 参数编码与解码 (10)2.2.6 LPC-10解码算法分析 (10)2.3LPC-10声码器存在的问题[9] (11)第三章 900BIT/S极低速率编码算法 (12)3.1算法概述 (12)3.2编码原理 (13)3.2.1预处理 (13)3.2.2线性预测分析 (14)3.2.3 NCCFPDA算法[12] (16)3.2.4 矢量量化[9] (19)3.2.5参数编码 (20)3.3解码原理 (20)3.3.1参数解码 (21)3.3.2合成语音 (21)3.4本章小节 (22)第四章低速率语音编解码算法的仿真实现 (23)4.1仿真实验平台 (23)4.2编解码器的工作流程 (23)4.2语音编码仿真结果 (24)第五章结论与展望 (25)5.1结论 (25)5.2展望 (25)参考文献 (26)第一章绪论1.1引言语音通信是一种非常重要且普遍的通信方式。
语音编码技术郑尚坤31102105摘要:语音编码为信源编码,是将模拟语音信号转变为数字信号以便在信道中传输。
在数字电话和数据通信的容量日益增长过程中,人们不希望这样的增长而降低传送语音信号的质量,所以对语音信号进行压缩编码是提高通信容量的重要措施之一。
主要对语音编码技术的特点进行了分析与研究, 对波形编码、声码器和混合编码三种主要的语音编码进行了比较,并阐述了各种编码的特性和发展趋势。
关键字:语音编码数字信号模拟波形引言:语音编码是将模拟语音信号数字化的手段. 语音信号数字化后, 可以作为数字数据来传输、存储或处理, 因而具有一般数字信号的优点.1 语音编码方法1. 1 波形编码波形编码针对语音波形进行的, 这种方法在降低量化每个语音样本比特数的同时又保持了相对良好的语音质量. 波形编码包括时域编码和频域编码.①时域编码. 时域编码主要有脉冲编码调制( PCM) 、增量调制(ΔM) 、自适应差分脉码调制(ADPCM) 、自适应增量调制(ADM) 、自适应预测编码(APC) 等.线性PCM 是用同等的量化级进行量化, 没有利用声音的性质, 所以信息没有得到压缩, 对数PCM 利用了语音信号幅度的统计特性, 对幅度按对数变换压缩, 将压缩的结果作线性编码, 在接收端解码时, 按指数扩展, 这种方法在数字电话通信中得到了广泛的应用, 现有的PCM 采用编码速率为64 kbps 的A 律μ律对数压扩方法. 由于对数PCM 广泛应用于通信系统中, 而线性PCM 可以直接进行二进制运算, 所以一般速率低于64 kbps 的语音编码系统多是先进行对数PCMO线性PCM 变换后, 再采用信号处理器进行语音信号数字处理. PCM 最大缺点是数码率高, 在传输时所占频带较宽.差分脉码调制(DPCM) 是根据相邻采样值的差值信号进行编码, ADPCM 是在DPCM 的基础上发展起来的, 其量化器与预测器的参数能根据输入信号的统计特性自适应于最佳或接近于最佳参数状态. ADPCM 是语音编码中复杂程度较低的一种方法.增量调制是根据信号的瞬值是否增大或减小, 即根据增量编码, 用一位二进制码序列对模拟信号进行编码. 这种方法简单, 实现容易, 但由于量阶固定, 量化噪声功率固定, 所以当信号下降时, 信噪比(SNR) 下降. 为了改进这种方法的动态范围, 引进了自适应技术, 让量阶的大小随输入信号的统计特性变化而变, 这种方法称为自适应增量调制(ADM) . CVSD 是让量阶的大小随音节时间间隔(5~20 ms) 中信号平均斜率变化, 信号的斜率是通过输出连“0”或连“1”来检测的. ADM 编码器简易, 同步简单, 成本低, 是数字移动通信中较好的一种语音编码方法. APC 是根据语音的统计特性, 由过去的采样值精确预测出当前样值的一种编码方法, 它是通过自适应预测器来提高预测精度的, 预测得越精确, 编码速率越低, 这种方法可以做到低速率(10 kbps 以下) , 并且音质与电话音质相似.②频域编码. 频域编码方式主要有子带编码(SBC) 和自适应变换编码(ATC)SBC 是利用带通滤波器将语音频带分成若干子带, 并且分别进行采样、编码,编码方式可以用ADPCM 或ADM , SBC 速率可以达到9. 6 kbps . 可变SBC 可使子带的设计不固定, 而是随共振峰变化, 使编码速率进一步提高, 这种方式在速率为4. 8 kbps 时可具有相当于7. 2 kbps 的固定SBC 的语音质量.ATC 是先将语音信号在时间上分段, 每一段信号一般有64~512 个采样, 再将每段时域语音数据经正交变换转换到频域, 得到相应的各组频域系数, 然后分别对每一组系数的每个分量单独量化、编码和传输, 在接收端解码得到的每组系数再进行频域至时域的反变换, 恢复时段信号, 最后将各时段连接成语音信号, ATC 编码在速率为12~16 kbps 可得到优质语音.1. 2 声码器所谓声码器是根据发音模型, 分析并提取语音信号的特征参数, 且只传送能够合成语音信息的参数, 不需要再现原语音的波形, 典型的声码器有谱带式、共振峰式和按线性预测分析(L PC) 所组成的声码器等.谱带式声码器在发送语音信号的三种信息, 其中一种信息是使语音信号通过10~20 个并联带通滤波器, 通过检波得到信号的包络值, 再用50 Hz 或30 Hz 的帧频传送, 另一种信息是声带音调, 通过音调控制器从语音中分析出基音频率, 并送出相应的电压信号, 第三种信息是语音中的“浊”音、“清”音, 将上述信息通过采样、量化、编码, 合成发送出去, 在接收端设置蜂音, 噪声发生器, 产生周期脉冲, 其频率与基音相等, 发生器的输出由浊音、清音检测控制开关的交替通断, 再被发送端送来的相应信息调制, 就得到合成的语音, 其速率可压缩到2. 4 kbps .共振峰声码器是利用语音频带中的共振峰信息进行编码, 它的速率可压缩到1. 2 kbps , 这种方法存在的问题是要准确地提取共振峰的频率比较困难.线性预测声码器(L PC) 是一种比较有实用价值的声码器, 典型的方法如美国国家安全局于1975 年及1986 年选定的线性预测编码(L PC —10) 及改进型线性预测编码(L PC —10E) , 数码率为2. 4 kbps , 用10 阶线性预测的方法提取声道参数, 采用区分浊音和清音的二元激励, 清音用白噪声和浊音用周期为基音周期的脉冲序列合成语音, 用这种方法传输, 还原出来的语音的清晰度、可懂度仍很高.1. 3 混合编码混合编码是近年来出现的一种新的编码方法, 这种方法在保留参数模型技术精华的基础上, 应用波形编码准则去优化激励信号, 从而在4. 8~9. 6 kbps 的数码率上获得了较高质量的合成语音, 其代表是一类称之为“按分析合成” (ABS) 的方法, 采用听觉加权技术, 在闭环的基础上寻找主观意义上失真最小的激励矢量. 由于采用的激励信号模型不同, 这类方法派生出多种新的编码方法, 都能在9. 6 kbps 码率上获得较高的话音质量. 典型的方法有剩余激励线性预测编码(REL P) , 多脉冲激励线性预测编码(MPC) , 码激励线性预测编码(CEL P) . MPC 采用数目有限, 非均匀间隔的冲激序列作为激励, 在REL P 中信号同样为冲激序列, 但其间隔为常数, 所以REL P 除需指明序列的起始位置外, 无需对每一个脉冲位置进行描述, 而MPC 需用脉冲的位置与幅度来描述. CEL P 采用矢量量化技术, 将代表语音段的矢量构成一庞大的码本中的地址, 而不是传送N 维样值序列, 再用矢量去激励声道. CEL P 能高效地压缩数码率, 但是, 建立码本搜索码字的运算量也比较大.2 语音编码方法比较语音质量与编码速率的关系如图1 所示.64 kbps 的PCM 编码方法可以得到高质量的语音, 利用波形相关性及频谱特性可以将其压缩到24~32 kbps , 进一步在利用音调结构的同时, 进行噪声整形, 可以压缩到9. 6 kbps . 但是如果降低的比特数超过上述数目, 语音质量将急剧劣化, 声码器可以使比特数减少较多, 但语音质量欠佳. 混合编码将波形码和声码器结合起来, 在编码速率较低的情况下获得较好语音质量.3 语音编码技术进展从目前语音编码技术发展来看, CEL P 比MPL PC 的复杂度更高, 码速率更低, 可以在4. 8 kbps左右的码速率获得较高质量的语音,是当今中、低速率语音编码的主流技术之一,在对其改善质量,降低复杂度,减少编码延迟等方面都提出了不少新方法,使CEL P 在实践中得到广泛应用,许多国际标准化组织及机构纷纷将这一编码方案作为语音编码标准,语音编码今后的研究重点将逐步转向更低速率的编码方法.CEL P 类算法是目前中低速语音压缩编码的主流算法之一,许多国际标准化组织及机构将这一方案纳为语音编码标准,目前已形成的标准有:美国政府标准FS1016 (4. 8 kbps CEL P ) , 北美数字蜂窝语音编码IS54 (8 kbps VSRL P) , 日本数字蜂窝语音编码JDC (6. 7 kbps CEL P ) 等.参考文献:[1 ] 曹志刚, 钱亚生. 现代通信原理[M] . 北京: 清华大学出版社, 1992.[2 ] 谢希仁. 计算机网络[M] . 北京: 电子工业出版社, 1999.[3 ] 朱光华. 移动通信技术[M] . 杭州: 浙江科学技术出版社, 1991.[4 ] 吴乐南. 数据压缩的原理与应用[M] . 北京: 电子工业出版社, 1995.。
声码器技术的发展学院:班级:姓名:学号:指导教师:摘要语音编解码技术的迅速发展,使中低速率语音编码技术广泛应用于现代移动通信。
声码器特别适用于以低比特率为首要条件的通信场合,较典型的应用包括标准电话信道上的保密语言传输和小型化数字存贮器中的语言存贮。
在某些长距离无线通信中,人们宁可使用声码器而不愿意用目前音质低劣的模拟传输系统。
目前,质量令人满意的实用语言编码器的比特率下限为2400bps,这个比特率是由线性预测编码和通道话音编码获得的。
现在正在进行大量的研究工作,其目的是要获得低于2400bps的比特率而乂要使语言质量不下降或下降很少。
这个研究课题是一个既基本乂具有实用价值的课题。
声码器正向着速率更低、语音质量更好,延时更短,算法更复杂,抗干扰能力更强,带宽要求更小的方向发展。
本文主要介绍国外声码器的发展概况、若干种低速声码器的技术原理和结果,并推测未來的工作。
关键字:声码器发展、线性预测编码、低比特率—、引言自首次成功地尝试建造一台能够模拟人声的机器以来,己经大约有两百年了。
两百年中中人们曾建造了各种各样的这类机器,成功的情况也各不相同,年轻时的贝尔和他的兄弟就曾致力于建造一台这样的机器,但取得实质性的进展却是电子系统问世之后的事。
1939年纽约世界博览会上,一项叫做“语言合成器”(Voder)的发明引起了轰动。
这个语言合成器实质上是一台电子器件,它通过完全的电子方式分析人类的语言,然后乂把它综合出来。
该系统后來称之为“声码器”(话音编码器),声码器标志了语言编码新纪元的开始,声码器这个名词也一直沿用至今而作为一大类系统的属名o近年来,声码器的研究变得日益重要了,这在很大程度上取决于数字化技术和语言编码的大规模应用。
语言数字化有两种根本不同的途径,一种称之为波形编码,另一种称之为参数编码。
实现参数编码的硬件就是声码器。
目前,降低比特率是一个有重大意义的研究课题,为降低声码器的比特率而釆取的所有方式都是利用了如下三个基本思想中的一个、两个或三个。
1)时间多余度压缩:由于在稳态条件下,帧与帧之间的语言特性相同,所以利用帧重复或其它的差分编码技术便可大大地降低比特率。
2)参数组压缩:只要新参数组对于量化并不比原参数组更敏感,则采用比较节省的参数组便能压缩比特率。
另外,采用比较好的模型如共振峰模型,或应用某些变换Karhunen-Loeve变换,可以获得较少的参数组。
3)改进的量化技术:在以低比特率语言传输为目的而广泛开展语言分析技术研究的同时,量化问题也受到了一定程度的重视。
量化问题的研究大体上局限于单独地量化每个参数的技术。
基本的量化理论、模式匹配的若干研究以及最近对于LPC矢量量化的研究都证明参数矢量量化具有奇迹般地降低比特率的潜力。
现在国外的低速声码器研究工作非常活跃,美国、西欧和日本的许多公司、研究所,还有苏联都在进行这方面探索,有的已获得令人鼓舞的计算机模拟结果, 有的己制成实验室样机。
当然,在研究中不可避免地遇到了这样或那样不易克服的困难,距实际应用还有一定的差距。
二.低速声码器的发展概况在低速声码器研究中,共振峰声码器由于其比特率低曾一度备受青睐。
共振峰声码器的概念最早是由J. L. Flanagan在一九五六年提出來的,并作成试验性质的共振峰声码器样机,效果虽然不太令人满意,但却证明其前途是广阔的。
五十年代末和六十年代初,英国、美国和日本的许多公司相继开始研究共振峰声码器,其研究和开发工作绝大部分都是在政府资助下以军用为目的进行的。
如美国通用电气公司在一九六一年研制出共振峰声码器模型,其比特率为1350bps, 单音清晰度达90%,另外如美国的Melpar. Phil。
通用动力公司及英国的信号研究与开发中心等也曾在六十年代初研制成速率为1000bps以下的共振峰声码器,英国航空部通信研究所研制的800bps共振峰声码器的清晰度和可懂度都比较好。
但是共振峰声码器的研究没有获得如通道声码器那样的成功,因此它作为实验室里的古董多于作为实际的通信装置。
七十年代初,大家都公认共振峰声码器概念由于其低比特率编码而颇具吸引力,但也有它的实际困难。
除有通道声码器的基音跟踪和有无声判决间题之外, 共振峰声码器还有恰当的共振峰跟踪、共振峰识别、静止期后的共振峰跟踪搜索及综合,特别是辅音产生的综合等题,这样就使得声码器的潜在用户转而对这种低比特率的话音编码方法持怀疑态度。
Moye可作为这种怀疑者的例子,他说: “虽然这种说法肯定要受到挑战,但人们却可以说从实用数字语言传输观点來看,共振峰分析行不通。
”其它人如日本的电子和通信工程研究所的Y. Kato等也表明了类似的观点。
七十年代初还报道有另外三种比较有代表性的极低速话音数字化装置,碰巧它们的速率均为600bpso 一是Flanagan在1970年实验论证的一种以600bps 速率工作的共振峰跟踪声码器,他用唱片表演了他的成果。
由于试验句子包括了所有的元音、双元音和流音,所以这是600bps话音数字化装置的一个非常有限的试验论证。
虽然如此,但其综合语言却非常清晰,表明共振峰声码法在话音分析综合方面具有潜力。
第二种600bps的话音数字化装置则是由空军剑桥研究实验室Caldwell Smith等研制成的,该装置采用模式匹配技术把通道声码器的输出分类,系广泛的研究和开发工作的结果。
其单一讲话人诊断韵律试验(DRT)的清晰度得分92% ,这对于600bps的话音编码系统可谓是一个非常高的得分。
第三种600bps的系统则是Mel par公司所研制共振峰声码器的一种修正型。
一九七六年底,美国海军研究实验室G. S. Kang和D. C. Coulter等研制成了一种线性预测共振峰声码器。
它可以600bps的速率传输语言,这个数据率还不到原始语言脉码调制传输率的百分之一。
这项研究工作是在迫切需要极低速话音数字化装置以满足当时海军某些话音通信需要的前提进行的。
600bps系统的综合语言较原始语言有某些损失,但其清晰度之高却足以允许在某些特定的军用通信场合下使用该系统。
法国也进行了低速音码器的研究。
一九七五年法国的Thomson-CSF公司电信部当年的《Thomson-CSF评论》第七卷第四期上报道,他们研制成一种叫做“Ciphon”的声码器,即峰线声码器。
这种声码器与其说是试图模拟声源的生理特性,还不如说是致力于模拟人耳并辨别“清晰的声学特性”。
它有两个主要特性:一是能以数字形式传输频带覆盖为300、3400Hz的电话信号,且恢复话音质量好,懂度也较高。
二是根据编码的复杂性,可获得两种速率:处理时延不超过100ms时为1200bps;处理时延不超过300ms时为600bps。
尽管和其它类型声码器相比原理不大一样,但峰线声码器在技术上却可与它们媲美。
与标准的通道声码器相比,它可以低得多的速率提供优质语言,与共振峰声码器相比,它运算简单。
这样,从实用角度出发,可以考虑实时工作设备的实现。
峰线声码器可用于无线(尤其是HF)和有线通信。
借助于相应的调制解调器,便可在交换网电话线路上作全双工通信。
一九八二年五月在巴黎IEEE的ASSP国标年会上,西徳赫兹通信技术研究所 A. Lacroix和B. Makel提出了一种比特率极低的声码器方案。
该声码器以标准LPC 声码器为基础,由4、5节变长管组成声管模型,采用带附加近似的自相关分析法计算变长声管模型的参数,取得了极好的效果。
非正式收听测试证明,1000bps 的声码语言质量儿乎与标准的2400bpsLPC声码器的话音相同,但这个结果仅限于某个人讲话或某个句子。
一九八一年,美国麻省理工学院Lincoln实验室R. J. Mcaulay提出了一种采用自适应子带振峰分析的低速声码器。
该分析技术通过将二阶频谱与己测得频谱的单个子带适配來避免共振峰跟踪所固有的某些问题,综合釆用高质量的通道声码器进行,所以调制器的增益由有声语言的共振峰分析包络抽样或无声语言的低阶LPC包络抽样來调整。
根据固定带宽准则,只传输三个谐振段的每个段的频率和增益,再加上对数编码和帧充填法,便获得了800bps的可懂声码器语言。
更仔细地分配6个传输参数的比特数,还能获得更低的比特率。
例如Flanagan就建议可用4比特编码第一和第二共振峰,而第三共振峰只需3比特。
他还觉得3比特足够编码共振峰幅度,因此,基音和有无声判决用6比特,帧充填控制用3比特,则用28比特编码有声语言谱就应当是能办到的,在帧速率为25Hz时就相当于只有700bps的速率。
如果采用更加先进的帧充填插入算法,则可以获得更低的速率。
其它如一九八一年TI公司(得克萨斯仪器公司)的Knn - Shan Lin和Ying L. Tsui 经过对LPC反射系数特性的仔细研究,揭示了利用高效参数编码及最佳化帧重复进一步压缩数据率的可能性。
他们在探讨中使用了利用对数面积比距离量度的经改进的成本函数及能量加权函数,并在保持频谱失真不超出预定门限值灼同时利用动态规划法使帧长度最大。
利用TI公司的TMS 5100或TMS 5200实施方案,便可以800^850bps 的速率获得高质量的语言。
再如一九八年TRW公司国防和空间系统研究组的T. E. Carter. D. M. Dlugos及D. C. Le Doux等研制成了一种800bps的实时话音编码系统。
该系统由TRW公司生产的微程控话音处理器(采用11K字存贮器)实现,DRT和其它的测试结果表明其可懂度和清晰度都令人满意,完全可以用于话音通信。
这种低数据率是通过一种高编码2400bps 的LPC参数的算法获得的,这种新的算法运用了其它类型通信系统所常见的若干数据压缩方案以获取所需的数据率,这些方案包括自适应DPCM、K.L.变换、统计最住量化和动态比特分配等。
其未來的工作应是进一步改进算法,提高性能, 其最大的潜力可能在于用各种比特分配方案进行试验。
由于要实施系统,对基本2400bpsLPC算法也还须进行若干改进。
这些都会直接反映到800bps语言的质量之中。
有一种方法,刚提出來的时候叫做“模式匹配声码器”,后來又称作“矢量量化”,就是在谱形参数组合的全部可能范围内仅仅选择极小部分。
在通道声码器、LPC声码器和共振峰声码器中,谱形参数所确定的多维空间占据极不均匀, 大部分空间根本未利用。
根据某种恰当的准则,选择最接近有限数量的存贮谱形的目前输入,便可能用大约每帧10 ~ 12比特而不是每帧40比特來较好地确定谱形。
通道声码器和LPC声码器的这种类型的系统己在实验室里证明可釆用400 ~ 800bps的数字速率。
在七十年代后期,以A. H. Gray Jr.、R. M. Gray和J. D. Markel为首的一些电信研究专家在高效编码LPC参数方面作出了重大突破。