MOS 语音高质量评测指标地介绍
- 格式:doc
- 大小:463.60 KB
- 文档页数:11
mos(mean opinion score)平均意见得分
摘要:
1.MOS 的定义和用途
2.MOS 的计算方法和示例
3.MOS 的优缺点和应用场景
正文:
MOS(Mean Opinion Score,平均意见得分)是一种用于衡量语音质量的指标。
它通过计算接收者对语音的喜好程度来得出得分,以此来评估语音的质量。
MOS 通常用于语音编解码性能测试、语音传输质量评估等领域。
MOS 的计算方法是在实验中让多个测试者给语音打分,一般采用1~5 分,1 分代表“质量很差”,5 分代表“质量非常好”。
然后,将所有分数相加,再除以测试者的数量,得到平均分数。
例如,如果10 个测试者给某个语音片段打了分,总分为45 分,那么MOS 就是4.5 分。
MOS 的优点在于简单易懂,能够直观地反映出语音的质量。
然而,它也存在一些缺点。
首先,MOS 受主观因素影响较大,不同的测试者可能会给出不同的分数。
其次,MOS 只能反映出语音的优劣,不能具体描述语音的质量问题。
MOS 的应用场景非常广泛。
在语音通信领域,它可以用于评估网络中的语音质量,帮助运营商优化网络参数。
在语音识别领域,MOS 可以用于评估识别系统的性能,帮助研究人员提高识别准确率。
此外,MOS 还可以用于语音合成、音频处理等领域。
总之,MOS 作为一种衡量语音质量的指标,具有简单、直观的优点,但也存在主观性强、不能具体描述质量问题的缺点。
∙PSQM /PSQM+:Perceptual Speed Quality Measure,感知通话质量测量[2],定义在ITU-T P.861当中;∙PESQ:Perceptual E v aluation of Speed Quality,感知评估通话质量测量[3],定义在ITU-T P.862当中;∙P A MS:Perceptual Analysis Measurement System,感知分析测量,英国电信定义;∙E-Model:本文将重点介绍的测量方法,该方法定义在ITU-T G.107当中。
PSQM和P A MS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。
PESQ结合了PSQM和P A MS的优势,并针对MOS和MOS-LQ(Listening Quality)计算方法做了修改。
最开始这些方法被用于测量编码算法和在实验室分析设备问题,如分析电话机的语音质量;并且都是基于PSTN网络,因此并不适合应用到VoIP网络系统的语音测量。
这些方法主要缺点体现在:∙不是基于IP网络的方法,不能反应IP网络的衰减问题,如网络传输中的Delay和Jitter和P ac ket Loss 等问题;∙不能说明End-to-E nd的网络延迟,而其他过多的延迟因素影响到了MOS值;∙只能输出在任何时间内的某一方向的语音质量,不是真实通话中的双向结果;∙无法模拟多个或成百上千个重复同步的通话。
而在ITU-T G.107中定义的E-Model方法则很好地克服了上述问题,因此非常适合VoIP语音质量的测量。
E-Model模型是欧洲电信标准协会(ETSI)开发的,本来用作电信网络的传输规划工具,但该模型也在VoIP服务质量测量中广泛使用,在下面的章节中将对该模型进行详细的介绍。
此外,有必要指出,平均主观值MOS是广泛认同的语音质量标准。
实用文档MOS语音质量评测指标的介绍- 目录 -1前言 ...................................................................................................... 错误!未定义书签。
2语音质量测量和量化标准的发展史......................................................... 错误!未定义书签。
3MOS语音质量量化的定义..................................................................... 错误!未定义书签。
For personal use only in study and research; not for commercial use4PESQ评估方法的介绍 ............................................................................ 错误!未定义书签。
4.1PESQ的基本原理........................................................................... 错误!未定义书签。
4.2PESQ的应用.................................................................................. 错误!未定义书签。
For personal use only in study and research; not for commercial use5MOS的测试方法..................................................................................... 错误!未定义书签。
语音质量(MOS)专题分析PESQ MOS专题分析:目前话音质量分析主要采用语音感知MOS指标、下行误码率指标(rxqual)。
其中语音感知MOS指标包含了下行误码率、切换、时延等多种因素。
本专题主要针对第一阶段的数据对MOS指标进行专题分析。
表:GSM第一阶段人工和自动路测MOS指标对比表备注:2G中,人工测试均为华星的MOS盒;3G和自动路测均采用鼎利的MOS盒。
一鼎利MOS盒分析,五网质量对比情况);华星仪表为直接PESQ值(2.2),三者之间有一定的关系,但并不一致。
从上图分析可以看出,指标排名如下:1)以2.5为标准,质量高低分别为联通W网、电信C网、联通GSM网络、移动GSM网络、移动TD-SCDMA网络;2)以3.3分为标准,质量高低分别为联通W网络、电信C网络、移动GSM网络、联通GSM网络、移动TD-SCDMA网络;3)以大于3.5为标准,质量高低分别为联通W网络、移动GSM网咯、联通GSM网络、移动TD-SCDMA网络、电信CDMA网络;结论:从自动路测(鼎利)的PESQ计算方法上看,电信CDMA网络话音质量高于3.5分的比例较低,但是高于3.3和3.1分的比例很高。
按照大于3.3(或者3.3以下)的比例,CDMA的MOS质量要好于联通和移动的GSM网络。
二华星MOS和分析,三网对比测试情况;结论:从flywire(华星)的PESQ计算方法上看,电信CDMA网络话音质量一直很低,在各个分数段均明显低于联通和移动的GSM网络。
三PESQ MOS指标测试研究从1..5.1和1.5.2可以看出,华星PESQ MOS的分值和鼎利PESQ MOS分值相差较大。
特别是CDMA 的MOS分值,在对比中的排名完全相反。
因此我们对PESQ的MOS算法进行了专题测试和研究分析。
1.研究结论如下:1.不同测试厂家的MOS盒使用不同标准,如自动路测采用P862.1标准,分数为PESQ-LQ;华星flywire MOS算法采用P862.2标准,所选值为PESQ score;3G测试MOS盒采用P862.2标准,选值为PESQ-MOS分值;2.语音样本格式不同,华星采用PCM格式,鼎利使用WAV格式,规范定义采用WAV格式(两者相差微小);3.MOS盒硬件实现方式不同:MOS盒测试CDMA差别大,其中华星MOS盒原因为MOS到手机两端均为耳塞插孔,失真较大;而鼎利MOS盒在CDMAMOS评估的时候采用模块化的设计,失真较少。
常用MOS分评价方法
经常在语音增强方面的文章中看到有说用MOS分来判定增强效果的方法,今天查了下具体实现过程
常用MOS分评价方法包括主观MOS分评价和客观MOS分评价: 主观MOS分评价方法
ITU-TP.800 和P.830定义MOS(Mean Opinion Score)的主观测试方法: 由不同的人分别对原始语料和经过系统处理后有衰退的语料进行主观感觉对比,得出MOS分,最后求平均值,这是一种纯粹主观的定性测量。
ITU-T选取在很宽的听觉范围内,不同年龄、性别和语言组别的相同得分,作出语音质量的判别标准。
ITU-T 建议 MOS值的评分范围为[1,2,3,4,5]共5个等级:MOS分值主观意见听觉感受
4-5分优秀(excelent) 很好,听的清楚,延迟很小,交流流畅
3-4分良好(good) 稍差,听的清楚,延迟小,交流欠缺顺畅,有点杂音
2-3分一般(fair) 还可以,听不太清,有一定延迟,可以交流
1-2分差(poor) 勉强,听不太清,延迟较大,交流重复多次1分以下很差(bad) 极差,听不懂,延迟大,交流不通畅
而客观MOS评价则采用ITU-T P.862建议书提供的PSEQ方法,由专门的仪器(如Agilent的VQT测试仪)或软件进行测试。
- 目录 -1前言 (3)2语音质量测量和量化标准的发展史 (3)3MOS语音质量量化的定义 (4)4PESQ评估方法的介绍 (4)4.1PESQ的基本原理 (4)4.2PESQ的应用 (5)5MOS的测试方法 (5)5.1NEMO Outdoor (5)5.1.1测试系统的要求 (6)5.1.2测试系统的解决方案 (6)5.2NetQual (7)5.2.1测试系统的组成 (8)5.2.2语音质量的测试 (9)5.3TEMS INVESTIGATION (10)6MOS测量的优化建议............................................................................... 错误!未定义书签。
1前言直到现在,GSM网络的最主要基本业务仍然是语音业务,语音质量的好坏直接影响用户对于运营商的选择;另外,随着移动网络发展的日趋成熟,客户对网络的性能质量要求逐渐提高。
因此,根据电信网络服务质量(QoS) 的要求,建立一套客观评估标准,如何更好地对网络的语音服务质量进行定量分析和测量就逐步摆在了网络运营商的面前。
语音服务质量的测量与通常移动网络的信号质量测量有很大的区别。
在GSM网络中,对无线质量的评价是通过RxQual 来实现的。
但是语音在GSM网络中是经过信道及信源编码的,而RxQual 只能描述空中接口的传输质量,并不能给出终端用户对无线网络的实际感受,语音服务质量的测量将更好地反映用户对网络的真实感受情况。
本文将就语音QoS的测量方法进行较深入地讨论。
2 语音质量测量和量化标准的发展史目前语音QOS测试方法主要有主观测试方法和客观测试方法两种,ITU-TP.800定义了MOS的主观测试方法,客观测试方法主要有:PSQM、PSQM+、PESQ等。
其中ITU-TP.862(PESQ)是目前ITU推荐用于端对端网络语音质量测试的方法。
早期语音质量的评测主要采用主观评分的方式:调查用户被要求按照1-5分对接收到的电话语音质量进行评分(5表示最好,1表示最差)。
语音MOS的概念是什么
MOS的概念是什么
MOS (Mean Opinion Score )
指标定义:GSM语音质量=【RxQuality0-5级样本点数/总样本点数】*【在RxQuality0-5级占比范围内的MOS大于等于2.8样本点数/总样本点数】
MOS(Mean Opinion Score),是目前使用得最广泛的一种主观评定方法,评分范围是1到5分:
(1) 5(优),不察觉失真;
(2) 4(良),刚察觉失真,但不讨厌;
(3) 3(中),察觉失真,稍微讨厌;
(4) 2(差),讨厌,但不令人反感;
(5) 1(劣),极其讨厌,令人反感.
GSM网络优化中MOS值怎么定义?GSM网络测试时的参数分析!
语音的还原程度,单通就是1.0,一般是3-4之间,3以下较差,和无线信道编码方式有很大关系.。
关于MOS的说明mos 主要是语音质量测试,就是拨打测试收集的语音和mos仪表里的语音模版对比,1-5分,5分为最高,主要反映的是用户的感知度,一般和信号的强度,干扰情况,切换情况有关,厂家很多的网域,比较有名气的有华星,鼎利,同友,日讯等公司的MOS,MOS都是基于PESQ国际算法来打分的.测试时MOS连接到笔记本上,然后把两部测试手机连接到MOS盒上,一部作为主叫,一部作为被叫.使用上述公司自带的测试软件采集数据.采集完数据后使用后台进行打分,考察网络的通话效果.1引言随着无线网络技术的不断发展和网络的逐渐普及,客户对网络的整体语音服务质量的要求不断提高,可以说,语音质量的好坏直接影响着用户对于运营商的选择。
因此,根据移动通信网络服务质量的要求,建立一套语音质量客观评价标准,来更好地对网络语音服务质量进行定量分析和评估,就逐步成为移动网络运营商在网络建设过程中必须考虑的关键问题。
最早的语音质量评测标准仅是基于无线指标的(RxQual),但实际语音在传输中会经过无线、传输、交换、路由等多个节点,任一环节出现问题都会导致用户语音感知差,仅仅考虑无线指标是无法发现和定位语音质量问题的,于是基于用户感知的语音质量评价方法逐渐成为用户语音服务质量评测的最主要标准。
2MOS语音质量评价方法常用的语音质量评价方法分为主观评价和客观评价。
早期语音质量的评价方式是凭主观的,人们在打通电话之后通过人耳来感知语音质量的好坏。
1996年国际ITU组织在ITU-T P.800和P.830建议书开始制订相关的评测标准:MOS(Mean Opinion Score)测试。
它是一种主观测试方法,将用户接听和感知语音质量的行为进行调研和量化,由不同的调查用户分别对原始标准语音和经过无线网传播后的衰退声音进行主观感受对比,评出MOS分值,见表1。
表1MOS分值对照表级别MOS分值用户满意度优 5.0非常好,听得很清楚,无失真感,无延迟感良4.0稍差,听得清楚,延迟小,有点杂音中 3.0还可以,听不太清楚,有一定延迟,有杂音,有失真差2.0勉强,听不太清,有较大杂音或断续,失真严重劣 1.0极差,静音或完全听不清楚,杂音很大注:对于GSM网络而言,评分在3以上即为比较好的语音质量。
∙PSQM /PSQM+:Perceptual Speed Quality Measure,感知通话质量测量[2],定义在ITU-T P.861当中;∙PESQ:Perceptual E v aluation of Speed Quality,感知评估通话质量测量[3],定义在ITU-T P.862当中;∙P A MS:Perceptual Analysis Measurement System,感知分析测量,英国电信定义;∙E-Model:本文将重点介绍的测量方法,该方法定义在ITU-T G.107当中。
PSQM和P A MS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。
PESQ结合了PSQM和P A MS的优势,并针对MOS和MOS-LQ(Listening Quality)计算方法做了修改。
最开始这些方法被用于测量编码算法和在实验室分析设备问题,如分析电话机的语音质量;并且都是基于PSTN网络,因此并不适合应用到VoIP网络系统的语音测量。
这些方法主要缺点体现在:∙不是基于IP网络的方法,不能反应IP网络的衰减问题,如网络传输中的Delay和Jitter和P ac ket Loss 等问题;∙不能说明End-to-E nd的网络延迟,而其他过多的延迟因素影响到了MOS值;∙只能输出在任何时间内的某一方向的语音质量,不是真实通话中的双向结果;∙无法模拟多个或成百上千个重复同步的通话。
而在ITU-T G.107中定义的E-Model方法则很好地克服了上述问题,因此非常适合VoIP语音质量的测量。
E-Model模型是欧洲电信标准协会(ETSI)开发的,本来用作电信网络的传输规划工具,但该模型也在VoIP服务质量测量中广泛使用,在下面的章节中将对该模型进行详细的介绍。
此外,有必要指出,平均主观值MOS是广泛认同的语音质量标准。
实用文档- 目录 -1前言 ...................................................................................................... 错误!未定义书签。
2语音质量测量和量化标准的发展史......................................................... 错误!未定义书签。
3MOS语音质量量化的定义..................................................................... 错误!未定义书签。
For personal use only in study and research; not for commercial use4PESQ评估方法的介绍 ............................................................................ 错误!未定义书签。
4.1PESQ的基本原理........................................................................... 错误!未定义书签。
4.2PESQ的应用.................................................................................. 错误!未定义书签。
For personal use only in study and research; not for commercial use5MOS的测试方法..................................................................................... 错误!未定义书签。
5.1NEMO Outdoor ............................................................................... 错误!未定义书签。
5.1.1测试系统的要求 ....................................................................... 错误!未定义书签。
For personal use only in study and research; not for commercial use5.1.2测试系统的解决方案 ................................................................ 错误!未定义书签。
5.2NetQual .......................................................................................... 错误!未定义书签。
5.2.1测试系统的组成 ....................................................................... 错误!未定义书签。
5.2.2语音质量的测试 ....................................................................... 错误!未定义书签。
5.3TEMS INVESTIGATION ................................................................. 错误!未定义书签。
6MOS测量的优化建议............................................................................ 错误!未定义书签。
1前言直到现在,GSM网络的最主要基本业务仍然是语音业务,语音质量的好坏直接影响用户对于运营商的选择;另外,随着移动网络发展的日趋成熟,客户对网络的性能质量要求逐渐提高。
因此,根据电信网络服务质量(QoS) 的要求,建立一套客观评估标准,如何更好地对网络的语音服务质量进行定量分析和测量就逐步摆在了网络运营商的面前。
语音服务质量的测量与通常移动网络的信号质量测量有很大的区别。
在GSM网络中,对无线质量的评价是通过RxQual 来实现的。
但是语音在GSM网络中是经过信道及信源编码的,而RxQual 只能描述空中接口的传输质量,并不能给出终端用户对无线网络的实际感受,语音服务质量的测量将更好地反映用户对网络的真实感受情况。
本文将就语音QoS的测量方法进行较深入地讨论。
2 语音质量测量和量化标准的发展史目前语音QOS测试方法主要有主观测试方法和客观测试方法两种,ITU-TP.800定义了MOS的主观测试方法,客观测试方法主要有:PSQM、PSQM+、PESQ等。
其中ITU-TP.862(PESQ)是目前ITU推荐用于端对端网络语音质量测试的方法。
早期语音质量的评测主要采用主观评分的方式:调查用户被要求按照1-5分对接收到的电话语音质量进行评分(5表示最好,1表示最差)。
这种主观判断评测法由ITU组织在1996年8月制定为标准,其P.800标准详细定义了这种MOS评测法(Mean Opinion Score)。
但是,这个主观方法存在的最大问题就是,在现实中,让一组人接听语音和评价语音的质量实现起来是非常困难和昂贵的,因此人们在不断的探索能进行客观测量的方法。
MOS方法是一种模糊的评估方法,因此ITU-T在建议P.861中又提出了PSQM (Perceptual Speech Quality Measurement)方法。
根据P.861提出的PSQM方法,语音质量的测试开始摆脱原始的人类主观评估,而开始使用计算机产生的波型文件(Wave File),通过比较其通过通信网络传输前后的变化计算出PSQM中相对应的级别及好坏程度。
ITU组织在2001年2月发布了新的语音传输质量测量标准:P.862 — PESQ (Perceptual Evaluation of Speech Quality)。
PESQ是评价各类端对端网络条件和语音编码与解码的最新标准。
PESQ可以根据一些感知标准来客观地评价语音信号的质量,从而提供可以完全量化的语音质量衡量方法,而这些衡量标准又是与人类对语音质量的感受完全吻合的。
PESQ由荷兰的KPN公司和英国电信公司协作开发的,比其前身PSQM (Perceptual Speech Quality Measurement, ITU-T P.861)有了长足的进展。
下面的介绍将主要针对PESQ测量方法进行更多详细的阐述。
3 MOS语音质量量化的定义发明电话开始,语音质量的测量方式是凭主观的,人们摘起一个电话,然后由人耳来感知语音的好坏,这个方法是被广泛认同的。
基于该主观评测,人类接听和感知语音质量的行为被调研和量化,接听何种级别质量的语音,得到多少平均主观值MOS,人类将起主要的反映作用。
采用MOS(平均主观评分)方法评价语音质量,评测方法在ITU-TP.800中定义。
MOS值的定义如下表所示:一个平均主观值MOS是4或更高,被认为是比较好的语音质量,而若平均主观值MOS低于3.6,则大部分接听者不能满意这个语音质量。
平均主观值MOS是广泛认同的语音质量量化标准;因此,无论采用何种方法所有测量方法都必须将它们的结果最终对应到平均主观值MOS,如实际中采用到的PESQ(语音质量的知觉评估)客观测试方法。
4 PESQ评估方法的介绍PSEQ工具是用来计算语音样本的MOS-LQO (Mean Opinion Score – Listening Quality Objective)值,PESQ把在信号传输通过设备时提取的输出信号与参照信号进行比较计算出差异值。
一般情况下,输出信号和参照信号的差异性越大,计算出的MOS参数值就越低。
实验证明其计算结果和主观评分结果是基本一致的。
4.1 PESQ的基本原理下图是PESQ模型的结构图:如图所示,开始时两个信号都通过电平调整,再用输入滤波器模拟标准电话听筒进行滤波(FFT)。
然后对这两个信号进行时间上的校准,并通过听觉变换,这个变换包括对系统中线性滤波和增益变化的补偿和均衡。
为了获得主观和客观之间的较高关联性,再输入到认知模型,最后得到质量评分。
电平调整:各个待测系统的增益一般差别比较大,而且对参考信号没有确定的校准电平,所以有必要将二者调整到统一、恒定的电平上来。
输入滤波:感知模型必须考虑人听到的实际声音,在PESQ中使用了滤波器,起到一个模拟电话手柄的作用。
时间调整和校准:假设系统的时延是分段恒定的,在静默期间和说话期间时延可以改变,对每一段话语都给出延时估计,然后得出听觉变换要用的一帧一帧的延时。
PESQ中的听觉变换是一个生理声学模型,它对信号进行时间-频率映射,以及频率和强度偏差处理,变化成时-频可感知的响度表达。
扰动处理:计算参考信号与失真信号间的绝对差值。
计算PESQ的得分:处理的结果经认知模型,最终给出了客观语音质量的评估得分。
PESQ的值一般落在1.0和4.5之间,在失真情况严重时,得分可能会低于1.0,但这种情况很少见。
4.2 PESQ的应用PSQM只用在窄带编解码测量中,并且对某些类型的编解码、背景噪声和端到端的影响,比如滤波和时延变化不能给出精确的预测值。
而PESQ关注到端对端的行为影响,并包括滤波和变化时延造成的影响。
PESQ能提供比PSQM与主观意见更好的相关性,它能在很广范的条件下对主观质量给出了很精确的预测,包括背景噪声、模拟滤波、和时延变化等。
ITU-T相关的资料已证明PESQ是能够给出精确的预测值的。
PESQ适用于目前所知的所有移动通信技术,如GSM、CDMA、3G等,以及编码器语音质量的测量,如AMR。
5 MOS的测试方法现阶段,许多主流测试仪器厂商先后推出了支持PESQ测量算法的测试系统,下面将主要介绍几个厂家的MOS测量相关解决方案。
5.1 NEMO OutdoorNEMO Outdoor测试系统通过增加简单的语音模块,可以支持最新的PESQ语音质量测量。
NEMO的语音模块实现发送和接收测试样本,并完成测试终端间相互同步的需求。
5.1.1 测试系统的要求测试终端方面,要求测试手机应该有一个模拟音频接口,刚开始时仅NOKIA6650手机支持,但如果其他DKU-2类型手机的测试软件能将音频信号连接到手机底部的连接端,那么这些手机也将支持语音质量的测试。