移动通信网络语音质量评定指标MOS的含义
- 格式:docx
- 大小:28.32 KB
- 文档页数:3
mos的测量方法-回复什么是MOS 测量方法MOS(Mean Opinion Score)是一种主观质量评估方法,用于评估多媒体通信系统中的语音和视频质量。
它是根据被试者对特定业务质量的满意程度来进行评分的。
MOS 测量方法将人类主观感受量化,提供了对通信系统质量进行客观评估的能力。
本文将介绍MOS 测量方法的步骤和其在评估通信系统质量中的应用。
MOS 测量方法的步骤第一步:选拔受试者在进行MOS 测量之前,需要选拔一组受试者,以代表通信系统使用者的多样性。
受试者应具备一定的背景知识和经验,以便能够对语音和视频质量进行准确评估。
受试者的人数取决于测试的规模和复杂性,通常要求有足够的样本数量来保证测试结果的可信度。
第二步:实施质量评估任务在进行MOS 测量之前,需要定义评估任务和测试环境。
评估任务可以包括播放特定的语音样本或视频片段,并要求受试者对其质量进行评估。
测试环境应尽量模拟真实的通信场景,以准确反映使用者的日常体验。
第三步:收集主观评估数据在评估任务执行完毕后,需要收集受试者的主观评估数据。
通常使用问卷调查的形式,要求受试者对所听到或观看到的内容进行评分。
评分通常是一个从1到5的量表(或其他合理范围),其中1表示最差质量,5表示最好质量。
第四步:计算MOS 值一旦收集到足够的主观评估数据,可以计算出MOS 值。
MOS 值通常通过对受试者的评分进行平均得到。
例如,如果有100个受试者,每个受试者给出了一个从1到5的评分,那么计算MOS 值的方法是将这100个评分相加,然后除以100。
MOS 测量方法的应用MOS 测量方法在通信系统质量评估中广泛应用。
它可以用于评估语音通话的清晰度、声音的自然度,以及视频通话的清晰度、颜色准确度等。
通过使用MOS 测量方法,通信系统的设计者和运营商可以了解用户对其系统的认可程度,并根据评估结果进行调整和改进。
此外,MOS 测量方法还可以用于比较不同通信系统的性能。
mos(mean opinion score)平均意见得分
摘要:
1.MOS 的定义和用途
2.MOS 的计算方法和示例
3.MOS 的优缺点和应用场景
正文:
MOS(Mean Opinion Score,平均意见得分)是一种用于衡量语音质量的指标。
它通过计算接收者对语音的喜好程度来得出得分,以此来评估语音的质量。
MOS 通常用于语音编解码性能测试、语音传输质量评估等领域。
MOS 的计算方法是在实验中让多个测试者给语音打分,一般采用1~5 分,1 分代表“质量很差”,5 分代表“质量非常好”。
然后,将所有分数相加,再除以测试者的数量,得到平均分数。
例如,如果10 个测试者给某个语音片段打了分,总分为45 分,那么MOS 就是4.5 分。
MOS 的优点在于简单易懂,能够直观地反映出语音的质量。
然而,它也存在一些缺点。
首先,MOS 受主观因素影响较大,不同的测试者可能会给出不同的分数。
其次,MOS 只能反映出语音的优劣,不能具体描述语音的质量问题。
MOS 的应用场景非常广泛。
在语音通信领域,它可以用于评估网络中的语音质量,帮助运营商优化网络参数。
在语音识别领域,MOS 可以用于评估识别系统的性能,帮助研究人员提高识别准确率。
此外,MOS 还可以用于语音合成、音频处理等领域。
总之,MOS 作为一种衡量语音质量的指标,具有简单、直观的优点,但也存在主观性强、不能具体描述质量问题的缺点。
VolteMOS差点分析指导汇总Volte MOS差点分析指导书1 概述1.1 MOS指标定义MOS值(Mean Opinion Score),即语音质量的平均意见值,是衡量通信系统语言质量的重要指标。
MOS与人的主观感受映射关系如下:表1 MOS分和用户满意度一般情况下,MOS值大于等于3.8被认为是较优的语音质量,大于等于3.0被认为是可以接受的语音质量,低于3.0被认为是难以接受的语音质量。
中国移动对MOS分的定义为路测MOS分,基于宽带AMR(AMR WB)的POLQA算法打分。
1.2 MOS评分原则中国移动集团只有语音MOS的测试标准,视频业务目前业界无通用MOS测评标准,所以现阶段VoLTE的MOS值测试仅针对语音业务。
针对目前移动场景,VoLTE与VoLTE通话协商的编码为AMR-WB 宽带编解码,提供高清语音体验;VoLTE与2G/3G CS业务互通协商的编码为AMR-NB窄带编码(与CS域的编解码相同),因此MOS测试采用VoLTE拨打VoLTE 的方式,测试宽带VoLTE编码的语音质量。
集团对MOS分的定义为路测MOS分,采用P.863算法进行评估。
集团对MOS测试工具要求:珠海世纪鼎利Pioneer、北京惠捷朗(CDS),现阶段测试终端是HTC M8T。
目前的MOS评分周期是9秒输出一个MOS分,主叫和被叫周期交替发送固定语料。
每隔9秒鼎利设备的主叫和被叫会输出一个MOS 分,发送端发送语料的时候,接收端静默接收,不存在主被叫同时发送语料的情况,无论是主叫发语料还是被叫发语料,对端接收后都会在MOS盒和原始语料进行对比,所以主叫和被叫的MOS是一致的。
每个MOS语料发送周期内(9秒),连续的语音分为两段,每段时间2秒左右,总的发音时长4秒左右。
其余时间都是发送静默帧(SID)。
160ms发包周期的都是SID帧,20MS发包周期的都是有语音的RTP包。
1.3 MOS考核要求MOS平均分,即POLQA算法平均得分,目标值:3.5,挑战目标:4.0;MOS>3.0占比,即MOS得分>3.0的采样点占比,目标值:85%,挑战目标:90%;MOS>3.5占比,即MOS得分>3.5的采样点占比,目标值:80%,挑战目标:85%。
- 目录 -1前言 (3)2语音质量测量和量化标准的发展史 (3)3MOS语音质量量化的定义 (4)4PESQ评估方法的介绍 (4)4.1PESQ的基本原理 (4)4.2PESQ的应用 (5)5MOS的测试方法 (5)5.1NEMO Outdoor (5)5.1.1测试系统的要求 (6)5.1.2测试系统的解决方案 (6)5.2NetQual (7)5.2.1测试系统的组成 (8)5.2.2语音质量的测试 (9)5.3TEMS INVESTIGATION (10)6MOS测量的优化建议............................................................................... 错误!未定义书签。
1前言直到现在,GSM网络的最主要基本业务仍然是语音业务,语音质量的好坏直接影响用户对于运营商的选择;另外,随着移动网络发展的日趋成熟,客户对网络的性能质量要求逐渐提高。
因此,根据电信网络服务质量(QoS) 的要求,建立一套客观评估标准,如何更好地对网络的语音服务质量进行定量分析和测量就逐步摆在了网络运营商的面前。
语音服务质量的测量与通常移动网络的信号质量测量有很大的区别。
在GSM网络中,对无线质量的评价是通过RxQual 来实现的。
但是语音在GSM网络中是经过信道及信源编码的,而RxQual 只能描述空中接口的传输质量,并不能给出终端用户对无线网络的实际感受,语音服务质量的测量将更好地反映用户对网络的真实感受情况。
本文将就语音QoS的测量方法进行较深入地讨论。
2 语音质量测量和量化标准的发展史目前语音QOS测试方法主要有主观测试方法和客观测试方法两种,ITU-TP.800定义了MOS的主观测试方法,客观测试方法主要有:PSQM、PSQM+、PESQ等。
其中ITU-TP.862(PESQ)是目前ITU推荐用于端对端网络语音质量测试的方法。
早期语音质量的评测主要采用主观评分的方式:调查用户被要求按照1-5分对接收到的电话语音质量进行评分(5表示最好,1表示最差)。
- 目录 -1前言 (3)2语音质量测量和量化标准的发展史 (3)3MOS语音质量量化的定义 (4)4PESQ评估方法的介绍 (4)4.1PESQ的基本原理 (4)4.2PESQ的应用 (5)5MOS的测试方法 (5)5.1NEMO Outdoor (5)5.1.1测试系统的要求 (6)5.1.2测试系统的解决方案 (6)5.2NetQual (7)5.2.1测试系统的组成 (8)5.2.2语音质量的测试 (9)5.3TEMS INVESTIGATION (10)6MOS测量的优化建议............................................................................... 错误!未定义书签。
1前言直到现在,GSM网络的最主要基本业务仍然是语音业务,语音质量的好坏直接影响用户对于运营商的选择;另外,随着移动网络发展的日趋成熟,客户对网络的性能质量要求逐渐提高。
因此,根据电信网络服务质量(QoS) 的要求,建立一套客观评估标准,如何更好地对网络的语音服务质量进行定量分析和测量就逐步摆在了网络运营商的面前。
语音服务质量的测量与通常移动网络的信号质量测量有很大的区别。
在GSM网络中,对无线质量的评价是通过RxQual 来实现的。
但是语音在GSM网络中是经过信道及信源编码的,而RxQual 只能描述空中接口的传输质量,并不能给出终端用户对无线网络的实际感受,语音服务质量的测量将更好地反映用户对网络的真实感受情况。
本文将就语音QoS的测量方法进行较深入地讨论。
2 语音质量测量和量化标准的发展史目前语音QOS测试方法主要有主观测试方法和客观测试方法两种,ITU-TP.800定义了MOS的主观测试方法,客观测试方法主要有:PSQM、PSQM+、PESQ等。
其中ITU-TP.862(PESQ)是目前ITU推荐用于端对端网络语音质量测试的方法。
早期语音质量的评测主要采用主观评分的方式:调查用户被要求按照1-5分对接收到的电话语音质量进行评分(5表示最好,1表示最差)。
∙PSQM /PSQM+:Perceptual Speed Quality Measure,感知通话质量测量[2],定义在ITU-T P.861当中;∙PESQ:Perceptual E v aluation of Speed Quality,感知评估通话质量测量[3],定义在ITU-T P.862当中;∙P A MS:Perceptual Analysis Measurement System,感知分析测量,英国电信定义;∙E-Model:本文将重点介绍的测量方法,该方法定义在ITU-T G.107当中。
PSQM和P A MS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。
PESQ结合了PSQM和P A MS的优势,并针对MOS和MOS-LQ(Listening Quality)计算方法做了修改。
最开始这些方法被用于测量编码算法和在实验室分析设备问题,如分析电话机的语音质量;并且都是基于PSTN网络,因此并不适合应用到VoIP网络系统的语音测量。
这些方法主要缺点体现在:∙不是基于IP网络的方法,不能反应IP网络的衰减问题,如网络传输中的Delay和Jitter和P ac ket Loss 等问题;∙不能说明End-to-E nd的网络延迟,而其他过多的延迟因素影响到了MOS值;∙只能输出在任何时间内的某一方向的语音质量,不是真实通话中的双向结果;∙无法模拟多个或成百上千个重复同步的通话。
而在ITU-T G.107中定义的E-Model方法则很好地克服了上述问题,因此非常适合VoIP语音质量的测量。
E-Model模型是欧洲电信标准协会(ETSI)开发的,本来用作电信网络的传输规划工具,但该模型也在VoIP服务质量测量中广泛使用,在下面的章节中将对该模型进行详细的介绍。
此外,有必要指出,平均主观值MOS是广泛认同的语音质量标准。
MOS测试操作说明一、MOS的基本概念1.1 MOS的基本概念MOS主要是语音质量测试,就是拨打测试收集的语音和MOS仪表里的语音模版对比,1-5分,5分为最高,主要反映的是用户的感知度,一般和信号的强度,干扰情况,切换情况有关,厂家很多的网域,比较有名气的有华星、鼎利、同友、日讯等公司的MOS,MOS都是基于PESQ国际算法来打分的。
测试时MOS连接到笔记本上,然后把两部测试手机连接到MOS盒上,一部作为主叫,一部作为被叫。
使用上述公司自带的测试软件采集数据。
采集完数据后使用后台进行打分,考察网络的通话效果。
1.1.1 引言随着无线网络技术的不断发展和网络的逐渐普及,客户对网络的整体语音服务质量的要求不断提高,可以说,语音质量的好坏直接影响着用户对于运营商的选择。
因此,根据移动通信网络服务质量的要求,建立一套语音质量客观评价标准,来更好地对网络语音服务质量进行定量分析和评估,就逐步成为移动网络运营商在网络建设过程中必须考虑的关键问题。
最早的语音质量评测标准仅是基于无线指标的(RxQual),但实际语音在传输中会经过无线、传输、交换、路由等多个节点,任一环节出现问题都会导致用户语音感知差,仅仅考虑无线指标是无法发现和定位语音质量问题的,于是基于用户感知的语音质量评价方法逐渐成为用户语音服务质量评测的最主要标准。
1.1.2 MOS语音质量评价方法常用的语音质量评价方法分为主观评价和客观评价。
早期语音质量的评价方式是凭主观的,人们在打通电话之后通过人耳来感知语音质量的好坏。
1996年国际ITU组织在ITU-T P.800和P.830建议书开始制订相关的评测标准:MOS(Mean Opinion Score)测试。
它是一种主观测试方法,将用户接听和感知语音质量的行为进行调研和量化,由不同的调查用户分别对原始标准语音和经过无线网传播后的衰退声音进行主观感受对比,评出MOS分值,见表1。
表1 MOS分值对照表级别MOS分值用户满意度优 5.0 非常好,听得很清楚,无失真感,无延迟感良 4.0 稍差,听得清楚,延迟小,有点杂音中 3.0 还可以,听不太清楚,有一定延迟,有杂音,有失真差 2.0 勉强,听不太清,有较大杂音或断续,失真严重劣 1.0 极差,静音或完全听不清楚,杂音很大注:对于GSM网络而言,评分在3以上即为比较好的语音质量。
通话MOS分测试步骤一)MOS分简介MOS:Mean Opinion Score平均评价得分MOS值为衡量通信系统语音质量的重要指标。
最直接的音频质量测试方法就是找一些具备音频测试基本常识的人组成评审小组,直接对测终端进行主观评价,并根据感受给出评分。
评分分为五个等级(很好、好、一般、差、很差),将小组评分平均后即可得出MOS(Mean Opinion Score)值。
这种测试方法得出的结果最接近于人的真实感受,但缺点是费时费力且不易形成标准化测试。
为了解决主观测试的弊端,人们在对电学和声学信号进行分析的基础上提出了种种基于仪器的测试方法和指标,即所谓的客观测试,并希望这些客观测试指标能够尽可能描述出影响主管测试结果的客观因素。
目前客观测试方法仍在不断发展。
◆TOSQA(Telecommunications Objective Speech Quality Assessment,通信客观语音质量评价),这是一种基于心理声学的测试方法,测试结果与主观评价结果的接近程度达到90%,可以在某些情况下替代主观评价测试方法。
◆PESQ(Perceptual Evaluation of Speech Quality,感觉语音质量评价),是一种用于电信领域的增强型感觉语音质量测试方法,是由KPN研究所和BT(英国电信)结合PSQM+和PAMS 两种语音质量测试方法开发而成,并由国际电联于2001年正式发布。
将TOSQA和PESQ的结果转化成MOS的形式就可以得到所谓的TMOS值和PMOS值。
需要注意的是,这两种测试都是基于单向通话进行的。
二)TMOS测试方法通过客观的方法(TOSQA2001)来评价话音质量,能更真实体现通话效果的质量。
1. 发送方向的TMOS应用在TOSQA2001分析中的测试信号是真实的语音信号(德语,宽带)。
这个序列包括两男两女共8句话(每人各2句)。
测试信号级应取–4.7 dBPa,在嘴参考点测量。
MOS: Mean Opinion Score,早期用于评估语音通讯系统的质量,后广泛用于鉴定语音通讯系统中关键技术/器件,如:Vocoder。
MOS 测试中常用的参考系统(Vocoder):PCM,ADPCM。
常用的MOS分评价方法包括主观MOS分评价和客观MOS分评价。
主观MOS分采用ITU-TP.800 和P.830 建议书,由不同的人分别对原始语料和经过系统处理后有衰退语料进行主观感觉对比,得出MOS 分,最后求平均值。
而客观MOS 评价则采用ITU-T P.862 建议书提供的PESQ 方法,由专门的仪器或软件进行测试。
最初ITU-T建议P.800 提出了MOS(MeanObjectionScore)的方法。
即请40 ~60 位有代表性的人士来听一段相同的语音样本,然后对该样本经过IP电话传输后的语音质量进行投票评价。
随着语音因语言、年龄、性别的变化,得分亦被赋予不同的意义。
这是一种纯粹主观的定性测量。
ITU-T选取在非常宽的听觉范围内,不同年龄、性别和语言组别的相同得分,作出语音质量的判别标准:MOS 评分值的范围为『1,5』。
5:最佳4:好(4.5 -4.0 =可收费电信级)3:中级(4.0 -3.5 =可通话通信级)2:较差(3.5 -2.5 =可建立连接级)1:差很显然,MOS方法是一种模糊的评估方法,其测试结果很难对IP电话系统的改进和不同IP电话设备之间性能的比较作出有实际意义的判别。
因此ITU-T在建议P.861 中又提出了PSQM(PerceptualSpeechQualityMeasurement)方法。
ITU-T 建议P.830 描述了一种对语音的主观评定方法-MOS(Mean Opinion Score)方法。
根据P.830 建议的要求,特定的发话者与听话者在特定的环境下,通过收集测试者在各种不同情景下的主观感受,根据P.830 的分析法则得出该语音的品质。
P.830 对测试的要求非常严格,所有的操作都要严格地服从操作流程,对录音系统、语音采样、语音输入级别、听者级别、不同发话者(8 男、8 女、8 儿童)、多发话者(多人同时讲话)、差错处理、不同语音编码方式的兼容性、过失、环境噪音、音乐等等,都作出了详细严格的规定。
移动通信网络语音质量评定指标MOS的含义
1.引言
随着无线网络技术的不断发展和网络的逐渐普及,客户对网络的整体语音服务质量的要求不断提高,可以说,语音质量的好坏直接影响着用户对于运营商的选择。
因此,根据移动通信网络服务质量的要求,建立一套语音质量客观评价标准,来更好地对网络语音服务质量进行定量分析和评估,就逐步成为移动网络运营商在网络建设过程中必须考虑的关键问题。
最早的语音质量评测标准仅是基于无线指标的(RxQual),但实际语音在传输中会经过无线、传输、交换、路由等多个节点,任一环节出现问题都会导致用户语音感知差,仅仅考虑无线指标是无法发现和定位语音质量问题的,于是基于用户感知的语音质量评价方法逐渐成为用户语音服务质量评测的最主要标准。
2.MOS语音质量评价方法
常用的语音质量评价方法分为主观评价和客观评价。
早期语音质量的评价方式是凭主观的,人们在打通电话之后通过人耳来感知语音质量的好坏。
1996年国际ITU组织在ITU-T P.800和P.830建议书开始制订相关的评测标准:MOS(Mean Opinion Score)测试。
它是一种主观测试方法,将用户接听和感知语音质量的行为进行调研和量化,由不同的调查用户分别对原始标准语音和经过无线网传播后的衰退声音进行主观感受对比,评出MOS分值。
实际网络测试中,一般市区内MOS值达到3以上的时候,就表明网络质量处于较好的水平。
具体见表1。
注:对于GSM网络而言,评分在3以上即为比较好的语音质量。
不过显而易见,在现实中让一组人接听语音和评价语音质量是非常困难和昂贵的。
因此,ITU组织推行了大量的端到端语音质量客观测试技术的标准化工作,发布了几种语音评估算法标准:PAMS、PSQM、PSQM +、MNB、PESQ。
MOS评测开始摆脱原始的主观评估方式,而使用量化算法计算相对应的级别及语音质量好坏程度。
其中,P.862-PESQ(Perceptual Evaluation of Speech Quality)算法是ITU组织在2001年2月发布的目前最新的语音传输质量测量标准,由于其强大的功能和良好的相关性,它迅速成为目前最主流的语音评估算法。
PESQ算法适用于评价各类端到端网络的语音质量,它综合考虑了感知中的各项影响因素(如编解码失真、错误、丢包、延时、抖动和过滤等)来客观地评价语音信号的质量,从而提供可以完全量化的语音质量衡量方法。
3.PESQ算法原理
从PESQ算法模型的结构图(见图1)中可以看到整个算法的处理流程。
参考信号和通过无线网络传输后的退化信号通过电平调整,再用输入滤波器模拟标准电话听筒进行滤波(FFT)。
这两个信号在时间上对准,并通过听觉变换。
这个变换包括对系统中线性滤波和增益变化的补偿和均衡,再通过认知模型,从而映射到对主观平均意见分的预测。
一般情况下,输出信号和参照信号的差异性越大,计算出的MOS分值就越低。
图1PESQ算法模型
PESQ作为ITU-P.862中推荐的语音评估最新算法,相对于PSQM和MNB只能用于窄带编解码测量,并且对某些类型的编解码、背景噪声和端到端的影响,比如滤波和时延变化只能给出不精确的预测值,它的算法模型能提供更好的相关性(见表2),能在更广泛的条件下对主观质量给出精确的预测,包括背景噪声、模拟滤波、时延变化等。
表2不同语音评估算法的相关性
ITU-T 相关的资料也已证明:PESQ 能够给出非常精确的预测值,它适用于目前所知的所有移动通信技术,如GSM 、CDMA 、3G 等,以及编码器语音质量的测量(AMR 等)。
可以说,PESQ 是目前最为先进和准确的语音评估量化算法,由该算法得到的MOS 评估结果最为切合用户的实际主观感受。
4.结束语
综上所述,基于PESQ 算法的MOS 测试方式无论是从其标准化、准确性、通用性,还是实际的应用效果来说,都是无可争议的主流语音评估标准。
在以往大量的实践案例中,MOS 评估测试已经为运营商评估语音质量提供了非常有力的帮助,对网络服务质量的提升起到了非常显著的效果。
那么,为了达到更高的服务质量标准,提升网络运营竞争力,吸引更多的用户,在网络建设到一定阶段后,将MOS 测试纳入常规评测体系中,从用户最终感知的角度评估网络的整体情况,无疑是非常有必要和有效的。
我公司的MOS 值已经达到3以上,综合评定GSM 网中属于较好水平。
2
4
6
8
10
12
14
类别1类别2类别3类别4系列3系列2系列1。