视频编码国际标准共122页文档
- 格式:ppt
- 大小:13.46 MB
- 文档页数:122
MPEGl和MPEG2数字视频编码标准本文的目的在于给出有关MPEGl和MPEG2视频编码算法及标准的概述、以及它们在视频通信中的作用。
论文的正文是这样安排的:首先回顾了与MPEG视频压缩标准有关的那些基本概念和技术:接着较详细地叙述了MPEGl和MPEG2的视频编码算法;最后的内容为标准中与其应用有关的一些特征。
MPEG视频压缩算法的基本原理一般说来,在帧内以及帧与帧之间,众多的视频序列均包含很大的统计冗余度和主观冗余度。
视频源码的最终目标是:通过挖掘统计冗余度和主观冗余度,来降低存储和传送视频信息所需的比特率;并采用嫡编码技术,以便编制出“最小信息组”一个实用的编码方案,是在编码特性(具有足够质量的高压缩)与实施复杂性之间的一种折衷。
对于MPEG压缩算法的开发来讲,计及到这些标准的寿命周期应考虑到现代超大规模集成电路技术的能力,这一点是最重要的。
根据应用的要求,我们也许会想到视频数据的“无损失”编码和“有损失”编码“无损失”编码的目的在于:在保持原图像质量(即解码后的图像质量等同于编码前的图像质量)情况下,来减少需要存储和传送的图像或视频数据。
与此相反,“有损失”编码技术(该技术跟MPEG—l和MPEG2视频标准未来的应用有关) 的目的是,去符合给定的存储和传送比特串。
重要的一些应用包括;利用限定的带宽或很窄的带宽,通过通信频道采传送视频信息;有效地存储视频信息。
在这些应用中,高的视频压缩是以降低视频质量的办法来实施的,即跟编码以前的原始图像相比,解码后的图像“客观”质量有所降低(也就是取原始图像和再现图像之间的均方差,作为评定客观图像质量的标准)频道的目标比特率越低;那么视频所必须进行的压缩率就越大,通常可察觉的编码人工产物也越多。
有损失编码技术的最终目的是:在指定的目标比特串条件下,获取最佳的图像标准。
这里应服从“客观”或“主观”上的最佳标准。
这里应该指出,图像的降级程度(指客观降低以及可察觉到的人工产物的数量)取决于压缩技术的复杂性——对于结构简单的画面和视频活动少的图像来讲,就是采用简单的压缩技术,也许能获得根本不带可察觉人工产物的良好的再现图像(A)MPEG 视频编码器源模式MPEG数字视频编码技术实质上是一种统计方法。
附录A(规范性附录)统一标识编码规则A.1 统计用县以下区划代码编制规则A.1.1 代码组成□□□□□□1 2 3 4 5 6乡级代码村级代码图A.1 统计用县以下区划代码结构统计用县以下区划代码见图A.1,由6位代码组成,包括乡级代码和村级代码两部分,1~3位为乡级代码,4~6位为村级代码。
A.1.2 乡级代码编码方法凡民政部门确认的街道、镇、乡,按照国家标准《县级以下行政区划代码编制规则》(GB/T 10114—2003)编制,其乡级代码为001~399;民政部门未确认的开发区、工矿区、农场等类似乡级单位,乡级代码为400~599。
具体编码如下:—001~099 表示街道;—100~199 表示镇;—200~399 表示乡;—400~599表示类似乡级单位。
A.1.3 村级代码编码方法凡民政部门确认的村级单位,村级代码为001~399;民政部门未确认的园区、工矿区、农场等类似村级单位,村级代码为400~599(498、598除外)。
具体编码如下:—001~199 表示居民委员会;—200~399 表示村民委员会;—400~499 表示类似居民委员会(不含498代码);—500~599 表示类似村民委员会(不含598代码)。
A.1.4 特殊情况的编码方法A.1.4.1 虚拟村级单位当乡级单位下未设(或未明确)村级单位时,则在该乡级单位下虚拟一个村级单位,其编码方法为:在街道、镇以及类似乡级单位的开发区、科技园区、工业园区、工矿区、高校园区、科研机构园区等区域下,虚拟村级单位的代码为498,名称为“××虚拟社区”;在乡以及类似乡级单位的农、林、牧、渔场和其他农业活动区域下,虚拟村级单位的代码为598,名称为“××虚拟生活区”。
A.1.4.2 县直辖村级单位县级单位直辖村级单位,其乡级代码统一编为198,在198代码下,再对所辖的村民委员会和居民委员会进行编码。
第41卷第2期2021年4月㊀南京邮电大学学报(自然科学版)JournalofNanjingUniversityofPostsandTelecommunications(NaturalScienceEdition)㊀Vol.41No.2Apr 2021doi:10.14132/j.cnki.1673⁃5439.2021.02.001H.266/VVC:新一代通用视频编码国际标准朱秀昌,唐贵进(南京邮电大学江苏省图像处理与图像通信重点实验室,江苏南京㊀210003)摘要:在2013年制定的H.265/HEVC视频编码标准获得成功后,新一代视频编码国际标准H.266/VVC在ITU⁃T的VCEG和ISO/IEC的MPEG通力合作下已于2020年7月完成㊂尽管VVC视频编码层的结构仍然是传统的基于块的混合视频编码模式,但VVC提供了多项先进的视频编码工具,较先前的HEVC标准,其压缩率大约提高了一倍㊂文中主要对VVC标准中新编码技术的特点和性能进行综述㊂关键词:H.266/VVC;HEVC;视频编码标准;联合视频专家组;视频压缩中图分类号:TN919.8㊀㊀文献标志码:A㊀㊀文章编号:1673⁃5439(2021)02⁃0001⁃11H.266/VVC:versatilevideocodinginternationalstandardZHUXiuchang,TANGGuijinJiangsuProvinceKeyLabonImageProcessing&ImageCommunication,NanjingUniversityofPostsandTelecommunications,Nanjing210003,China()Abstract:AftertheprofoundsuccessofdefiningH.265/HEVCvideocodingstandardin2013,thenewgenerationvideocodinginternationalstandardH.266/VVCwascollaborativelyfinalizedinJuly2020byboththeITU⁃TVCEGandISO/IECMPEGorganizations.AlthoughthestructureofVVCvideocodinglayerisconventionalblock⁃basedhybridvideocodingframework,VVCstilloffersseveraladvancedvideocodingtoolscomparedwithpreviousstandards.Thus,thecompressionrateofVVCisaboutdoublethatofHEVC.Finally,thetechnicalfeaturesandcharacteristicsoftheVVCstandardaresummarized.Keywords:H.266/VVC;HEVC;videocodingstandards;JVET;videocompression收稿日期:2021⁃03⁃04㊀㊀本刊网址:http:ʊnyzr.njupt.edu.cn作者简介:朱秀昌,男,教授,博士生导师,zhuxc@njupt.edu.cn引用本文:朱秀昌,唐贵进.H.266/VVC:新一代通用视频编码国际标准[J].南京邮电大学学报(自然科学版),2021,41(2):1-11.㊀㊀视频信息压缩技术在过去30余年以来的一系列视频编码国际标准中得到充分的体现㊂从20世纪90年代初的第一代视频编码标准H.261/MPEG⁃1[1]㊁H.262/MPEG⁃2起,到第二代视频编码标准H 264/AVC[2],第三代视频编码标准H.265/HEVC[3-4],每进化一代视频压缩的效率都大致提高一倍㊂HEVC第一版2013年发布7年后的今天,经两大国际标准化组织ITU⁃T和ISO/IEC的有关部门通力合作,又完成了第四代视频编码标准,简称通用视频编码(VersatileVideoCoding,VVC)标准,已于2020年7月发布第一版,其正式名称在ITU⁃T为H 266,在ISO/IEC为VVC(23090⁃3)[5]㊂VVC比HEVC可以提高大约一倍的编码效率,也就是说编码相同可视质量的视频内容,大约只需要HEVC的50%的比特,AVC的25%的比特㊂VVC的出现能够减轻世界网络的负担,因为目前视频流量已经占到互联网流量的80%左右,还有上升的趋势㊂此外,将 通用 (Versatility)这个词用作这个标准的标题,说明VVC的目标是支持多种类型的网络视频应用,如超高清视频㊁高动态范围视频㊁VR(VirtualReality)视频㊁360ʎ全景视频及屏幕内容等[6]㊂VVC中的编码算法没有根本性的改进措施,它的技术手段和前面几代视频编码标准基本类似,仍然是在基于块的混合编码框架内,但几乎对编码的每个环节都进行了改进,挤压尚未除尽的信息冗余,达到总体编码效率提高一倍的要求㊂从ITU⁃T和ISO/IET联合制定视频标准H 262/MPEG⁃2于1994年推出开始,历经H.264/AVC㊁H.265/HEVC,到如今的H.266/VVC,VCEG和MPEG的一个矢志不渝的目标为 减半 ,即每推出新一代标准都要求码率减半㊂以此算来,压缩同样的视频内容,在同样的解码视频质量的要求下,VVC的码率只有MPEG⁃2的1/8㊂2015年10月,ITU⁃T的VCEG和ISO/IEC的MPEG成立了联合视频探索小组(JointVideoExplorationTeam,JVET),面向全球征集提案㊂2018年,新一代视频编码标准化工作正式开始,在同年JVET的第10次会议上,联合视频探索小组正式更名为联合视频专家组(JointVideoExpertsTeam,JVET),简称仍然是JVET,并决定将下一代视频编码标准正式命名为VVC,在ITU⁃T登记为H.266,在ISO/IEC登记为23090⁃3[6]㊂VVC标准对应的参考软件平台为VTM(VVCTestModel)[7],目前最新版本是VTM11.2㊂制定VVC有两个基本目标,其一为高压缩性能,定义一套视频编码技术,其压缩性能要远优于以往的同类标准;其二为宽应用领域,能够有效地用于比先前标准更广阔的范围㊂VVC标准面向多种应用,如高清㊁超高清视频(UltraHighDefinitionVideo,UHDV),它们具有3840ˑ2160或7620ˑ4320图像分辨率,10比特精度,高动态范围(HighDynamicRange,HDR)和宽彩色gamut;再如沉浸式媒体(ImmersiveMedia),使用普通投影格式所投影的360ʎ全景视频(OmnidirectionalVideo)等㊂当然,VVC同样支持先前标准中所设置的那些应用㊂本文后续部分将主要介绍VCC所提供的新编码工具㊂从第1节到第6节共6个部分基本按照编码过程来介绍,包括图像分块㊁预测㊁变换㊁量化㊁熵编码和环路滤波等环节㊂最后是对VVC现有成果的小结,对其后续工作和应用前景的简单说明㊂1㊀图像划分如图1所示,VVC在编码原理和基本结构方面没有突破,仍沿用从H.261就开始的基于块的混合视频编码框架,即预测加变换的分块编码方式;VVC在编码细节上和HEVC很接近,也包含帧内预测㊁帧间预测㊁运动估计与补偿㊁正交变换㊁量化㊁熵编码和环路滤波等模块㊂但是,和HEVC相比较,VVC几乎在每一个编码环节上都采取了一项或多项改进措施,尽管每一项措施的效率提高并不显著,然而诸多措施的总体效果确使其编码效率比HEVC提高了一倍㊂当然,VVC付出的代价就是编码复杂度也比HEVC提高了好几倍㊂图1㊀H.266/VVC编码框图1.1㊀3种编码结构VVC与HEVC一样,为了应对不同应用场合,设立了3种编码结构,即全帧内(AllIntra,AI)编码㊁低延迟(LowDelay,LD)编码和随机接入(RandomAccess,RA)编码㊂在AI编码中,每一帧图像都是按帧内方式进行空间域预测编码,不使用时间参考帧㊂在LD编码中,只有第一帧图像按照帧内方式进行编码,并成为即时解码更新(InstantaneousDecodingRefresh,IDR)帧,随后的各帧都作为普通P和B帧(GeneralizedPandBPicture,GPB)进行编码,这主要是为交互式实时通信设计的㊂在RA编码中,主要是分层B帧结构(HierarchicalBStructure)帧,周期性地插入一廋随机访问(CleanRandomAccess,CRA)帧,成为编码视频流中的随机访问点(RandomAccessPoint,RAP)㊂这些随机访问点可以独立解码,不需要参考码流中前面已经解码的图像帧㊂1.2㊀图像的条/片/子图像划分VVC在编码时将每一帧图像都划分为相同尺寸㊁紧密排列的编码树单元(CodingTreeUnit,CTU),根据编码图像局部特征的不同,编码树单元又可以灵活地划分为更小的编码单元(CodingUnit,CU)㊂和HEVC基本相同,VVC允许将图像帧划分为若干条(Slice),条由相邻的整数个CTU组成㊂VVC支持两种排列类型的Slice,顺序扫描Slice模式和矩2南京邮电大学学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀2021年形Slice模式㊂VVC中也允许用水平和垂直的若干条边界将图像帧划分为多个矩形区域,每个区域就是一个片(Tile),每一个片包含整数个CTU㊂VVC的Slice和Tile大体上和HEVC一致㊂和HEVC不同,VVC还新增了矩形的子图像(Subpicture)划分[5]㊂一个子图像可包含一个或多个Slices,这些Slices共同覆盖图像的一个矩形区域㊂相应地,每个子图像的边界总是Slice的边界㊂图2是包含Suppicture的划分一例,一帧图像被划分为18个Tiles,其中12个较大的Tiles在左边,每个Tile覆盖一个4ˑ4CTU的Slice;其余的6个较小的Tiles在右边,每个覆盖2个2ˑ2CTU的Slices,这样总共形成24个Slices和24个子图像(每个Slice就是一个子图像)㊂图2㊀包含subpicture的划分一例1.3㊀CTU的多类型树划分在VVC中为了适应4K㊁8K等高清㊁超高清视频编码的需要,将CTU的最大尺寸扩大到128ˑ128,最小尺寸还是4ˑ4㊂CTU可进一步分为若干编码单元(CU),最大的CU可等同于CTU,最小的CU为4ˑ4㊂在HEVC中每个CU又可以划分为预测单元(PredictionUnit,PU)和变换单元(TransformUnit,TU),但在VVC中将不再区分CU㊁PU和TU,大多数情况下三者统一为CU㊂不同于HEVC,VVC的CTU除了4叉树划分方式外,还引进了多类型树(Multi⁃TypeTree,MTT)划分,包括2叉树(BinaryTree,BT)和3叉树(TernaryTree,TT)[8]㊂一个CTU首先按4叉树方式进行一次划分,4叉树的每个叶子节点既可以继续4叉树划分,也可以进一步按照多类型树方式进行划分:水平或垂直2叉树划分,水平或垂直3叉树划分,如图3所示㊂2叉树和3叉树划分可以交替并嵌套进行㊂但是需要注意,一旦采用了2叉树或者3叉树划分,就不再允许进行4叉树划分㊂图4中给出了一个64ˑ64的CTU的4叉树和嵌套多类型树划分的示例,这种划分方式可以根据图像内容自适应进行,提升了划分灵活性㊂图3㊀多类型树划分模式图4㊀4叉树和嵌套多类型树划分示例前面介绍的是亮度CTU的MTT划分,对于图像的色度部分,考虑到同一位置的亮度和色度信号可能具有的不同特性,因而在VVC中,I帧CTU的亮度分量和色度分量的划分方式可以不同,这时亮度和色度分量各使用一个编码树表示㊂对于P帧和B帧,则同一个CTU中的亮度和色度必须有相同的划分㊂由于色度信号的亚取样影响,色度信号在单独划分时禁止出现2ˑ2㊁2ˑ4或4ˑ2尺寸的色度块㊂至此可以看到,图像划分从单一㊁固定划分不断朝着多样㊁灵活的划分结构发展㊂1.4㊀图像格式对于输入视频和重建视频,VVC支持ITU⁃RBT.601建议规定的4ʒ4ʒ4㊁4ʒ2ʒ2和4ʒ2ʒ0图像亮度(Y)和色度(Cb和Cr)信号的取样结构;支持的ITU⁃RBT.2100的宽色彩空间;最少支持16级高动态范围(HDR)视频,最高亮度可达1000/4000/10000尼特㊂像素的最大比特数表示图像灰度分辨率,又称为比特深度(BitDepth),其值通常为8比特,256个等级㊂这对于人眼的观赏已经足够了,但是对于编码处理或某些特殊应用场合,有时需要更高的比特深度㊂为此,VVC支持8至16比特深度的输入和输出视频,最常见是10比特深度㊂VVC支持视频的0 120Hz可变帧率,以适应不同视频应用的需求㊂支持环绕立体视频或多角度视频编码,如360ʎ㊁180ʎ等全景视频㊂3第2期朱秀昌,等:H.266/VVC:新一代通用视频编码国际标准至于尚存的隔行扫描(InterlacedScanning)视频,VVC和HEVC一样,不再提供专门的工具,只是将隔行视频的一帧看作两个独立的场,对各个场数据分别进行编码,简化了编码器的实现㊂1.5㊀档次㊁水平和等级为了提供应用的灵活性,和HEVC一样,VVC在附录A中定义了编码的不同的档次(Profile)㊁水平(Level)和等级(Tier)[5]㊂档次 规定了视频编码采用什么编码工具和编码算法㊂VVC档次规定了一套用于产生不同用途码流的编码工具或算法,共有4个主档次,即常规10比特像素深度的Main10,支持静止图像的Main10StillPicture,支持全取样的Main104ʒ4ʒ4,支持全取样静止图像的Main104ʒ4ʒ4StillPicture㊂2个多层主档次,MultilayerMain10和MultilayerMain104ʒ4ʒ4㊂档次的主要技术指标包括:像素的比特深度㊁色度采样方式和解码缓存的图像容量等㊂水平 规定了某一档次㊁等级的编码参数,如采样率㊁码率㊁压缩率㊁缓冲区容量等㊂VVC设置了1.0,2.0,2.1,3.0,3.1,4.0,4.1,5.0,5.1,5.2,6.0,6.1,6.2共13个水平,一个水平实际上就是一套对编码比特流的一系列编码参数的限制,如视频采样格式㊁图像分辨率(如从176ˑ144到8192ˑ4320)㊁最大输出码率等㊂如果说一个解码器具备解某一水平码流的能力,则意味着该解码器具有解码等于和低于这一水平所有码流的能力㊂等级 规定了每一水平的比特率的高低㊂对同一水平,按照最大码率和缓存容量要求的不同,VVC设置了两个等级,高等级(HighTier)和主等级(MainTier)㊂主等级可用于大多数场合,要求码率较低;高等级可用于有特殊要求的场合,包括5.0到6.2的6个水平,允许码率较高㊂2㊀帧内预测2.1㊀亮度分量的预测模式VVC的帧内预测技术[9]的原理和HEVC类似,采用基于块的多方向帧内预测方式来消除图像的空间相关性,但是比HEVC预测方向更细㊁更灵活㊂如图5所示,VVC为亮度预测块定义了65种不同的基本帧内预测方向,相当于在HEVC帧内预测33个方向的每两个方向中间增加一个方向,连同平面(Planar)和直流(DC)模式,共67种预测模式㊂VVC亮度帧内预测单元的尺寸从4ˑ4到64ˑ64,其中包含矩形单元㊂考虑到方便矩形帧内预测块的宽角度(Wide⁃Angle)模式,VVC的帧内预测在65种方向的基础上分别增加了-1到-14和67到80方向,共28个方向,这样VVC帧内预测编码总共有93个方向㊂图5㊀帧内预测方向DC模式的编码块所有像素的预测值都等于其左侧和上方已编码的所有参考像素的平均值㊂Planar模式的预测值由待编码的亮度块的水平和垂直两个方向上的参考像素的线性内插产生,它们一般适用于图像的平坦区域㊂2.2㊀帧内子块划分VVC的帧内子块划分(IntraSub⁃Partitions,ISP)就是根据编码块的尺寸将亮度预测块在水平或垂直方向上分为2个或4个子块㊂VVC规定每个帧内预测块至少要有16个样点,因此4ˑ4块不再划分㊂允许ISP划分的最小块尺寸是4ˑ8或8ˑ4,可划分为2个子块,如图6(a)所示;如果大于4ˑ8或8ˑ4则划分为4个子块,如图6(b)所示㊂图6㊀帧内子块划分2.3㊀色度的跨分量线性模式HEVC色度块采用依附亮度块的简化预测,共有5种模式,即Planar㊁DC㊁水平方向㊁垂直方向和派生模式(DerivedMode,DM),DM直接复制对应亮度块的预测模式㊂VVC色度分量除了沿用这5种预4南京邮电大学学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀2021年测模式外,还考虑到亮度和色度之间的相关性,对色度分量增加了一种跨分量线性模型(Cross⁃ComponentLinearModel,CCLM)预测模式㊂在CCLM中,色度样值C(i,j)从同一个编码单元对应的已重建的亮度样值Lᶄ(i,j)通过线性模型预测得到,即C(i,j)=α㊃Lᶄ(i,j)+β,α和β为CCLM参数,可利用当前块左侧和上方相邻的像素通过计算得到㊂此外,还有单独使用左侧相邻像素预测的LM_L模式;或者上方相邻像素预测的LM_A模式㊂这样,色度分量在5种传统帧内预测模式的基础上,新增了CCLM㊁LM_A和LM_L三种模式,共有8种预测模式㊂2.4㊀多行参考帧内预测传统的帧内预测利用和当前块紧相邻的行和列的像素作为参考像素㊂如果当前块和参考行在内容上不连续,可能会导致较大的预测误差,为此VVC新增了多行参考(MultipleReferenceLine,MRL)帧内预测技术,将参考行从相邻参考行0扩展为参考行0㊁参考行1和参考行3[9-10]㊂实际预测时从3行中选择预测误差最小的参考行作为最终预测使用的最佳参考行,如图7所示㊂图7中A和F区域的已重建像素与当前块距离较远,有可能引入较大的误差,因此A区域的像素由B区域距离最近的像素填充,F区域的像素由E区域距离最近的像素填充㊂图7㊀多行参考方式2.5㊀帧内预测模式的编码帧内预测时,编码器需要从多种预测模式中选择一种最佳模式使得编码效率最优㊂如果直接对预测模式信息进行编码,需要较多的编码比特㊂考虑到相邻块之间的帧内预测模式也存在空间相关性,即当前块的预测模式很有可能与相邻块的预模式一致,因此可以从相邻块的模式来预测当前块最可能的模式(MostProbableMode,MPM)[11]㊂当前块的预测模式被划分为MPM和其余模式,然后对这两类模式分别编码,以提升编码效率㊂3㊀变换和量化视频压缩中的变换是将空间域的图像信号转换到频率域,大幅度解除了图像信号之间的相关性,为后续的量化压缩创造条件㊂因此,选择何种变换函数和采用什么量化方法就显得分外重要[12-13]㊂在HEVC中,对帧内预测生成的4ˑ4亮度残差块采用离散正弦变换(DiscreteSineTransform,DST)方式,对于其他的残差块,则使用离散余弦变换(DiscreteCosineTransform,DCT)方式㊂通过残差4叉树(ResidualQuadTree,RQT)对变换块系数进行排序和量化㊂与HEVC不同,VVC为了提高压缩性能,在变换环节提供了更多可供选择的变换函数和不可分离的二次变换,在量化环节采用了基于率失真优化的量化方式和简洁的系数排序方式㊂3.1㊀多变换选择VVC将最大变块换尺寸扩展到64ˑ64,在HEVC的DCT⁃2变换基础上,采用了多变换选择(MultipleTransformSelection,MTS)技术,增加了DST⁃7和DCT⁃8两种变换函数,形成一组候选变换函数集,成为VVC中的主变换(PrimaryTransform)㊂对于长或宽等于64的大尺寸变换块,直接舍弃高频变换系数,仅保留低频变换系数㊂例如,对于长宽为MˑN的块,若M等于64,只保留左边32列系数,若N等于64,只保留上方32行系数㊂针对帧间预测的CU,VVC还采用了子块变换(Sub⁃BlockTransform,SBT)技术㊂SBT假设帧间预测残差分布的局部性,仅分布在残差块的局部1/2或1/4区域,从而降低变换系数的高频分量,减少标记残差块是否为0的编码代价,提高压缩性能㊂对不同的预测方式,编码器可以根据哪一种变换的编码效率最高来选择不同的变换方式㊂3.2㊀二次变换由于不可分离变换比可分离变换具有更好的去相关效果,VVC采用了基于归零(Zero⁃Out)的不可分离二次变换(Non⁃SeparableSecondaryTransform,NSST)技术㊂所谓二次变换,就是对主变换系数进行第二次变换,将信号从一个变换域转换至另外一个变换域后再进行量化㊁熵编码等操作,其目的是进一步提高变换效率㊂AVC和HEVC都提供了自己的二次变换技术㊂VVC采用了NSST技术对高频系数采用归零方案,也就是仅保留二次变换的低频系数,高频系数假设为0,NSST也因此被称作低频不5第2期朱秀昌,等:H.266/VVC:新一代通用视频编码国际标准可分离二次变换(LowFrequencyNon⁃separableSecondaryTransform,LFNST)㊂LFNST仅用于帧内编码的块,其变换集的选择与帧内预测模式有关㊂以16ˑ16预测残差块为例,仅对左上角的3个4ˑ4子块所包含的变换系数(拉成48ˑ1的数据条)进行二次变换,因此一个LFNST变换核的大小为16ˑ48,变换的结果为16个系数㊂3.3㊀率失真优化的量化普通量化是以量化失真最小为设计目标,但在视频编码中,编码比特率的高低也是非常重要的判断指标,两者并不完全一致㊂因此视频编码中的量化器设计需要权衡失真与比特率㊂对于一个变换系数,给出多个可选的量化值,用率失真优化准则选出最优的量化值,这就是率失真优化量化(RateDistortionOptimizedQuantization,RDOQ)方法㊂VVC在RDOQ量化时,需遍历编码块内系数㊂如果当前CU每一个4ˑ4系数组(CoefficientGroup,CG)量化后是全零CG,那么只需发送全零标志;否则,需要传送CG中量化后的系数㊂和HEVC一样,VVC也是标量量化方式,但最大量化参数(QP)从51扩大为63㊂VVC采用了一种依赖性标量量化(DependentScalarQuantization,DSQ)方法,它定义了两个不同重建水平的标量量化器,系数的量化按照一定的规则自适应地在这两个标量量化器间转换㊂其本质在于,在同一个量化间隔中有两个输出量化值供选择,可以降低量化误差㊂与HEVC相同,VVC也支持默认量化矩阵和用户自定义量化矩阵㊂使用量化矩阵的目的是对不同位置的系数采用不同的量化步长,以适应人眼的视觉特性,比如人眼对高频分量不敏感,就可以对高频系数使用更大的量化步长㊂3.4㊀系数组和扫描顺序在视频编码中,一般须将变换块中量化后的系数通过特定的扫描方式形成一维数据,然后对它进行熵编码㊂VVC将WˑH的变换块量化后的变换系数值排列成一个WˑH的矩阵㊂为了保证对所有尺寸的块统一进行扫描处理,也为了增加变换块的编码效率,考虑到编码块中信号能量一般集中在水平或垂直方向的低频率处,因此将变换块的系数分为若干系数组(CG),对每个CG及CG内系数使用多扫描路径以统一的方式进行编码㊂由于VVC也支持宽度和高度小于4的块,CG的形状取决于变换块尺寸㊂对于1ˑN或Nˑ1(Nȡ16)的CU,CG的尺寸为1ˑ16或16ˑ1;对于2ˑN或Nˑ2(Nȡ8)的CU,CG的尺寸为2ˑ8或8ˑ2;其他CU的CG尺寸都是4ˑ4㊂CG的编码顺序为图8所示的反向对角扫描(ReverseDiagonalScan)顺序,和CG尺寸无关㊂图8中每个小方块表示一个CG㊂系数块的CG从右下到左上的对角顺序处理,这里每个对角方向都是朝左下方向进行㊂为了限制解码器复杂度的最差情况,VVC将大变换块的高频系数强制置零㊂非零的量化指数只能表示在变换块的max(W,32)ˑmax(H,32)的左上角区域,而这一区域以外的CG就无需编码,从而也无需扫描,如图8(d)所示㊂CG内部系数的扫描顺序由相同的对角扫描方式来定义,图8(b)中的扫描也可表示4ˑ4CG中的系数值的扫描顺序㊂图8㊀CG的反向对角扫描示意4㊀熵编码输入视频在预测㊁变换和量化以后,还需对量化㊁扫描后的变换系数进行熵编码(EntropyCoding),以获得进一步的信息压缩㊂在熵编码中常见的有较为简单的变长编码(如Huffman编码)和效率较高的算术编码两大类㊂如果将编码方式和编码的内容联系起来,则可获得更高的编码效率,这就是常见的上下文自适应变长编码(Context⁃AdaptiveVariableLengthCoding,CAVLC)和上下文自适应二进制算术编码(Context⁃AdaptiveBinaryArithmeticCoding,CABAC)㊂这两类熵编码都是高效㊁无损的压缩方法㊂其中CABAC要胜过CAVLC一筹,尤其是在高码率的情况下更是如此㊂VVC和HEVC一样,熵编码采用的是CABAC,但在HEVC基础上有所改进㊂由于上下文自适应二进制算术编码(CABAC)较普通的变长编码的性能优越,在AVC标准中是可选的两种熵编码方法之一,而在HEVC和VVC中则成为唯一的熵编码方法㊂尽管和HEVC采用同样6南京邮电大学学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀2021年的编码引擎,VVC为 常规编码模式 设计了一种新的灵活㊁高效的编码引擎㊂编码引擎由两部分组成:概率估计和码字匹配㊂概率估计的目的在于确定下一个二进制符号其值为 1 的概率㊂这种估计是基于使用相同上下文的已编码符号值的历史,利用指数衰减窗口进行的㊂HEVC的编码引擎采用128状态单一有限状态机作为指数平滑估计器,虽然VVC也采用这样的估计器,但有很大的不同:为了改进压缩性能,VVC为每个上下文维持两个估计器,每个估计器有自己的衰减系数,实际用于编码的概率是两个估计器的平均值㊂在概率估计中,VVC不使用状态机,而是由回归函数计算导出㊂实际上主要的差别在于VVC为每个上下文导出的值表示一个实际概率(线性空间),而在HEVC中,它表示状态机的一种状态(对数空间)㊂至于码字匹配,当前的间隔被分为两个子间隔,每个子间隔对应二进制符号的值,0或1㊂每个子间隔的范围由当前间隔范围R和相对应的概率估计值相乘获得㊂在HEVC中,使用查表来近似这个乘法运算,以确定和最小概率符号(LeastProbableSymbol,LPS)相关的子间隔范围RLPS㊂而在VVC中,就直接使用乘法获得LPS的子间隔范围㊂一旦RLPS确定后,HEVC和VVC的编码引擎就以相同的方式工作了㊂5㊀帧间预测HEVC的帧间预测有3种模式:跳过(Skip)模式,无需预测残差,运动矢量从相邻块运动矢量得到,不需要编码运动参数;合并(Merge)模式,需要预测残差,当前块的运动参数由相邻块的运动参数得到,只需传递Merge模式的候选编号;普通帧间(Inter)模式,需预测残差,需进行运动估计获得运动矢量(MotionVector,MV),并利相邻块得到运动矢量预测(MVPrediction,MVP),MV和MVP相减得到运动矢量差(MVDifference,MVD),需参考图像索引㊂VVC在HEVC3种预测模式的基础上,对帧间预测工具作了多方面的扩展和新增㊂5.1㊀扩展Merge模式(1)扩展的Merge预测(EMP)VVC采用了扩展Merge预测(ExtendedMergePrediction,EMP)模式:增加了候选列表长度,由HEVC的5增加到现在的6;在列表构建过程中,首先检查空域各个邻编码块运动矢量预测(MVP),接着检查时域候选块,检查过程与顺序都和HEVC相同㊂如果候选列表没有被填满,VVC增加了一种填充候选的基于历史运动矢量预测(HistorybasedMVP,HMVP)方法[14],维护并更新一个HMVP列表,当编码完一个块后,将该块的运动参数作为一个新的候选添加到HMVP列表的末尾,按照先进先出的规则将最前面的候选用作填充㊂添加完HMVP候选后,将列表中的前4个候选MV,两两进行平均,再将平均值后有效的MV按一定顺序添加进Merge候选列表中㊂如果依然没有填满候选列表,则使用0运动矢量填满㊂这样候选列表的顺序为:空间域相邻块候选,时间域候选,历史候选,空间平均值候选,0运动矢量㊂当候选列表构造好了之后,编码器就要对候选列表中的每一个候选进行率失真代价的计算,以得到一个性能最优的候选㊂(2)带运动矢量差的Merge模式(MMVD)在HEVC中的Merge模式中,Merge列表中的MVP直接用于当前CU的预测,VVC的Merge模式和Skip模式中可引入带有MVD的Merge模式(MergemodewithMVD,MMVD),MVP与MVD相加,得到真实的运动矢量MV,用于当前CU的帧间预测,是否使用MMVD的标志需要传至解码端㊂采用MMVD模式时,选择普通Merge列表中的前两个候选MV作为初始运动矢量,然后对该MV进行扩展,一个MV要在4个方向以8种步长进行扩展,两个MV就有4ˑ8ˑ2=64种新的MV,对所有64个扩展MV进行率失真代价比较,从中选择出最优的一个作为最终的MV传递至解码端㊂5.2㊀改进运动估计5.2.1㊀带有CU权重的双向预测(BCW)对于一般双向预测块,最终的预测值Pbi由两侧的两个运动矢量预测值P0和P1平均得到:即Pbi=(P0+P1+1)/2㊂实际应用中同一内容随着时间变化有可能会产生光线强弱变化或阴影等现象,导致不同帧之间场景很相似,但是明暗差别较大,而且局部内容也会产生类似的光线变化,采用简单的平均方式会使得帧间预测的误差较大㊂为此,VVC提出了一种带有CU权重的双向预测(Bi⁃predictionwithCU⁃levelWeight,BCW)方法,它不是简单地求均值,而是在CU层面对两个预测值进行加权求和:Pbi=((8-w)∗P0+w∗P1+4)/8㊂加权系数w的范围为{-2,3,4,5,10},低时延应用中的权重可从这5个系数中选取,其他应用则从{3,4,5}这3个系数7第2期朱秀昌,等:H.266/VVC:新一代通用视频编码国际标准。
视频编码标准H.264/AVCH.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG 共同开发的视频处理标准,ITU-T作为标准建议H.264,ISO/IEC作为国际标准14496-10(MPEG-4 第10部分)高级视频编码(AVC)。
MPEG-2视频编码标准(又称为ITU-T H.262[2])已有10年的历史了,由MPEG-1扩充而来,支持隔行扫描。
使用十分广泛,几乎用于所有的数字电视系统,适合标清和高清电视,适合各种媒体传输,包括卫星、有线、地面等,都能有效地传输。
然而,类似xDSL、UMTS(通用移动系统)技术只能提供较小的传输速率,甚至DVB-T,也没有足够的频段可用,提供的节目很有限,随着高清电视的引入,迫切需要高压缩比技术的出现。
应用于电信的视频编码经历了ITUT H.261、H.262(MPEG-2)、H.263、H.263+、H.263++,提供的服务从ISDN和T1/E1到PSTN、移动无线网和LAN/INTERNET网。
最近MPEG-4 第二部分进入了实用领域,提供了视频形状编码,目标是与MPEG-2一样获得广泛的数字电视应用。
1998年,视频编码专家组(VCEG-ITU-T SG16 Q.6)启动了H.26L工程,旨在研制出新的压缩标准,与以前的任何标准相比,效率要提高一倍,同时具有简单、直观的视频编码技术,网络友好的视频描述,适合交互和非交互式应用(广播、存储、流煤体)。
2001年12月,VCEG和运动图像专家组(MPEG-ISO/IEC JTC 1/SC 29/WG 11)组成了联合视频组(JVT,Joint Video Team),研究新的编码标准H.264/AVC,该标准于2003年3月正式获得批准。
视频的各种应用必须通过各种网络传送,这要求一个好的视频方案能处理各种应用和网络接口。
H.2 64/AVC为了解决这个问题,提供了很多灵活性和客户化特性。
第6章视频与编码标准本章先了解电视技术的历史与发展,列出各种彩色电视制式,简介数字电视的概念与现状;再讲解视频信号的数字化,重点介绍视频编码标准。
6.1 电视电视(television远视)与动画一样也是利用人的视觉滞留原理工作的。
早期是黑白电视无线广播,后来是模拟彩色电视的无线广播、卫星广播和有线电视广播,现在正处于高清晰数字电视广播的发展阶段。
6.1.1 发展与简史●电视技术的发展⏹系统:黑白电视→彩色电视(无线→卫星→有线)→数字电视→高清晰电视⏹显示:阴极射线管CRT→背投/前投→液晶LCD→等离子PDP→薄膜电视OLED/表面传导电子发射显示器SED⏹存储播放:录像带/机VCR→VCD→DVD→BD/HD DVD●电视及其相关技术的发展历史⏹[1837年美国人S.F.B. Morse发明电磁式电报机]⏹[1844年S. Morse在美国国会资助下建成电报线路,开始有线电报通报]⏹[1860年代德国人P. 赖斯试验有线广播]⏹[1864年英国物理学家J.C. Maxwell创立电动力学]⏹[1876年美国人A.G. Bell发明有线电话]⏹[1877年美国发明家T.A. Edison发明留声机]⏹[1879年T.A. Edison发明白炽灯]⏹[1880年俄国人Ю. 阿霍罗维奇进行有线音乐广播]⏹[1883年T.A. Edison发现热电子发射现象(电子管原理)]⏹1884年德国工程师P.G. Nipkow发明螺盘旋转扫描器,用光电池把图像的系列光点转变为电脉冲,实现了最原始的电视传输和显示⏹[1887年H.R. Hertz证实电磁波的存在]⏹[1895年意大利人G.Marconi实现无线电报传送]⏹1897年电子束管(electron beam tube)即阴极射线管(CRT = Cathode-Ray Tube)问世,后来出现仪器示波管⏹[1904年英国人J.A. Fleming发明可用于检波的真空电子二极管]⏹[1906年美国发明家L.D. Forest发明可用于功放的真空电子三极管]⏹[1906年美国人R.A. Fessenden发明无线广播]⏹[1919年英国建成无线电广播电台,开始公众无线电广播]⏹[1920年代苏联开始城市有线广播,后来许多国家也建立了有线广播]⏹1923年美籍俄罗斯人(美国两院院士)V.K. Zworykin发明电视光电摄像管⏹1925年美国人C.F. Jenkins和1926年英国人J.L. Baird相继实现影像粗糙的机械扫描系统⏹1930年P.J.范思沃恩发明电子扫描系统⏹1930年RCA公司改进电子束显像管⏹1931年V.K. Zworykin发明电视显像管⏹1937年/1939年英国/美国开始黑白电视广播⏹[1947年J. Bardeen、W.H. Brattain和W.B. Shockley发明点接触晶体管]⏹1940年代末美国发明共用天线电视系统,后来逐步发展为有线电视(电缆电视cabletelevision)⏹1949年美国无线电公司研制成功荫罩式彩色显像管⏹[1952年中国开始在农村建立有线广播网]⏹1952年美国提出NTSC彩色电视制式⏹1954年美国正式开始彩色电视广播⏹[1957年苏联发射人造地球卫星]⏹[1958年美国发射用于通信的低轨试验卫星]⏹[1958年美国物理学家J. Kilby制成第一块集成电路]⏹1958年中国开始黑白电视广播⏹[1963年美国发射定点同步通信卫星]⏹1963年联邦德国提出PAL彩色电视制式⏹[1964年借助于点同步通信卫星实现通信与电视转播]⏹1964年美国无线电公司发现液晶光电效应,后来发展成液晶显示器(LCD = LiquidCrystal Display)⏹1966年美国人D.L.比泽和H.G.斯洛托夫发明等离子显示器PDP(plasma display panel) ⏹1966年法国提出SECAM彩色电视制式⏹1970年代初中国开始彩色电视广播,采用的PAL-D制式⏹1972年日本广播协会研究所提出模拟高清晰度电视HDTV的MUSE方案⏹1974年中国开始在高层建筑中安装和使用共用天线电视系统⏹1979年柯达公司Rochester实验室的邓青云(Ching W Tang汪根祥)发明小分子OLED(Organic Light Emitting Diode有机发光二极管/有机电激发光显示器) 薄膜电视,1987年英国剑桥大学博士生Jeremy Burroughes证明大分子的聚合物也有场致发光效应。
622006 NO.11&12 记录媒体技术基础知识讲座[上接第15页]3. MPEG-4标准运动图像专家组MPEG于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本,同年年底MPEG-4第二版亦告确定,并于2000年年初正式成为国际标准。
MPEG-4与MPEG-1和MPEG-2有很大的不同。
MPEG-4并不只是具体的压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料获取与分散)等整合及压缩技术的需求而制定的国际标准。
MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立一种在多媒体传输、存储、检索等应用领域普遍采用的统一的数据格式。
MPEG-4标准同以前编码标准的最显著差别在于它采用了基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的音视频对象,分别编码后经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。
这样既方便我们对不同的对象采用不同的编码方法和表示方法,又有利于不同数据类型的融合,并且可以方便的实现对于各种对象的操作及编辑。
基于MPEG-4编码,我们可以将一个卡通人物放在真实的场景中,或者将真人置于一个虚拟的演播室里,还可以在互联网上方便的实现交互,根据自己的需要有选择的组合各种音视频以及图形文本对象。
下面简要介绍MPEG-4标准中采用的多项新技术。
(1) 形状编码形状信息的获得首先要对图形进行分析和分割,把各个代表不同内容的目标分割后再用形状表示。
形状信息通常用二值Alpha平面和灰度Alpha平面来表示,二值Alpha平面可用临近信息进行算术编码(CAE);灰度Alpha平面可用运动补偿加DCT变换方式类似纹理编码一样进行编码。
和MPEG-1/2一样,MPEG-4选择了离散Fourier变换(DFT)用于图像压缩。
高效率视频编码编辑高效率视频编码(High Efficiency Video Coding,简称HEVC)是一种视频压缩标准,被视为是ITU-T H.264/MPEG-4 AVC标准的继任者。
2004年开始由ISO/IECMoving Picture Experts Group(MPEG)和ITU-T Video Coding Experts Group(VCEG)作为ISO/IEC 23008-2 MPEG-H Part 2或称作ITU-T H.265开始制定[1][2][3][4][5]。
第一版的HEVC/H.265视频压缩标准在2013年4月13日被接受为国际电信联盟(ITU-T)的正式标准[1][2][6]。
HEVC 被认为不仅提升图像质量,同时也能达到H.264/MPEG-4 AVC两倍之压缩率(等同于同样画面质量下比特率减少了50%),可支持4K分辨率甚至到超高清电视(UHDTV),最高分辨率可达到8192×4320(8K分辨率)。
数个基于HEVC延伸的编码标准正在进行中,包含range extensions(支持高级的视频格式)、可调式编码和3D视频编码标准。
目录[隐藏]• 1 历史o 1.1 标准制定o 1.2 规格书时程• 2 技术细节o 2.1 编码树单元Coding Tree Blocko 2.2 帧内编码Intra Codingo 2.3 帧间编码Inter Codingo 2.4 转换编码Transform Codingo 2.5 环路滤波器Loop Filtering▪ 2.5.1 去区块滤波器Deblocking Filter▪ 2.5.2 取样自适应偏移Sample Adaptive Offseto 2.6 熵编码Entropy Codingo 2.7 平行化编码工具▪ 2.7.1 Slice▪ 2.7.2 Tile▪ 2.7.3 Wavefront Processing• 3 编码规范o 3.1 Profileo 3.2 层级与等级• 4 产品与实现o 4.1 2012o 4.2 2013o 4.3 2014• 5 参见• 6 参考资料•7 外部链接历史[编辑]标准制定[编辑]•2004年:Key Technical Areas(KTA)在H.264/AVC标准制定完(2003年)的后一年,VCEG组织便开始研究更先进的视频压缩技术,期望能够发展下一代视频压缩标准,或期望能大量提升压缩率成为H.264/AVC的延伸版本[1][7]。
h264 编码标准H.264编码标准。
H.264,又称为MPEG-4 AVC(Advanced Video Coding),是一种用于视频压缩的标准。
它是由国际标准化组织(ISO)和国际电信联盟(ITU)共同制定的,旨在提供高质量的视频压缩,并且适用于各种不同的应用场景,包括广播、视频存储和互联网传输。
H.264编码标准的出现,极大地推动了数字视频技术的发展,并且被广泛应用于许多不同的领域。
H.264编码标准的核心是一种高效的视频压缩算法,它可以将视频信号压缩到较小的体积,同时保持高质量的视觉效果。
这一算法利用了运动补偿、变换编码和熵编码等技术,通过减少视频信号中的冗余信息来实现压缩。
与之前的视频编码标准相比,H.264在相同的画质下能够实现更高的压缩比,这意味着它可以在相同的带宽下传输更高质量的视频信号,或者在相同的质量下节省带宽资源。
除了高效的压缩算法之外,H.264还支持多种不同的视频分辨率和帧率,这使得它可以适用于各种不同的应用场景。
无论是高清电视、移动视频还是网络视频会议,H.264都能够提供出色的性能表现。
同时,H.264还支持多种不同的配置参数,用户可以根据自己的需求进行调整,以获得最佳的压缩效果。
在实际的应用中,H.264已经成为了许多不同领域的标准配置。
在数字电视领域,大多数高清电视节目都采用了H.264编码标准,以提供更清晰、更流畅的视频体验。
在移动互联网领域,H.264也是最为流行的视频编码格式之一,许多在线视频平台和移动应用都在使用H.264来传输视频内容。
此外,H.264还被广泛应用于视频监控、视频会议、医学影像等领域,它的高效性能和广泛适用性使得它成为了当今最为重要的视频编码标准之一。
总的来说,H.264编码标准是一种高效、灵活并且广泛适用的视频压缩标准。
它的出现极大地推动了数字视频技术的发展,为用户提供了更高质量的视频体验,同时也为各种不同的应用场景提供了更多的选择。