MPEG-4标准视频编码初论
- 格式:pdf
- 大小:134.05 KB
- 文档页数:5
MPEG-4标准中的视频编码
谭仕勇;戴琼海;陈慧蓉
【期刊名称】《广播与电视技术》
【年(卷),期】2001(028)006
【摘要】MPEG-4是一个全新的多媒体标准,采用了基于对象和模型的编码方法.本文简要总结了MPEG-4视频编码的各种特点,并对其中的纹理编码、形状编码、静止纹理编码、脸部对象编码、网格对象编码、Sprite对象编码以及可分级编码作了简要的介绍.
【总页数】9页(P52-60)
【作者】谭仕勇;戴琼海;陈慧蓉
【作者单位】清华大学自动化系硕士;清华大学自动化系博士,副教授;清化大学自动化系副教授
【正文语种】中文
【中图分类】TN94
【相关文献】
1.MPEG-4标准视频编码器在Blackfin 21535上的实现 [J], 龚剑明
2.MPEG-4音、视频编码标准 [J], 孙志彬
3.基于内容的视频编码标准MPEG-4 [J], 严春满;刘映杰;马义德;刘勍
4.MPEG-4标准视频编码初论 [J], 葛双全;席传裕
5.MPEG-4标准中基于内容的视频编码 [J], 黄剑玲;邹辉
因版权原因,仅展示原文概要,查看原文内容请购买。
浅谈MPEG-4国际标准作者:honey浅谈MPEG-4国际标准一、概述MPEG(Moving Pictures Experts Group,运动图片专家组)是在ISO(国际标准化组织)和IEC(国际电工委员会)内运作的一个工作组。
自从1988年开始活动以来,MPEG已经编制了ISO /IEC11172(通常所说的MPEG-1)和ISO/IEC 13818(通常所说的MPEG-2)国际标准,其中包括用于服务器和网络会话的标准协议DSM-CC(Digital storage media command and control,数字存储媒体命令与控制)。
这些标准已获得产业和服务供应商的广泛支持,并且引起了一场数字革命,使得更加普遍的交互式媒体得以迅速发展。
目前,MPEG将研究重点转向了交互性更加高级的形式,在未来的几年里,技术的发展将使这种高级形式成为可能。
这就是MPEG-4课题的目标,该课题预计在1998年底完成,该项目的完成可使用户达到关于音频视频内容交互性的多种形式,以及以一种整体的方式将人工的和自然的音频和视频信息溶合在一起。
MPEG-4技术包含两个主要部分:视听对象的编码工具集和描述编码工具和编码对象的句法语言(syntatic language)。
从技术的观点看,与传统编码标准最显著的不同是:接收者可以下载用于表示视听信息的语法描述,并且具有很快被VLSI(超大规模集成)技术所支持的特征。
MPEG-4是一个正在制定的国际标准,它支持用于通信、访问和数字视听数据处理的新方法(特别是基于内容的)。
考虑到低损耗、高性能技术提供的机会和面临迅速扩展的多媒体数据库的挑战,MPEG-4将提供灵活的框架和开放的工具集,这些工具将支持一些新型的和常规的功能。
由于快速发展的技术使得工具软件的下载极为便利,因此这种方式极具吸引力。
本文将介绍MPEG-4的特点以及由MPEG-4支持的功能、MPEG-4的结构和一些潜在的应用,还将介绍制定该标准的工作计划。
浅谈MPEG-4技术_物联技术的应用举例MPEG-4是深受人们宠爱的电影文件格式,它以其杰出的画面品质与高压缩比而吸引着众多的“平民电影迷〞。
出于个人兴趣,笔者通过学习,把握了一些MPEG-4技术,在这里抛砖引玉,与大家共同探讨。
MPEG全称是Moving Pictures Experts Group,它是“动态图象专家组〞的英文缩写。
MPEG组织先后开发了应用于VCD的MPEG-1技术和用于数字广播电视和DVD的MPEG-2标准。
MPEG-4于1999年初正式成为国际标准。
它适用于低传输速率应用,与MPEG-1和MPEG-2相比,MPEG-4更加注重多媒体系统的交互性和敏捷性。
MPEG-4的技术特点MPEG-4技术的标准是对运动图像中的内容进行编码,在视频编码方面,MPEG-4支持对自然和合成的视觉对象〔合成的视觉对象包括2D、3D动画和人面部表情动画等〕的编码。
在音频编码上,MPEG-4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。
MPEG-4只处理图像帧与帧之间有差异的元素,舍弃相同的元素,因此大大削减了合成多媒体文件的体积。
它可以动态的侦测图像各个区域改变,基于对象的调整压缩方法可以获得比MPEG-1更大的压缩比,使压缩码流更低。
应用MPEG-4技术的影音文件最显著特点就是压缩率高且成像清楚。
MPEG-4的主要功能1、基于内容的编码〔content-orie-nted〕,即不是像MPEG-1、2等基于像素的编码,而是基于对象和实体进行编码。
对每一个对象的编码形成一个对象码流层,该码流中包含着对象的样子、位置、纹理以及其他方面的属性等。
对一幅图像编码所形成的码流就由一系列这样的对象层码流所构成。
用户可以直接对“对象层〞进行存取操作。
2、编码效率的改良和并发数据流的编码。
3、错误处理的XX棒性(robustness),有助于低比特率视频信号在高误码率环境〔如移动通信环境〕下的存储和传输。
MPEG-IV的标准和应用一、MPEG是什么?MPEG是运动图像专家组的简称,全称是ISO/IEC JTC1/SC29/WG11,即国际标准化组织和国际电工委员会第一联合技术组第29分委会第11工作组,负责数字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工作,制定的标准推动了VCD、DVD、数字电视、高清晰度数字电视等产品的发展。
JPEG是联合图像专家组的简称,全称是ISO/IEC JTC1/SC29/WG1,即国际标准化组织和国际电工委员会第一联合技术组第29分委会第1工作组,负责静止图像编码国际标准的制定,所制定的J PEG、JBIG、JPEG2000等标准在传真机、数字相机等产品中得到了广泛应用。
二、MPEG制定的标准MPEG-1和MPEG-2是MPEG组织制定的第一代视、音频压缩标准,为VCD、DVD及数字电视和高清晰度电视等产业的飞速发展打下了牢固的基础,曾获得了著名的Emmy奖。
MPEG-4是基于第二代视音频编码技术制定的压缩标准,以视听媒体对象为基本单元,实现数字视音频和图形合成应用、交互式多媒体的集成,目前已经在流式媒体服务等领域开始得到应用。
MPEG-7是多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤、检索,已基本完成。
正在制定的MPEG-21的重点是建立统一的多媒体框架,为从多媒体内容发布到消费所涉及的所有标准提供基础体系,支持连接全球网络的各种设备透明地访问各种多媒体资源。
目前,MPEG系列国际标准已经成为影响最大的多媒体技术标准,对数字电视、视听消费电子产品、多媒体通信等信息产业的重要产品产生了深远影响。
三、MPEG4的特点MPEG(Moving Picture Experts Group)专家组继成功定义了MPEG—1和MPEG—2之后,于1993年7月开始制订全新的MPEG-4标准,并分别于1999年初和2000年初正式公布了版本1和版本2。
收稿日期:20021015作者简介:葛双全(1975),研究方向为多媒体信息处理;席传裕(1968),研究方向为计算机网络。
M PEG4标准视频编码初论葛双全,席传裕(中国工程物理研究院计算机应用研究所 四川绵阳 621900)摘 要:M PEG 4视频部分(ISO IEC 144963)是M PEG 4标准核心内容之一,它既提供了传统的基于帧的编码方法也提供了基于视频对象的编码方法,为高效压缩与基于内容的交互提供了坚实的基础。
文章对M PEG 4标准视频编码部分做了详细的描述,并对M PEG 4视频的应用做了简要介绍。
关键词:M PEG 4视频;视频对象;基于对象Abstract :M PEG 4video part (ISO IEC 144963)is one of M PEG 4standard’sco re con ten ts.It no t on ly supp lies the traditi onal fra m e based coding w ay but als o supp lies coding w ay based on video object .Coding based on video object supp lies strong base of h igh ly efficien t comp ressi on and con ten t based in teracti on .T h is article gives fully descri p ti on on M PEG 4standard’s video coding part and gives brief in troducti on to the app licati on of M PEG 4video in m ulti m edia .Key words :M PEG4video ;video object ;objectbased0 引言M PEG4是由运动图象专家组M PEG(M oving P icture Experts Group )建议的ISOIEC 标准。
MPEG4视频压缩编码技术详解MPEG全称是Moving Pictures Experts Group,它是"动态图象专家组"的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。
目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD等。
MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现,MPEG3只能是死于襁褓了。
而我们今天要谈论的主角--MPEG4于1999年初正式成为国际标准。
它是一个适用于低传输速率应用的方案。
与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性。
下面就让我们一起进入多彩的MPEG4世界。
MPEG4的技术特点MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1.MPEG2 技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。
而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为"A V对象",而连续的A V对象组合在一起又可以形成A V场景。
因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输A V对象是MPEG4标准的基本内容。
在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。
(合成的视觉对象包括2D、3D动画和人面部表情动画等)。
在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。
由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。
收稿日期:20021015作者简介:葛双全(1975),研究方向为多媒体信息处理;席传裕(1968),研究方向为计算机网络。
M PEG4标准视频编码初论葛双全,席传裕(中国工程物理研究院计算机应用研究所 四川绵阳 621900)摘 要:M PEG 4视频部分(ISO IEC 144963)是M PEG 4标准核心内容之一,它既提供了传统的基于帧的编码方法也提供了基于视频对象的编码方法,为高效压缩与基于内容的交互提供了坚实的基础。
文章对M PEG 4标准视频编码部分做了详细的描述,并对M PEG 4视频的应用做了简要介绍。
关键词:M PEG 4视频;视频对象;基于对象Abstract :M PEG 4video part (ISO IEC 144963)is one of M PEG 4standard’sco re con ten ts.It no t on ly supp lies the traditi onal fra m e based coding w ay but als o supp lies coding w ay based on video object .Coding based on video object supp lies strong base of h igh ly efficien t comp ressi on and con ten t based in teracti on .T h is article gives fully descri p ti on on M PEG 4standard’s video coding part and gives brief in troducti on to the app licati on of M PEG 4video in m ulti m edia .Key words :M PEG4video ;video object ;objectbased0 引言M PEG4是由运动图象专家组M PEG(M oving P icture Experts Group )建议的ISOIEC 标准。
1998年10月ISO IEC 公布了M PEG4标准草案,并于1999年初成为国际标准,即ISO IEC 14496。
数年的发展表明,M PEG 4在数字电视、交互图象应用和交互多媒体方面等方面有着广泛应用。
作为一个全新的编码标准,M PEG 4为数字化的视听数据的通信、访问和操作提供了新的方法,而且还提供了一个灵活的框架和一套开放的工具来支持新的和传统的性能。
M PEG 4与M PEG 1、M PEG 2以及H 1263等标准最大的区别在于它是基于对象的编码方式,以及它能对合成对象进行编码的能力。
M PEG 1、M PEG 2以及H 1263的压缩编码是基于帧的,所采用的算法在信源模型和块匹配等方面存在不足[1],与用户的交互以帧为单位。
而M PEG 4不再局限于传统的矩形视频对象,而是可以对任意形状的视频图像编码,因此为更有效的压缩、存储和传输数字视音频以及用户与视音频的交互提供了可能。
1 M PEG 4视频编码组织结构从上世纪90年代前后至90年代末,国际上先后制订了H 1261、H 1263以及M PEG 1、M PEG 2等众多国际标准,覆盖了从低码率需求的可视电话、可视会议到高码率需求的数字演播室、高清晰度电视等应用领域。
而M PEG 4标准第2版本的带宽几乎囊括了以前制订的所有国际标准的带宽(如图1所示),也就是说,M PEG 4均可应用于上述领域。
图1 视频压缩标准及其应用 由于M PEG4的应用范围如此广泛,不同的应用的要求又有很大的差别,为此在M PEG 4标准中通过定义类(P rofile )、级(L evel )、算法(A lgo rithm )和工具(Too l )四层结构来描述M PEG 4在某一具体应用中的编码方案。
工具被定义为通过M SDL (M PEG 4Syn tactic D escri p ti on L anguage )得到的一种方法,例如如何运动估计或轮廓描述,M PEG4为编码视音频对象提供了大量有效的工具。
算法则被定义为可提供一个或多个功能的工具集合,例如M PEG 1音频,M PEG1视频或M PEG2系统等等。
类被定义为解决特定编码或功能需求的标准方法,用于确定M PEG 4元素(工具和算法)如何配置、组合为一个压缩器或解压器,以完成特定的应用。
M PEG4包含视频、音频、图形、场景描述、M PEG J 与对象描述六大类,每个类下面又分为一个或多个级,这种分级的方法与M PEG 2类似。
采用这样的分层结构有许多好处,标准并不规定一个具体的编码和解码过程,在具体应用和中只需根据标准的规定组织该应用的层,搭配哪些工具和算法就能运用到某一具体的编码应用,并且所产生的码流能被其他的应用所回放。
其次,随着技术的发展,许多新的有效的编码工具可以方便地以算法或工具的形式添加到标准中。
2 M PEG 4视频编码算法结构211 M PEG 4视频数据结构21111 视频对象视频对象VO (V ideo O bject )是可视场景中景物的抽象描述,从用户的角度,它代表画面中任何有意义的物理实体。
视频对象是M PEG4中编码的独立单位。
场景由一个或多个视频对象组成,每个视频对象的形状、运动和纹理用其相关的时间和空间信息给出。
VO 的生存期为一个片段(Sessi on )。
M PEG4采用视频对象来表示图像内容,可以组合已有的视频对象来生成复合的视频对象,并由此生成视频场景[2],允许对视频对象的数据灵活地多路合成与同步,以便选择合适的网络来传输这些对象数据。
在接收端允许用户在场景中对视频对象进行交互操作。
21112 视频对象平面M PEG4引入了视频对象平面VO P(V ideo O bject P lane )概念。
假设输入的视频序列的每一帧都被分割成多个任意形状的VO P (在M PEG 1、M PEG 2及H 1263中,被处理的图像总是矩形),每个VO P 定义场景中特定的视频内容。
各个VO P 的形状和位置可随帧变化。
属于场景中同一实际物体连续的有着任意形状任意位置的VO P 序列就是视频对象VO 。
VO P 是M PEG4中编码的基本单位。
每个VO P 可以独立地编码,也可以使用运动补偿技术相互依赖地编码。
传统的视频帧也可以用矩形VO P 表示。
VO P 包含了视频对象的运动参数、形状信息和纹理等数据。
VO P 既是一个空间概念也是一个时间概念。
从另一个角度说,VO P 是视频对象VO 在特定时刻的取样。
因此,属于场景中同一个物理对象的连续的VO P 就代表了一个视频对象VO 。
从编码的角度来看,VO 实际上是由一组同一实体的任意形状和位置的VO P 序列组成的。
VO P包括主体对象、背景对象以及文字图形三类。
21113 视频对象层属于同一VO的VO P的形状(shape)、运动(mo ti on)和纹理(tex ture)信息可被编码为一个单独的视频对象层(VOL,V ideo O b2 ject L ayer)。
对同一个VO,可以用不同的空间或时间分辨率编码为多层结构,我们能从一个基础层开始,用增加一些增强层的方法,以分层的方式重建视频。
每个视频对象可以编码成可伸缩的(多层)或不可伸缩的(单层)。
用哪一种方式编码取决于应用。
21114 场景场景是一个或多个声视频对象的组合。
场景的逻辑结构可以用一棵树表示,树中的节点是声视频对象。
M PEG4系统用二进制场景格式B IFS描述场景中声视频对象的空间和时间位置及它们之间的关系。
M PEG4的视频比特流提供了对场景的分层描述。
在比特流中,表示场景的层是可视对象序列V S(V ideo O bject Sequence),它是一个完整的M PEG4场景,其中可能包含自然对象或合成的对象以及它们的增强层。
212 V OP的形状、运动和纹理信息编码M PEG4视频VO P基本的编码结构包括形状编码(对任意形状的视频对象)、运动补偿以及基于DCT的纹理编码(使用标准8×8DCT或形状自适应DCT)。
编码器首先对输入的任意形状的VO P序列用基于块的混合编码技术编码。
先帧内VO P,后帧间VO P和双向预测VO P。
在对VO P的形态状信息编码之后,取得任意形状VO P的采样,每个VO P划分成各不相交的宏块,每个宏块含有四个8×8的像素块,以进行运动估计和补偿及纹理编码。
已编码的VO P帧保存在VO P帧存储器中。
运动矢量在当前VO P 帧和已编码VO P帧之间计算。
对将被编码的块或宏块,计算其运动补偿预测误差。
运动补偿预测后的VO P及误差用8×8块DCT 编码,并进行DC系数的量化,然后进行行程编码和熵编码。
最后,形状、运动和纹理信息合成符合M PEG4标准的比特流输出[3]。
纹理编码、运动估计与补偿基本采用传统的编码方法,而形状编码是首次引入的视频编码技术。
对输入的矩形或任意形状的图像序列,图2描述了M PEG4进行压缩编码的基本算法。
图2 M PEG4编码器基本框图21211 形状编码M PEG4标准中视频对象VO的形状信息有两类:二值形状信息和灰度形状信息。
二值形状信息通常表示为与VO P的边界框相同大小的矩阵。
矩阵的每个元素可以取两种可能的值0、1,这取决于像素是在视频对象内还是在视频对象外,0表示该像素在VO P区域之外,1表示在VO P区域之内。
对二值形状信息进行编码时可以采用基于块的运动补偿技术,可以是无损或有损编码。
灰度形状信息与二值形状信息有相同的结构,用0~255(8比特)之间的数值表示该像素的透明度,0表示完全透明,255则表示完全不透明,中间值对应用像素的相应的透明度,这与计算机图形学中的阿尔法平面的概念大致相同。
编码时采用基于块的运动补偿DCT方法,属于有损编码。
21212 运动信息编码运动估计与运动补偿技术通过对已知图像的一块像素值重新定位,来预测当前图像中相应块的像素值。
M PEG4与M PEG1、M PEG2一样利用运动估计与补偿来减少帧间的时间冗余度。
主要区别在于后两者的压缩基于块,而M PEG4则是基于任意形状的VO P。
VO P有3种编码模式:帧内编码模式(I VO P)、帧间编码模式(P VO P)和帧间双向预测编码模式(B VO P),I VO P 与其它标准的I帧一样只采用帧内压缩,与其它任何VO P无关;P VO P和B VO P编码时需要运动估计与运动补偿,P VO P基于另一个先被解码的VO P作出预测,B VO P则基于当前VO P的前面和后面的VO P作出预测,故B VO P称为双向插值VO P,是基于I VO P或P VO P的插值帧。